Stability AI 推出“穩定音訊”模型,用於可控音訊生成

avatar
AI News
09-14
本文為機器翻譯
展示原文

Stability AI推出了“穩定音訊”,這是一種旨在徹底改變音訊生成的潛在擴散模型。

這一突破有望成為生成人工智慧的又一次飛躍,它結合了文字後設資料、音訊持續時間和開始時間調節,對生成的音訊的內容和長度提供前所未有的控制,甚至可以建立完整的歌曲。

傳統上,音訊擴散模型在生成固定持續時間的音訊方面面臨著重大限制,通常會導致突然且不完整的音樂短語。這主要是因為模型接受了從較長檔案中裁剪出的隨機音訊塊的訓練,然後強制達到預定的長度。

穩定音訊有效地解決了這一歷史性挑戰,能夠生成指定長度的音訊,直至訓練視窗大小。

穩定音訊的突出特點之一是它使用大量下采樣的音訊潛在表示,與原始音訊相比,推理時間大大加快。通過尖端的擴散取樣技術,旗艦穩定音訊模型可以利用 NVIDIA A100 GPU 的強大功能,在一秒內以 44.1 kHz 取樣率生成 95 秒的立體聲音訊。

紮實的基礎

Stable Audio 的核心架構包括變分自動編碼器 (VAE)、文字編碼器和基於 U-Net 的條件擴散模型。

VAE 通過將立體聲音訊壓縮為抗噪、有損潛在編碼來發揮關鍵作用,從而顯著加快生成和訓練過程。這種方法基於描述音訊編解碼器編碼器和解碼器架構,有助於任意長度音訊的編碼和解碼,同時確保高保真輸出。

為了利用文字提示的影響,Stability AI 使用了一個文字編碼器,該編碼器源自專門在其資料集上訓練的CLAP模型。這使得模型能夠向文字特徵注入有關單詞和聲音之間關係的資訊。這些從 CLAP 文字編碼器倒數第二層提取的文字特徵通過交叉注意力層整合到擴散 U-Net 中。

在訓練過程中,模型學習合併音訊塊中的兩個關鍵屬性:起始秒數(“seconds_start”)和原始音訊檔案的總持續時間(“seconds_total”)。這些屬性每秒轉換為離散的學習嵌入,然後與文字提示標記連線起來。這種獨特的調節允許使用者在推理過程中指定生成音訊的所需長度。

Stable Audio 核心的擴散模型擁有驚人的 9.07 億個引數,並利用殘差層、自注意力層和交叉注意力層的複雜混合來對輸入進行降噪,同時考慮文字和時序嵌入。為了提高較長序列長度的記憶體效率和可擴充套件性,該模型結合了記憶體高效的注意力實現。

為了訓練旗艦版 Stable Audio 模型,Stability AI 整理了一個廣泛的資料集,其中包含超過 800,000 個音訊檔案,涵蓋音樂、音效和單樂器主幹。這個豐富的資料集是與著名的音樂提供商AudioSparx合作提供的,其音訊長度達到驚人的 19,500 小時。

Stable Audio 代表了音訊生成研究的先鋒,誕生於 Stability AI 的生成音訊研究實驗室Harmonai 。該團隊仍然致力於推進模型架構、完善資料集和增強培訓程式。他們的追求包括提高輸出質量、微調可控性、優化推理速度以及擴大可實現的輸出長度範圍。

Stability AI 暗示了 Harmonai 即將釋出的版本,並暗示了基於穩定音訊和可訪問訓練程式碼的開源模型的可能性。

這一最新的突破性公告是在一系列有關穩定性的值得注意的故事之後釋出的。本週早些時候,Stability 與其他七家知名人工智慧公司一起簽署了白宮自願人工智慧安全承諾,作為第二輪的一部分。

您可以在這裡親自嘗試穩定音訊

(埃裡克·諾帕寧 ( Eric Nopanen ) 在Unsplash上拍攝)

想向行業領導者瞭解更多關於人工智慧和大資料的知識嗎?檢視在阿姆斯特丹、加利福尼亞州和倫敦舉辦的人工智慧與大資料博覽會。該綜合活動與數字化轉型周同期舉行。

在此探索由 TechForge 提供支援的其他即將舉行的企業技術活動和網路研討會。

Stability AI 推出用於可控音訊生成的“穩定音訊”模型,該模型首先出現在AI News上。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論