今天,我們正式發布首個開源文字轉語音(TTS)模型-TADA! TADA(文字音訊雙對齊)是一款語音語言模型,它能將文字和音訊同步生成於同一音訊串流中,從而減少詞元級錯位並降低延遲。 這意味著: → 在超過 1000 個測試樣本中,內容錯位為零 → 速度比同等級的語言學習模型(LLM)為基礎的 TTS 快 5 倍 → 可處理更長的音頻:TADA 產生的 2048 個詞元可覆蓋約 700 秒的音頻,而傳統系統只能覆蓋約 70 秒 → 音訊與文字同步,無需額外延遲。
本文為機器翻譯
展示原文
來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享





