Hume

Hume

15,865個推特粉絲

關注

Empathic AI research lab✨ building AI with emotional intelligence: https://demo.hume.ai

動態

今天，我們正式發布首個開源文字轉語音（TTS）模型－TADA！ TADA（文字音訊雙對齊）是一款語音語言模型，它能將文字和音訊同步生成於同一音訊串流中，從而減少詞元級錯位並降低延遲。這意味著： → 在超過 1000 個測試樣本中，內容錯位為零 → 速度比同等級的語言學習模型（LLM）為基礎的 TTS 快 5 倍 → 可處理更長的音頻：TADA 產生的 2048 個詞元可覆蓋約 700 秒的音頻，而傳統系統只能覆蓋約 70 秒 → 音訊與文字同步，無需額外延遲。

-- 到底啦 --