微軟剛剛開源了一款前沿語音AI,可在單次處理中處理60分鐘音頻。 你上傳錄音文件。它識別每個說話人,為每個詞添加時間戳,輸出完整結構化文本,標註誰說了什麼以及何時說的。 還支持實時TTS,首音頻延遲僅300毫秒,支持50多種語言。 100%開源。 鏈接:github.com/microsoft/VibeVoice...

來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論