微软刚刚开源了一款前沿语音AI,可在单次处理中处理60分钟音频。 你上传录音文件。它识别每个说话人,为每个词添加时间戳,输出完整结构化文本,标注谁说了什么以及何时说的。 还支持实时TTS,首音频延迟仅300毫秒,支持50多种语言。 100%开源。 链接:github.com/microsoft/VibeVoice...…

来自推特
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
分享
微软刚刚开源了一款前沿语音AI,可在单次处理中处理60分钟音频。 你上传录音文件。它识别每个说话人,为每个词添加时间戳,输出完整结构化文本,标注谁说了什么以及何时说的。 还支持实时TTS,首音频延迟仅300毫秒,支持50多种语言。 100%开源。 链接:github.com/microsoft/VibeVoice...…
