今天,我们正式发布首个开源文字转语音(TTS)模型-TADA! TADA(文字音讯双对齐)是一款语音语言模型,它能将文字和音讯同步生成于同一音讯串流中,从而减少词元级错位并降低延迟。 这意味著: → 在超过 1000 个测试样本中,内容错位为零 → 速度比同等级的语言学习模型(LLM)为基础的 TTS 快 5 倍 → 可处理更长的音频:TADA 产生的 2048 个词元可覆盖约 700 秒的音频,而传统系统只能覆盖约 70 秒 → 音讯与文字同步,无需额外延迟。
本文为机器翻译
展示原文
来自推特
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
分享





