Nari Labs发布了�了Dia-1.6B,这是一个开源的文本转语音模型,声称在生成富有情感表现力的语音方方面超越了E了ElevenLabs和LEsame等已建立的参与者。该模型非常小巧——仅有16亿个参数——但仍然可以创建逼真的对话,包括笑声、咳�情感情抑扬顿挫。
< p>它甚至可以恐惧地尖叫。尽管这听起来可能不是一大个巨大的技术成就,但即使OpenAI的型ChatGPT也对此此感困惑:"我无法尖叫,但我肯定可以大声说话,"当被问及时,其聊聊机器人如此回复。现在,一些AI模型可以尖叫,如果你要求它们这样做。但这并不是自然或有机发生的事显然,这是Dia-1.6B的超能力。它理解在某些情况下,尖叫是恰当的。
Nari的模型在单个配备10GB显存的GPU上实时运在Nvidia A4000上秒处理约个代币。与更大的闭代案同Dia-1.6B在Apache 2.0许可下下可自由获取,可通过Hugging Face和GitHub仓库获得。
"一个荒谬的目标:构建一个能与NotebookLM播客、ElevenLabs工作室和SesM相媲美的文本转语音模型。不知怎的,我们成功了,"Nari Labs联合创始人Toby Kim在宣布该模型时在X上发布。并排比较显示,Dia在处理标准对话和非语言表达方面优于竞争对手,后者往往会使传递变得平淡或完全跳过非语言标签。
AI平台越来越关注使其文本转语音模型能展示情感,以解决人人机交互中缺失的元素。然而,它们并不完美,大多为数型无论放还是封�往往会产生令人不安的"不间舒�"效应,从而降低用户体验。
我们已经尝试并比较了几个专注于情感语音这一特定主题的平台,只要用户以正确的心态并了解其局它们大多相相当错。然而,这项技术仍远未令人信服。
p。为了解决这个问题,研究人员正在采用各种技术。有些人在带有情感标签的数据集上训练模型,使AI学习与不同情感状态相关声联的声学模式。其他人则使用深度神经网络和大型语言模型来分析上下文线索以生成适当的情感调。
市场领导者之之一le一个,试图直接从文本输入中解释情感上下文,查看语言线索、句子结构和和和标点符号以推断适当的情感语调。其旗舰模型Eleven多语言v2以在29种语言中丰富的情感表达而而闻。
p与此同时,OpenAI最近推出了"Dia-1.6B可能开辟了新的地平在于其处理非语言交交流的方式。该模型可以在特定文本提示(如"(笑)"或"(咳�)发合成笑声、咳嗽和清嗓子——添加了在标准文本转语音输出中常常缺失的真实感层面。
除了Dia-1.6B,其他值得注开项目还包括Emoti">Voice——一个多于语音引擎,持感作为可控样式因素——以及Orpheus,以超低延迟和逼真的情感表达而闻名
但为什么情感语音如如此困难?毕竟,AI工模型早已不听起来像机器人<在我来情感语音合成之所以困难,为依赖的数据缺�情感感情感粒颗粒度。大多数训练数据集捕捉的语音干净且易懂,但并不深刻富有表现力,"AI视频生成公公司ise首席执行官Kaveh Vahdat告诉Decrypt。"情感不仅仅是语调或音量;它是上下文、、节奏、紧张感和犹豫。这些特征些往是隐式的,很少以机器可以学习的式标记。"
"即使使用情感标签,它们也往往将真实人类情感的复�性复杂性简化为'为'高兴'或'愤怒'等广泛类别,这与情感在语音中际作方式去甚远,"Vah争辩道。
"不舒服的谷"效应构成了特别的挑战,因为合成语音无法无无法仅通过采用更具情感的语调来弥补中性机器人语音。
还存在更多技术障碍。AI系系系统在未包含在其练训中话身上测试时往表现不色佳,这是一�个在在说话者无关实验中分类准确率低的已知问题。实时处理情感语音需要大大量算力,限制了在消费者设备上的部署。
p或许最根本的是,一些研究人员a法�全仿情感,因为它缺乏意识。虽然AI可以基基于模式模仿情情感,,但它缺乏人类带入情感互动的生活经验和同理心。看来,做一个人比看起来更难。。抱�,歉ChatGPT。





