文｜周鑫雨
编辑｜苏建勋
2025年，豆包的第一更，放在了语音通话功能上。
2025年1月20日，豆包发布了最新的“端到端”语音大模型，并基于该模型更新豆包APP的实时语音通话功能。
此前，豆包语音通话功能采用的是ASR（自动语音识别）+LLM（大语言模型）+TTS（文生音频）的级联方案。如今更新的端到端语音大模型，是将语音识别、理解和生成，都放在同一个模型中解决。
据《智能涌现》测试，更新语音模...

<div>文｜周鑫雨编辑｜苏建勋2025年，豆包的第一更，放在了语音通话功能上。2025年1月20日，豆包发布了最新的“端到端”语音大模型，并基于该模型更新豆包APP的实时语音通话功能。此前，豆包语音通话功能采用的是ASR（自动语音识别）+LLM（大语言模型）+TTS（文生音频）的级联方案。如今更新的端到端语音大模型，是将语音识别、理解和生成，都放在同一个模型中解决。据《智能涌现》测试，更新语音模型后的豆包，最大的亮点在于，豆包在语音交互时，把类似人类的表达形式和情感输出，复刻了出来。与此同时，新版本的对话流畅度和智商情商，也有大幅提升。比如，豆包上新的“灵魂歌手”和“百变大咖”等语音通话模式，比GPT-4o还抢先一步，实现了唱歌和角色扮演。<img src="https://img.36krcdn.com/hsossms/20250120/v2_29049246d97c4e7d83be4ae55dbb1d1d@5783683_oswg423182oswg1080oswg2340_img_000?x-oss-process=image/format,jpg/interlace,1">△豆包更新的语音通话模式。<h3>豆包学会了唱歌，和角色扮演</h3>豆包一个大变化，是把语音的角色扮演能力，拓展到了明星、书中和影视中的角色。这一功能，也体现在了豆包语音通话的“百变大咖”模式中。比如当作者提出“模仿虞书欣的声音说话，并且说一段新年祝福”，豆包一句“哼，我才不要模仿她呢！我就是我，不一样的烟火”，就把“小作精”的劲儿还原出来了。演示视频：https://pan.baidu.com/s/1i9DvF3o2wjq_jyGMuF_lgQ?pwd=yrn8而且豆包的上下文记忆能力也相当不错。当我在同一段对话中尝试了宋丹丹、林黛玉、甄嬛等角色，再次要求豆包模仿虞书欣时，它立马委屈上了：“怎么又让我模仿她呀？”演示视频：<a rel="nofollow" href="https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a">https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a</a>当下，市面上多数语音模型的歌曲创作，还需要用户输入较为专业的文字Prompt，或者需要先基于用户输入的文字音频，进行谱曲，无法在自然的语音交互中，做到“张口就来”。豆包这次上线的“灵魂歌手”模式，就能让豆包在聊天中，随口把歌唱了。比如让豆包唱一首节奏欢快的歌，它张口就来了一曲Taylor Swift的《Love Story》，不过缺点是把歌名说成了“Lose Control”，以及音准确实也有些“Lose Control”。演示视频：<a rel="nofollow" href="https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j">https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j</a>除此之外，歌曲创作能力，豆包也有了。比如和豆包说“给我唱一首歌，歌词里面要有‘年终奖多多’”，它立刻表演了一首。虽然歌词比较口水，但响应速度很是优秀。演示视频：<a rel="nofollow" href="https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb">https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb</a>从角色演绎和唱歌的能力就能感受到，豆包的拟人能力、交互自然程度以及情绪表达水平，已经是next level。比如让豆包讲个鬼故事，它能根据情节切换语气，非常有氛围感。演示视频：<a rel="nofollow" href="https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb">https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb</a>这次豆包又上线了两种人格模式：“受气小包”和“夸夸大师”。所谓的“受气小包”，官方说法是可以让豆包呈现委屈巴巴的状态。但我们聊下来的感受是，“受气小包”更准确的说法应该是“绿茶小包”。演示视频：<a rel="nofollow" href="https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr">https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr</a>不过难得的是，不管接受任何指令，“受气小包”都能维持“委屈”的人设。比如让“受气小包”阴阳怪气一些，最阴阳的版本，还是散发着茶香：“哟，我可不敢呐，你可是主子，我不过是个任您使唤的小可怜，哪敢有什么别的想法呀！”演示视频：<a rel="nofollow" href="https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746">https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746</a>相比于8月发布的出版语音通话功能，能明显感受到，豆包的情绪感知能力也更强了。通过一个“啊哈”，它就能感知到用户欢快的情绪。演示视频：<a rel="nofollow" href="https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb">https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb</a>当然，豆包的情绪表达上，也变得更像人。用“猜性别”来逗豆包，有一种和真实网友开玩笑的感觉。演示视频：<a rel="nofollow" href="https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa">https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa</a><h3>搞定语音交互，拟人赛道的入场券</h3>2024年5月，自OpenAI旗下GPT-4o发布以来的很长一段时间里，市面上大多AI语音通话功能，采用的都是ASR（自动语音识别）+LLM（大语言模型）+TTS（文生音频）的级联方案。比如初代豆包的语音通话功能，就集成了语音识别模型Seed-ASR、语音合成模型Seed-TTS，以及整合了RTC（实时音视频）技术，来实现对话情境下AI的实时交互。但集成多个模型的级联方案，劣势在于AI的交互，很大程度上还不够像人一样自然。在“语音转文字再转语音” 的过程中，难免出现信息的损耗。这也导致，传统的语音交互模式在落地场景上有一定的局限性。行业对于AI语音交互的落地，局限在教育、客服等高专业度、低拟人度的场景中。不过，端到端方案正在逐渐成为主流。比如智谱在2024年10月发布的GLM-4-Voice，以及面壁智能在2025年1月15日发布的“端侧GPT-4o”MiniCPM-o 2.6，就采用了端到端的模型方案，在一个模型里同时完成视觉的理解，以及语音的理解和生成。据《智能涌现》了解，这次豆包语音通话功能的更新，主要是由于底层模型技术，从原有多个多模态模型合作的级联方案，改成了直接从“理解语音到生成语音”的端到端方案，因此在降低延时、自然度、情感表达等方面，都有了明显的提升，并且还能输出歌曲。而语音能力的提升，也会将AI落地的空间，从教培、客服等专业领域，扩展到情感陪伴、心理咨询、配音等更广阔的场景中。尤其是AI情感陪伴、角色扮演领域，在当下已经展现出强大的吸金能力。比如，最近一款主打AI偶像扮演的App“Lovey Dovey”，迅速冲上韩区iOS评分第一，深受追星族的追捧。“六小虎”MiniMax旗下的角色扮演应用Talkie，根据AI产品榜，截至2024年12月拥有2977万月活用户。<img src="https://img.36krcdn.com/hsossms/20250120/v2_c739baf7b9b64d1eb5fcc460da584980@5783683_oswg234751oswg1080oswg529_img_000?x-oss-process=image/format,jpg/interlace,1">Lovey Dovey对话1<img src="https://img.36krcdn.com/hsossms/20250120/v2_1b4a852744f344e18f8ebd4c0ac2de6f@5783683_oswg239731oswg1080oswg598_img_000?x-oss-process=image/format,jpg/interlace,1">Lovey Dovey对话2在语音层面对角色扮演、情绪感知和表达能力的提升，则是丰富AI与人交互形式、提升沉浸感的关键一环。情感交互能开拓的市场空间，也逼迫着技术朝着“拟人”的方向更近一步。<img src="https://img.36krcdn.com/hsossms/20250120/v2_a18c329e04154954bc8d12d7659d17ca@5783683_oswg649725oswg1389oswg517_img_png?x-oss-process=image/quality,q_90/format,jpg/interlace,1">欢迎交流！<img src="https://img.36krcdn.com/hsossms/20250120/v2_c061406b420c4b099ff91483dba8399e@5783683_oswg141209oswg900oswg296_img_jpg?x-oss-process=image/quality,q_100/format,jpg/interlace,1">欢迎关注！</div>

豆包App灰度最新语音模式，实现了GPT-4o不会的唱歌

2025년, 두팩의 첫 번째 업데이트는 음성 통화 기능에 초점을 맞추었습니다.
2025년 1월 20일, 두팩은 최신 "엔드 투 엔드" 음성 대규모 모델을 출시하고 이를 기반으로 두팩 앱의 실시간 음성 통화 기능을 업데이트했습니다.
이전에는 두팩의 음성 통화 기능이 ASR(자동 음성 인식) + LLM(대규모 언어 모델) + TTS(텍스트 음성 변환)의 단계적 방식을 사용했습니다. 이제 업데이트된 엔드 투 엔드 음성 대규모 모델은 음성 인식, 이해 및 생성을 단일 모델에서 해결합니다.
<智能涌现> 테스트에 따르면, 음성 모델 업데이트로...

GM(Good Morning) 의 첫 번째 업데이트는 2025년 음성 통화 기능에 초점을 맞추었습니다.

2025년 1월 20일, GM은 최신 "엔드 투 엔드" 음성 대규모 모델을 출시하고 이를 기반으로 GM 앱의 실시간 음성 통화 기능을 업데이트했습니다.

이전에는 GM의 음성 통화 기능이 ASR(자동 음성 인식) + LLM(대규모 언어 모델) + TTS(텍스트 음성 변환)의 단계적 접근 방식을 사용했습니다. 이제 업데이트된 엔드 투 엔드 음성 대규모 모델은 음성 인식, 이해 및 생성을 단일 모델에서 해결합니다.

"영혼의 가수" 및 "변신 대가" 등 GM의 새로운 음성 통화 모드는 GPT-4o보다 한 발 앞서 노래와 역할 연기를 구현했습니다.

GM은 이제 노래 작곡 능력도 갖추었습니다. 사용자가 "연말 보너스가 많이 있는 노래를 불러달라"고 요청하면 즉시 노래를 선보입니다.

역할 연기와 노래 능력을 통해 GM의 의인화 능력, 자연스러운 상호 작용 및 감정 표현 수준이 한 단계 더 향상되었습니다.

GM은 "받은 소리 작은 포장" 및 "칭찬 대가" 등 두 가지 새로운 성격 모드를 출시했습니다. "받은 소리 작은 포장"은 위축된 모습을 보여주며, "칭찬 대가"는 사용자의 칭찬에 화답합니다.

이번 업데이트를 통해 GM의 음성 상호 작용 기술이 크게 향상되었으며, 이는 감정 표현 및 역할 연기 분야에서 AI의 발전을 보여줍니다.<img src="https://img.36krcdn.com/hsossms/20250120/v2_c739baf7b9b64d1eb5fcc460da584980@5783683_oswg234751oswg1080oswg529_img_000?x-oss-process=image/format,jpg/interlace,1">GM(Good Morning) 对话1<img src="https://img.36krcdn.com/hsossms/20250120/v2_1b4a852744f344e18f8ebd4c0ac2de6f@5783683_oswg239731oswg1080oswg598_img_000?x-oss-process=image/format,jpg/interlace,1">GM(Good Morning) 对话2在语音层面对角色扮演、情绪感知和表达能力的提升，则是丰富AI与人交互形式、提升沉浸感的关键一环。情感交互能开拓的市场空间，也逼迫着技术朝着"拟人"的方向更近一步。<img src="https://img.36krcdn.com/hsossms/20250120/v2_a18c329e04154954bc8d12d7659d17ca@5783683_oswg649725oswg1389oswg517_img_png?x-oss-process=image/quality,q_90/format,jpg/interlace,1">欢迎交流！<img src="https://img.36krcdn.com/hsossms/20250120/v2_c061406b420c4b099ff91483dba8399e@5783683_oswg141209oswg900oswg296_img_jpg?x-oss-process=image/quality,q_100/format,jpg/interlace,1">欢迎关注！</div>

Doubao App Grayscale의 최신 음성 모드는 GPT-4o가 할 수 없는 노래를 실현합니다.

저명한 거시 전략가인 린 앨든은 최근 프로그램에서 현재 세계 금융 시스템의 상태를 "느린 붕괴"라고 묘사하며, 이 시스템 내에서 개인들이 어떻게 착취당하는지 자세히 설명했습니다.

저명한 거시 전략가 린 앨든: "비트코인은 현재의 붕괴된 금융 시스템에서 벗어날 수 있는 유일한 길입니다."

트위터(현 X) 공동 창업자이자 블록 의 CEO인 잭 도시는 비트코인 ​​수도꼭지(Bitcoin 파우셋(Faucet) 의 부활을 암시했습니다.
이번 발표는 암호화폐 커뮤니티 전반의 관심을 빠르게 끌었습니다. 이는 간단한 질문을 제기합니다...

잭 도시는 비트코인 ​​수도꼭지(Bitcoin Faucet)의 부활을 예고했습니다.

FIFA 월드컵에서는 ADI 체인 기반의 예측 시장 플랫폼이 운영될 예정이며, 해당 네트워크의 토큰 가격은 금요일에 사상 최고치를 경신했습니다.