Doubao App Grayscale의 최신 음성 모드는 GPT-4o가 할 수 없는 노래를 실현합니다.

avatar
36氪
01-21
이 기사는 기계로 번역되었습니다
원문 표시
GM(Good Morning) 의 첫 번째 업데이트는 2025년 음성 통화 기능에 초점을 맞추었습니다. 2025년 1월 20일, GM은 최신 "엔드 투 엔드" 음성 대규모 모델을 출시하고 이를 기반으로 GM 앱의 실시간 음성 통화 기능을 업데이트했습니다. 이전에는 GM의 음성 통화 기능이 ASR(자동 음성 인식) + LLM(대규모 언어 모델) + TTS(텍스트 음성 변환)의 단계적 접근 방식을 사용했습니다. 이제 업데이트된 엔드 투 엔드 음성 대규모 모델은 음성 인식, 이해 및 생성을 단일 모델에서 해결합니다. "영혼의 가수" 및 "변신 대가" 등 GM의 새로운 음성 통화 모드는 GPT-4o보다 한 발 앞서 노래와 역할 연기를 구현했습니다. GM은 이제 노래 작곡 능력도 갖추었습니다. 사용자가 "연말 보너스가 많이 있는 노래를 불러달라"고 요청하면 즉시 노래를 선보입니다. 역할 연기와 노래 능력을 통해 GM의 의인화 능력, 자연스러운 상호 작용 및 감정 표현 수준이 한 단계 더 향상되었습니다. GM은 "받은 소리 작은 포장" 및 "칭찬 대가" 등 두 가지 새로운 성격 모드를 출시했습니다. "받은 소리 작은 포장"은 위축된 모습을 보여주며, "칭찬 대가"는 사용자의 칭찬에 화답합니다. 이번 업데이트를 통해 GM의 음성 상호 작용 기술이 크게 향상되었으며, 이는 감정 표현 및 역할 연기 분야에서 AI의 발전을 보여줍니다.

GM(Good Morning) 对话1

GM(Good Morning) 对话2

在语音层面对角色扮演、情绪感知和表达能力的提升,则是丰富AI与人交互形式、提升沉浸感的关键一环。情感交互能开拓的市场空间,也逼迫着技术朝着"拟人"的方向更近一步。

欢迎交流!

欢迎关注!

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트