이 AI 모델은 공포에 질려 히스테릭하게 비명을 지를 수 있습니다.

avatar
Decrypt
04-24
이 기사는 기계로 번역되었습니다
원문 표시

나리 랩스는 일레븐랩스와 세서미를 능가한다고 주장하는 오�스�음성 모모델 1를 출시했습니다. 이 모델은 단 16억 파라미터작터 있지만 웃음, 기침, 감정적 억양을 포함한 사실적인 대화를 만들 수 있습니다.

심지어 공포에 질려 비명을 을 지를 수도 니p span>이이것이 큰 기술기 성과로 보이지 않을 수 있지만, 심지어 OpenAI의 G도 당황했습 니다: "비명을 를 지를 는 없지만 분명히 말할 수는 있다라� 답니다.<리 모델은 단일 GPU에서 실시간으로 실행되며, Nvidia A4000에서 초당 약 40개의 토큰을 처리합니다. 더 큰 폐쇄형 대안과 달리, Dia-1.6B는 Apache 2.0 라이선스 하에 Hugging Face와 GitHub 저장소를 통해 자유롭게 이용할 수 있습니다.

< � 은 점점 더 많은 감정을을 표현하는하는 텍스트-음성 모델에 초점을 맞추고 있으며, 인간-기계 상호작용의 누락된 요소 를 고 있습니다.지벽지 않고 대부분의모 모델들델은 불쾌한 계곡 효과를 만들어 사용자 경험을 저하시킵니다.

이 문제 를 해결하기 위해 연구자들은 다 양한 기술을 사용하고 있습니다. 일부는정 레이블이 이있는 데이터셋에서 모델을델을 여 가 른 정감정적 음향 � 학습하도록 하고, 다른 이들은 심층 신경망과 대규모 언어 모델을 사용하여 적절한 감정 톤을 생성합니다.

시장 선도 업체 중 중 하 나레브스 는 텍스트 입력에서 직접 감정적 맥락을 해석하려고 시도합니다. 그의 대표 모델인 Eleven Multilingual v2는 29개 언어에서 풍부한 감정 표현으로 유명합니다.

한편 OpenAI는 최근 맞 라 사용자 정의 가능한 표현이 있는 는gpt-4o-미니-tts"을 출습니시연 중에 회사는 고객 지원 시나리오를 위해 "사과하는 같은 감을 지정할 수 있는 능력을 강조했습니다.

Dia-1.6B가 새로운 지평을 열 수 있는 있는 비언어적 소통을 다루는 있 방식니 이모"(웃음)" 또"(침)"과 같은 특정 텍스트 신호에 의해리 웃음,기 목청 리를 합성할 수 있어 표준 TTS 출력에서 흔히 누락된 사실성의 층을 추가합다>

감정적 음성이 왜 그렇게 어려운지는 흥미롭습니다. AI 모델이 로봇 같은 소리를 멈춘 지 오래되었는데도 불구하고 말입니다.

전문가 가감정적 음성 합성이 어려운 려운 이유로 데이터의 감정적 세분성 을 지적 다정 순�나 볼륨이 아니라� 맥, 속도, �,, 망설임 등이 복잡으� 요소를 .

우리가 Dia를 테스트해본 결과, 그것은 꽤 좋았습니다. 하지만 여전히 너무 과장되어 자연스럽지 않았습니다. 이것이 전체 문제의�제 �입니다 - AI 시스템은 너무 많은 맥락적 인식이 부족해서 단일 감정을를 고립시키고 인간이 자연스러운 상호작용으로 믿을 수 있을 정도로 일관성 있게 게만드는 것이이 렵.<론, 인간이는 것 각 생각보다 어렵습.G에게 죄송합니다.:리 스랩스는 일레븐랩스와 세서미를 능하는 감정적표으로 표현력 있는 음성을 생성하는 에서 기존 레이어를 능가한다고 주장하는 오픈소스 텍스트-음성 모델인 아-1.6B를 출시했습니다. 이 모델은 단 16억 개미터를 가진 아주 작은 모델이지만 여전히 웃음, 기침, , 정감 억양을 포함함한 는 실제연적인 대화를 만들 수 있습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트