avatar
Hume
03-11
이 기사는 기계로 번역되었습니다
원문 표시

오늘 저희는 첫 번째 오픈 소스 TTS 모델인 TADA를 공개합니다! TADA(Text Audio Dual Alignment)는 텍스트와 오디오를 하나의 동기화된 스트림으로 생성하여 토큰 수준의 콘텐츠 왜곡을 줄이고 지연 시간을 개선하는 음성-언어 모델입니다. 즉, 다음과 같은 장점이 있습니다. → 1,000개 이상의 테스트 샘플에서 콘텐츠 왜곡이 전혀 발생하지 않음 → 유사한 수준의 LLM 기반 TTS보다 5배 빠름 → 훨씬 더 긴 오디오 처리 가능: TADA는 2,048개의 토큰으로 약 700초 분량의 오디오를 처리할 수 있는 반면, 기존 시스템은 약 70초 분량만 처리 가능 → 오디오와 함께 무료로 제공되는 텍스트 변환 기능으로 지연 시간 추가 없음

Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트