오늘 저희는 첫 번째 오픈 소스 TTS 모델인 TADA를 공개합니다!
TADA(Text Audio Dual Alignment)는 텍스트와 오디오를 하나의 동기화된 스트림으로 생성하여 토큰 수준의 콘텐츠 왜곡을 줄이고 지연 시간을 개선하는 음성-언어 모델입니다.
즉, 다음과 같은 장점이 있습니다.
→ 1,000개 이상의 테스트 샘플에서 콘텐츠 왜곡이 전혀 발생하지 않음
→ 유사한 수준의 LLM 기반 TTS보다 5배 빠름
→ 훨씬 더 긴 오디오 처리 가능: TADA는 2,048개의 토큰으로 약 700초 분량의 오디오를 처리할 수 있는 반면, 기존 시스템은 약 70초 분량만 처리 가능
→ 오디오와 함께 무료로 제공되는 텍스트 변환 기능으로 지연 시간 추가 없음