Hume

Hume

15,865명의 트위터 팔로워

팔로우하기

Empathic AI research lab✨ building AI with emotional intelligence: https://demo.hume.ai

포스팅

오늘 저희는 첫 번째 오픈 소스 TTS 모델인 TADA를 공개합니다! TADA(Text Audio Dual Alignment)는 텍스트와 오디오를 하나의 동기화된 스트림으로 생성하여 토큰 수준의 콘텐츠 왜곡을 줄이고 지연 시간을 개선하는 음성-언어 모델입니다. 즉, 다음과 같은 장점이 있습니다. → 1,000개 이상의 테스트 샘플에서 콘텐츠 왜곡이 전혀 발생하지 않음 → 유사한 수준의 LLM 기반 TTS보다 5배 빠름 → 훨씬 더 긴 오디오 처리 가능: TADA는 2,048개의 토큰으로 약 700초 분량의 오디오를 처리할 수 있는 반면, 기존 시스템은 약 70초 분량만 처리 가능 → 오디오와 함께 무료로 제공되는 텍스트 변환 기능으로 지연 시간 추가 없음

-- 끝 --