Hume의 인사이트

03-11

이 기사는 기계로 번역되었습니다

원문 표시

오늘 저희는 첫 번째 오픈 소스 TTS 모델인 TADA를 공개합니다! TADA(Text Audio Dual Alignment)는 텍스트와 오디오를 하나의 동기화된 스트림으로 생성하여 토큰 수준의 콘텐츠 왜곡을 줄이고 지연 시간을 개선하는 음성-언어 모델입니다. 즉, 다음과 같은 장점이 있습니다. → 1,000개 이상의 테스트 샘플에서 콘텐츠 왜곡이 전혀 발생하지 않음 → 유사한 수준의 LLM 기반 TTS보다 5배 빠름 → 훨씬 더 긴 오디오 처리 가능: TADA는 2,048개의 토큰으로 약 700초 분량의 오디오를 처리할 수 있는 반면, 기존 시스템은 약 70초 분량만 처리 가능 → 오디오와 함께 무료로 제공되는 텍스트 변환 기능으로 지연 시간 추가 없음

섹터:

SEC 증권형 토큰

레이어 1

스마트 컨트랙트