Followin LogoFollowin
  • icon of HOMEicon of HOME
    오늘
  • icon of INTELicon of INTEL
    정보
  • icon of EXPLOREicon of EXPLORE
    시장
  • icon of EARNicon of EARN
    적립
  • icon of SETTINGicon of SETTING
    설정
    • 계정
    • 테마 선택
      • 라이트
      • 다크
    • 언어
      • English
      • 简体中文
      • 繁體中文
      • Tiếng Việt
      • 한국어
Followin APP
Web3 가능성 발견
avatar
로그인
avatar
Hume
15,865명의 트위터 팔로워
팔로우하기
Empathic AI research lab✨ building AI with emotional intelligence: https://demo.hume.ai
포스팅
avatar
Hume
03-11
오늘 저희는 첫 번째 오픈 소스 TTS 모델인 TADA를 공개합니다! TADA(Text Audio Dual Alignment)는 텍스트와 오디오를 하나의 동기화된 스트림으로 생성하여 토큰 수준의 콘텐츠 왜곡을 줄이고 지연 시간을 개선하는 음성-언어 모델입니다. 즉, 다음과 같은 장점이 있습니다. → 1,000개 이상의 테스트 샘플에서 콘텐츠 왜곡이 전혀 발생하지 않음 → 유사한 수준의 LLM 기반 TTS보다 5배 빠름 → 훨씬 더 긴 오디오 처리 가능: TADA는 2,048개의 토큰으로 약 700초 분량의 오디오를 처리할 수 있는 반면, 기존 시스템은 약 70초 분량만 처리 가능 → 오디오와 함께 무료로 제공되는 텍스트 변환 기능으로 지연 시간 추가 없음
TADA
2.23%
-- 끝 --