마이크로소프트가 한 번에 최대 60분 분량의 오디오를 처리할 수 있는 최첨단 음성 AI를 오픈소스로 공개했습니다.
녹음 파일을 업로드하면 각 화자를 식별하고, 단어마다 타임스탬프를 기록하며, 완전한 구조화된 텍스트를 출력하고, 누가 언제 무엇을 말했는지 주석을 달아줍니다.
또한 실시간 텍스트 음성 변환(TTS)을 지원하며, 첫 번째 에피소드의 오디오 지연 시간은 단 300밀리초에 불과하고 50개 이상의 언어를 지원합니다.
100% 오픈소스입니다.
링크: github.com/microsoft/VibeVoice...…