A9樱木의 인사이트

03-30

이 기사는 기계로 번역되었습니다

원문 표시

마이크로소프트가 한 번에 최대 60분 분량의 오디오를 처리할 수 있는 최첨단 음성 AI를 오픈소스로 공개했습니다. 녹음 파일을 업로드하면 각 화자를 식별하고, 단어마다 타임스탬프를 기록하며, 완전한 구조화된 텍스트를 출력하고, 누가 언제 무엇을 말했는지 주석을 달아줍니다. 또한 실시간 텍스트 음성 변환(TTS)을 지원하며, 첫 번째 에피소드의 오디오 지연 시간은 단 300밀리초에 불과하고 50개 이상의 언어를 지원합니다. 100% 오픈소스입니다. 링크: github.com/microsoft/VibeVoice...…