이 기사는 기계로 번역되었습니다
원문 표시

마이크로소프트가 한 번에 최대 60분 분량의 오디오를 처리할 수 있는 최첨단 음성 AI를 오픈소스로 공개했습니다. 녹음 파일을 업로드하면 각 화자를 식별하고, 단어마다 타임스탬프를 기록하며, 완전한 구조화된 텍스트를 출력하고, 누가 언제 무엇을 말했는지 주석을 달아줍니다. 또한 실시간 텍스트 음성 변환(TTS)을 지원하며, 첫 번째 에피소드의 오디오 지연 시간은 단 300밀리초에 불과하고 50개 이상의 언어를 지원합니다. 100% 오픈소스입니다. 링크: github.com/microsoft/VibeVoice...

Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트