이 기사는 기계로 번역되었습니다
원문 표시
일주일 전 마이크로소프트는 오픈소스 VibeVoice 모델을 공개했고, 오늘 구글은 Gemini Audio를 업데이트했습니다. 그 사이 저는 PC 온라인 회의에 초점을 맞춘 실시간 음성-음성 변환 도구인 MeetLingo를 개발했습니다.
개발 동기는 간단했습니다. VibeVoice가 300ms의 지연 시간을 발표했을 때, TTS 지연 시간이 "실시간 회의"와 같이 시간에 민감한 상황에서 실제로 사용될 수 있을 만큼 충분히 낮아졌다고 생각했기 때문입니다. 그래서 Vibe 코딩을 사용하여 하루 만에 MVP를 만들었습니다.
전체 시스템은 스트리밍 아키텍처를 사용합니다. 음성 인식과 번역이 동시에 이루어지고, 번역 토큰은 발화와 동시에 TTS 시스템으로 전송되며, 최종적으로는 문장이 끝날 때까지 기다리지 않고 바로 음성으로 출력됩니다.
이러한 특징 덕분에 현재 로컬 및 오픈소스 모델을 사용한 평균 번역 시간(TTFA)은 약 1000~1500ms입니다. 코드를 자유롭게 커스터마이징, 수정, 내장할 수 있는 오픈소스 환경에서는 일반적으로 지연 시간이 2000ms를 넘습니다. 저희의 속도는 이미 상당히 경쟁력이 있습니다(구글 비디오의 번역 속도에 근접합니다).
솔직히 오늘 구글이 제미니 오디오 업데이트를 발표했을 때, "이 아이디어와 이야기가 완전히 묻혀버린 것 같다"는 생각이 들었습니다. 대기업이 움직이면 스타트업의 창의성, 타이밍, 심지어 존재감까지 억눌리기 쉽습니다.
따라서 이 시대에는 아이디어를 숨기고 천천히 다듬는 것이 아니라, MVP를 빠르게 구축하고 실제 환경에서 검증하는 능력이 정말 중요합니다.
하지만 이미 시작했으니 계속 나아가자는 생각이 들었습니다.
MeetLingo는 처음부터 회의에만 국한되지 않았습니다. 본질적으로 저지연 음성-음성 변환 파이프라인입니다. 앞으로 더 많은 언어를 지원하고 모든 실시간 음성 시나리오에서 사용할 수 있게 될 것입니다. 차이점은 특정 플랫폼에 종속된 기능이 아니라 오픈 소스이자 로컬 우선 방식으로 개발하기로 했다는 점입니다.
이제 실행이 시작되었으니, 점차 속도, 안정성, 사용 편의성을 개선해 나가겠습니다.
제 GitHub와 웹사이트 주소는 댓글에 있습니다. 자유롭게 방문해 보시고, 마음에 드시면 별점(⭐)을 남겨주세요!

Google AI
@GoogleAI
12-13
Listen up 🔊 We’ve made some updates to our Gemini Audio models and capabilities:
— Gemini’s live speech-to-speech translation capability is rolling out in a beta experience to the Google Translate app, bringing you real-time audio translation that captures the nuance of human

깃허브:
github.com/0x0funky/MeetLingo…
웹사이트:
meetlingo.vercel.app
Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유





