一週前微軟發布開源模型 VibeVoice Model,今天 Google 更新 Gemini Audio,而中間這幾天,我做了 MeetLingo:一款專注於 PC 線上會議的即時語音翻譯工具(Speech-to-Speech)。
起因其實很單純,當 VibeVoice 表示可以延遲300ms的那一刻,我意識到語音 TTS 的延遲已經低到可以真的用在「即時會議」這種對時間極度敏感的場景,所以就直接用 Vibe Coding 花了一天把 MVP 做出來。
整個系統走的是 streaming 架構:語音邊講邊辨識、翻譯 token 邊出邊送進 TTS,最後直接輸出成語音,而不是等一句話講完才開始處理。
也正因為這樣,目前在本地 + 開源模型的前提下,TTFA 大概落在 1000~1500ms。放在可自架、可改、可嵌入的開源世界裡,一般都是2000ms以上,我們已經算是很有競爭力的數字(體趕上跟Google影片裡的翻譯速度差不多)
老實說,今天看到 Google 公布 Gemini Audio 的更新時,確實有一瞬間覺得「這個想法跟敘事被直接被壓過去了」大廠一出手,本來就很容易把創意、時機點、甚至新創的存在感一起蓋掉。
所以在這個時代,真正重要的往往不是把想法藏著慢慢打磨,而是能不能快速把 MVP 做出來、丟到真實世界裡驗證。
但轉念一想,既然已經做了,那就繼續吧。
MeetLingo 從一開始就不是只侷限在 meeting,本質上它是一個 低延遲 speech-to-speech pipeline,未來會支援更多語言,也可以被拿去用在任何即時語音場景,差別只在於,我選擇把它做成 open source、local-first,不是一個被鎖在平台裡的功能。
既然已經跑起來了,那就慢慢把它優化到更快、更穩、更好用吧。
Github 跟 網站 放在留言,歡迎來看看,也歡迎順手按個 ⭐

Google AI
@GoogleAI
12-13
Listen up 🔊 We’ve made some updates to our Gemini Audio models and capabilities:
— Gemini’s live speech-to-speech translation capability is rolling out in a beta experience to the Google Translate app, bringing you real-time audio translation that captures the nuance of human

Github:
github.com/0x0funky/MeetLingo…
網站:
meetlingo.vercel.app
來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享




