0xFunky的想法

12-13

一週前微軟發布開源模型 VibeVoice Model，今天 Google 更新 Gemini Audio，而中間這幾天，我做了 MeetLingo：一款專注於 PC 線上會議的即時語音翻譯工具（Speech-to-Speech）。起因其實很單純，當 VibeVoice 表示可以延遲300ms的那一刻，我意識到語音 TTS 的延遲已經低到可以真的用在「即時會議」這種對時間極度敏感的場景，所以就直接用 Vibe Coding 花了一天把 MVP 做出來。整個系統走的是 streaming 架構：語音邊講邊辨識、翻譯 token 邊出邊送進 TTS，最後直接輸出成語音，而不是等一句話講完才開始處理。也正因為這樣，目前在本地 + 開源模型的前提下，TTFA 大概落在 1000～1500ms。放在可自架、可改、可嵌入的開源世界裡，一般都是2000ms以上，我們已經算是很有競爭力的數字（體趕上跟Google影片裡的翻譯速度差不多）老實說，今天看到 Google 公布 Gemini Audio 的更新時，確實有一瞬間覺得「這個想法跟敘事被直接被壓過去了」大廠一出手，本來就很容易把創意、時機點、甚至新創的存在感一起蓋掉。所以在這個時代，真正重要的往往不是把想法藏著慢慢打磨，而是能不能快速把 MVP 做出來、丟到真實世界裡驗證。但轉念一想，既然已經做了，那就繼續吧。 MeetLingo 從一開始就不是只侷限在 meeting，本質上它是一個低延遲 speech-to-speech pipeline，未來會支援更多語言，也可以被拿去用在任何即時語音場景，差別只在於，我選擇把它做成 open source、local-first，不是一個被鎖在平台裡的功能。既然已經跑起來了，那就慢慢把它優化到更快、更穩、更好用吧。 Github 跟網站放在留言，歡迎來看看，也歡迎順手按個 ⭐

Google AI

@GoogleAI

12-13

Listen up 🔊 We’ve made some updates to our Gemini Audio models and capabilities: — Gemini’s live speech-to-speech translation capability is rolling out in a beta experience to the Google Translate app, bringing you real-time audio translation that captures the nuance of human

Github： github.com/0x0funky/MeetLingo… 網站： meetlingo.vercel.app

來自推特

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論