0xFunky的想法

12-13

一周前微软发布开源模型 VibeVoice Model，今天 Google 更新 Gemini Audio，而中间这几天，我做了 MeetLingo：一款专注于 PC 线上会议的即时语音翻译工具（Speech-to-Speech）。起因其实很单纯，当 VibeVoice 表示可以延迟300ms的那一刻，我意识到语音 TTS 的延迟已经低到可以真的用在「即时会议」这种对时间极度敏感的场景，所以就直接用 Vibe Coding 花了一天把 MVP 做出来。整个系统走的是 streaming 架构：语音边讲边辨识、翻译 token 边出边送进 TTS，最后直接输出成语音，而不是等一句话讲完才开始处理。也正因为这样，目前在本地 + 开源模型的前提下，TTFA 大概落在 1000～1500ms。放在可自架、可改、可嵌入的开源世界里，一般都是2000ms以上，我们已经算是很有竞争力的数字（体赶上跟Google影片里的翻译速度差不多）老实说，今天看到 Google 公布 Gemini Audio 的更新时，确实有一瞬间觉得「这个想法跟叙事被直接被压过去了」大厂一出手，本来就很容易把创意、时机点、甚至新创的存在感一起盖掉。所以在这个时代，真正重要的往往不是把想法藏著慢慢打磨，而是能不能快速把 MVP 做出来、丢到真实世界里验证。但转念一想，既然已经做了，那就继续吧。 MeetLingo 从一开始就不是只局限在 meeting，本质上它是一个低延迟 speech-to-speech pipeline，未来会支援更多语言，也可以被拿去用在任何即时语音场景，差别只在于，我选择把它做成 open source、local-first，不是一个被锁在平台里的功能。既然已经跑起来了，那就慢慢把它优化到更快、更稳、更好用吧。 Github 跟网站放在留言，欢迎来看看，也欢迎顺手按个 ⭐

Google AI

@GoogleAI

12-13

Listen up 🔊 We’ve made some updates to our Gemini Audio models and capabilities: — Gemini’s live speech-to-speech translation capability is rolling out in a beta experience to the Google Translate app, bringing you real-time audio translation that captures the nuance of human

Github： github.com/0x0funky/MeetLingo… 网站： meetlingo.vercel.app

来自推特

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢