一周前微软发布开源模型 VibeVoice Model,今天 Google 更新 Gemini Audio,而中间这几天,我做了 MeetLingo:一款专注于 PC 线上会议的即时语音翻译工具(Speech-to-Speech)。
起因其实很单纯,当 VibeVoice 表示可以延迟300ms的那一刻,我意识到语音 TTS 的延迟已经低到可以真的用在「即时会议」这种对时间极度敏感的场景,所以就直接用 Vibe Coding 花了一天把 MVP 做出来。
整个系统走的是 streaming 架构:语音边讲边辨识、翻译 token 边出边送进 TTS,最后直接输出成语音,而不是等一句话讲完才开始处理。
也正因为这样,目前在本地 + 开源模型的前提下,TTFA 大概落在 1000~1500ms。放在可自架、可改、可嵌入的开源世界里,一般都是2000ms以上,我们已经算是很有竞争力的数字(体赶上跟Google影片里的翻译速度差不多)
老实说,今天看到 Google 公布 Gemini Audio 的更新时,确实有一瞬间觉得「这个想法跟叙事被直接被压过去了」大厂一出手,本来就很容易把创意、时机点、甚至新创的存在感一起盖掉。
所以在这个时代,真正重要的往往不是把想法藏著慢慢打磨,而是能不能快速把 MVP 做出来、丢到真实世界里验证。
但转念一想,既然已经做了,那就继续吧。
MeetLingo 从一开始就不是只局限在 meeting,本质上它是一个 低延迟 speech-to-speech pipeline,未来会支援更多语言,也可以被拿去用在任何即时语音场景,差别只在于,我选择把它做成 open source、local-first,不是一个被锁在平台里的功能。
既然已经跑起来了,那就慢慢把它优化到更快、更稳、更好用吧。
Github 跟 网站 放在留言,欢迎来看看,也欢迎顺手按个 ⭐

Google AI
@GoogleAI
12-13
Listen up 🔊 We’ve made some updates to our Gemini Audio models and capabilities:
— Gemini’s live speech-to-speech translation capability is rolling out in a beta experience to the Google Translate app, bringing you real-time audio translation that captures the nuance of human

Github:
github.com/0x0funky/MeetLingo…
网站:
meetlingo.vercel.app
来自推特
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
分享




