完爆ChatGPT，谷歌這招太狠：連你的「陰陽怪氣」都能神還原

36氪

12-15

谷歌發佈Gemini 2.5 Flash原生音頻模型，不僅能保留語調進行實時語音翻譯，更讓AI在複雜指令和連續對話中像真人一樣自然流暢。這一更新標誌著AI從簡單的「文本轉語音」跨越到了真正的「擬人化交互」時代。

想象這樣一個場景：

你戴著耳機走在印度孟買喧鬧的街頭，周圍是嘈雜的叫賣聲和完全聽不懂的印地語。

此時，一位當地大叔急匆匆地用印地語向你詢問路線，他的語速很快，語氣焦急。

若是以前，你可能得手忙腳亂地掏出手機，打開翻譯App，按下按鈕，尷尬地把手機遞到他嘴邊，然後聽著手機裡傳出毫無感情的「機翻」電子音。

Nano Banana Pro製圖

但現在，一切都變了。

你站在原地不動，耳機裡直接傳來了流利的中文：「嘿！朋友，麻煩問一下，火車站是不是往這邊走？」

最絕的是，這句中文不僅意思準確，甚至連大叔那種焦急、氣喘吁吁的語調都完美復刻了！

你用中文回答，耳機自動把你的聲音轉化成印地語傳給對方，甚至保留了你熱情的語調。

這不僅是科幻電影裡的《巴別塔》重現，這是谷歌本週剛剛扔下的重磅「核彈」——Gemini 2.5 Flash Native Audio（原生音頻模型）。

今天，我們就來扒一扒這次更新到底有多強。

所謂的「原生音頻」，到底強在哪？

很多人可能會問：「現在的手機不都有朗讀功能嗎？這有啥稀奇的？」

這裡有個巨大的誤區。

以前的AI語音交互，流程是這樣的：聽到聲音 -> 轉成文字 -> AI思考文字 -> 生成文字回覆 -> 轉化成語音讀出來。

這個過程不僅慢，而且在「轉來轉去」的過程中，語氣、停頓、情感這些人類溝通中最微妙的東西，全都丟了。

而谷歌這次發佈的Gemini 2.5 Flash Native Audio，核心就在「Native（原生）」這兩個字。

它不需要把聲音轉成文字再轉回來，它是直接聽、直接想、直接說。

舉個栗子，這就好比你和一個老外聊天，以前你需要腦子裡瘋狂查字典，現在你已經形成了「語感」，脫口而出。

這次更新，谷歌不僅升級了Gemini 2.5 Pro和Flash的文本轉語音模型，帶來了更強的控制力。

更重要的是，它讓實時語音代理（Live Voice Agents）成真了。

這意味著什麼？

意味著在Google AI Studio、Vertex AI，甚至是搜索（Search Live）裡，你不再是和一個冷冰冰的機器對話，而是在和一個有「腦子」、有「耳朵」的智能體進行實時頭腦風暴。

耳機裡的「同聲傳譯」，打破語言的巴別塔

這次更新中，最讓普通用戶感到興奮的，絕對是實時語音翻譯（Live Speech Translation）功能。

谷歌這次沒有畫餅，功能已經開始在美國、墨西哥和印度的安卓設備上，通過Google翻譯App進行Beta測試了（iOS用戶稍安勿躁，馬上就來）。

這個功能有兩個殺手鐧，直擊痛點：

持續監聽與雙向對話：真正的「無感」翻譯

以前用翻譯軟件，最煩的就是要不停地點「說話」按鈕。

現在，Gemini支持持續監聽。

你可以把手機揣兜裡，戴上耳機，Gemini會自動把你周圍聽到的多種語言，實時翻譯成你的母語。

這就相當於隨身帶了個隱形翻譯官。

而在雙向對話模式下，它更聰明。

比如你會說英語，想和一個說印地語的人聊天。

Gemini能自動識別是誰在說話。

你在耳機裡聽到的是英語，而當你開口說完話，手機會自動外放印地語給對方聽。

你不需要去設置「現在我說」、「現在他說」，系統全自動切換。

風格遷移：連「情緒」都能翻譯

這是最讓我起雞皮疙瘩的功能——Style Transfer（風格遷移）。

傳統的翻譯是「莫得感情」的朗讀機器。

但Gemini利用其原生音頻能力，能捕捉人類語言的細微差別。

如果對方說話時語調上揚、節奏輕快，翻譯出來的聲音也會是歡快的；

如果對方語氣低沉、猶豫，翻譯出來的聲音也會帶著遲疑。

它保留了說話者的語調、節奏和音高。

這不僅僅是聽懂意思，這是聽懂態度。

在商務談判或者吵架的時候，這個功能簡直太重要了！

此外，它還支持：

70多種語言和2000多個語言對：覆蓋了全球絕大多數人的母語。
多語言混輸：即使在一場對話中混雜著幾種不同的語言，它也能同時理解，不用你手動切來切去。
噪聲魯棒性：專門針對嘈雜環境優化，過濾背景音。哪怕你在嘈雜的戶外市場，也能聽得清清楚楚。

開發者狂喜，這個AI終於「聽懂人話」了

如果你是開發者，或者想為企業構建客服AI，這次Gemini 2.5 Flash Native Audio帶來的三個底層能力提升，絕對是「及時雨」。

函數調用更精準

以前的語音助手，一旦涉及到查天氣、查航班這種需要調用外部數據的操作，很容易卡殼或者回答得很生硬。

現在的Gemini 2.5，知道何時該去獲取實時信息，並且能把查到的數據無縫地編織進語音回覆裡，不會打斷對話的流暢感。

在專門測試複雜多步驟函數調用的ComplexFuncBench Audio評測中，Gemini 2.5拿下了71.5%的高分，遙遙領先。

更新後的 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上與之前版本及行業競爭對手的性能對比

這意味著，它能真正充當一個靠譜的「辦事員」，而不是一個只會陪聊的「傻白甜」。

指令遵循更聽話

你是不是經常覺得AI聽不懂複雜的指令？

谷歌這次下了狠功夫。

新模型對開發者指令的遵循率從84%提升到了90%！

這意味著，如果你要求AI「用這種特定的格式回答，語氣要嚴厲一點，不要廢話」，它能更精準地執行你的要求。

對於構建企業級服務來說，這種可靠性才是核心競爭力。

對話更絲滑

多輪對話是AI的老大難問題。

聊著聊著，AI就忘了前面說過啥。

Gemini 2.5在檢索上下文方面取得了顯著進步。

它能更有效地記住之前的對話內容，讓整個交流過程不僅連貫，而且具有邏輯性。

配合上原生音頻的低延遲，你會感覺對面真的像坐了一個人。

我們離「賈維斯」還有多遠？

谷歌這次的更新，其實是在傳遞一個明確的信號：

語音交互正在成為下一個時代的入口。

從Gemini Live到Search Live，再到耳機裡的實時翻譯，谷歌正在把AI從屏幕裡解放出來，塞進我們的耳朵裡。

對於普通用戶：語言的障礙正在被技術剷平。

明年（2026年），這一功能將通過Gemini API擴展到更多產品中。

未來，也許我們真的不再需要花費數年時間痛苦地背單詞，一個耳機就能讓我們走遍天下。

對於企業：構建一個能聽、能說、能辦事、有情緒的下一代AI客服，門檻正在大幅降低。

彩蛋

除了原生音頻模型外，谷歌還丟出個核彈級實驗產品——Disco。

它是來自Google Labs的新發現工具，用於測試未來網絡的想法。

它內置了基於谷歌最強模型Gemini 3打造的神器GenTabs。

谷歌直言，目前還處於早期階段，並非所有功能都能完美運行。

最牛的地方在於，它能看懂你的需求。

GenTabs通過主動理解複雜任務（通過用戶打開的標籤頁和聊天記錄）並創建交互式網絡應用程序來幫助完成任務，從而幫助瀏覽網絡。

不用寫一行代碼，它直接把你亂七八糟的標籤頁和聊天記錄，「變」成一個專屬的交互式App。

想做周餐計劃？想教孩子認識行星？

跟它說人話就行，它自動給你生成工具，所有數據都有據可查，絕不瞎編。

目前macOS版已經開放排隊了，雖然還是早期實驗版，但這絕對是把「瀏覽」變成了「創造」。

趕緊衝，這波未來感拉滿了！

One More Thing

技術進步的速度往往超乎我們的想象。

昨天我們還在嘲笑Siri聽不懂人話，今天Gemini已經開始幫我們進行跨語言的情感交流了。

別光看著，Gemini 2.5 Flash Native Audio現在已經在Vertex AI上全面推出，Google AI Studio裡也能試用了。

趕緊去體驗一下吧！

或許在聽到AI用你的語氣說出第一句外語時，你會真切地感受到——未來已來。

參考資料：

https://deepmind.google/blog/

https://x.com/GoogleAI/status/1999560839679082507?s=20

https://blog.google/technology/google-labs/gentabs-gemini-3/

本文來自微信公眾號“新智元”，作者：YHluck，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論