谷歌發佈Gemini 2.5 Flash原生音頻模型,不僅能保留語調進行實時語音翻譯,更讓AI在複雜指令和連續對話中像真人一樣自然流暢。這一更新標誌著AI從簡單的「文本轉語音」跨越到了真正的「擬人化交互」時代。
想象這樣一個場景:
你戴著耳機走在印度孟買喧鬧的街頭,周圍是嘈雜的叫賣聲和完全聽不懂的印地語。
此時,一位當地大叔急匆匆地用印地語向你詢問路線,他的語速很快,語氣焦急。
若是以前,你可能得手忙腳亂地掏出手機,打開翻譯App,按下按鈕,尷尬地把手機遞到他嘴邊,然後聽著手機裡傳出毫無感情的「機翻」電子音。
Nano Banana Pro製圖
但現在,一切都變了。
你站在原地不動,耳機裡直接傳來了流利的中文:「嘿!朋友,麻煩問一下,火車站是不是往這邊走?」
最絕的是,這句中文不僅意思準確,甚至連大叔那種焦急、氣喘吁吁的語調都完美復刻了!
你用中文回答,耳機自動把你的聲音轉化成印地語傳給對方,甚至保留了你熱情的語調。
這不僅是科幻電影裡的《巴別塔》重現,這是谷歌本週剛剛扔下的重磅「核彈」——Gemini 2.5 Flash Native Audio(原生音頻模型)。
今天,我們就來扒一扒這次更新到底有多強。
所謂的「原生音頻」,到底強在哪?
很多人可能會問:「現在的手機不都有朗讀功能嗎?這有啥稀奇的?」
這裡有個巨大的誤區。
以前的AI語音交互,流程是這樣的:聽到聲音 -> 轉成文字 -> AI思考文字 -> 生成文字回覆 -> 轉化成語音讀出來。
這個過程不僅慢,而且在「轉來轉去」的過程中,語氣、停頓、情感這些人類溝通中最微妙的東西,全都丟了。
而谷歌這次發佈的Gemini 2.5 Flash Native Audio,核心就在「Native(原生)」這兩個字。
它不需要把聲音轉成文字再轉回來,它是直接聽、直接想、直接說。
舉個栗子,這就好比你和一個老外聊天,以前你需要腦子裡瘋狂查字典,現在你已經形成了「語感」,脫口而出。
這次更新,谷歌不僅升級了Gemini 2.5 Pro和Flash的文本轉語音模型,帶來了更強的控制力。
更重要的是,它讓實時語音代理(Live Voice Agents)成真了。
這意味著什麼?
意味著在Google AI Studio、Vertex AI,甚至是搜索(Search Live)裡,你不再是和一個冷冰冰的機器對話,而是在和一個有「腦子」、有「耳朵」的智能體進行實時頭腦風暴。
耳機裡的「同聲傳譯」,打破語言的巴別塔
這次更新中,最讓普通用戶感到興奮的,絕對是實時語音翻譯(Live Speech Translation)功能。
谷歌這次沒有畫餅,功能已經開始在美國、墨西哥和印度的安卓設備上,通過Google翻譯App進行Beta測試了(iOS用戶稍安勿躁,馬上就來)。
這個功能有兩個殺手鐧,直擊痛點:
持續監聽與雙向對話:真正的「無感」翻譯
以前用翻譯軟件,最煩的就是要不停地點「說話」按鈕。
現在,Gemini支持持續監聽。
你可以把手機揣兜裡,戴上耳機,Gemini會自動把你周圍聽到的多種語言,實時翻譯成你的母語。
這就相當於隨身帶了個隱形翻譯官。
而在雙向對話模式下,它更聰明。
比如你會說英語,想和一個說印地語的人聊天。
Gemini能自動識別是誰在說話。
你在耳機裡聽到的是英語,而當你開口說完話,手機會自動外放印地語給對方聽。
你不需要去設置「現在我說」、「現在他說」,系統全自動切換。
風格遷移:連「情緒」都能翻譯
這是最讓我起雞皮疙瘩的功能——Style Transfer(風格遷移)。
傳統的翻譯是「莫得感情」的朗讀機器。
但Gemini利用其原生音頻能力,能捕捉人類語言的細微差別。
如果對方說話時語調上揚、節奏輕快,翻譯出來的聲音也會是歡快的;
如果對方語氣低沉、猶豫,翻譯出來的聲音也會帶著遲疑。
它保留了說話者的語調、節奏和音高。
這不僅僅是聽懂意思,這是聽懂態度。
在商務談判或者吵架的時候,這個功能簡直太重要了!
此外,它還支持:
- 70多種語言和2000多個語言對:覆蓋了全球絕大多數人的母語。
- 多語言混輸:即使在一場對話中混雜著幾種不同的語言,它也能同時理解,不用你手動切來切去。
- 噪聲魯棒性:專門針對嘈雜環境優化,過濾背景音。哪怕你在嘈雜的戶外市場,也能聽得清清楚楚。
開發者狂喜,這個AI終於「聽懂人話」了
如果你是開發者,或者想為企業構建客服AI,這次Gemini 2.5 Flash Native Audio帶來的三個底層能力提升,絕對是「及時雨」。
函數調用更精準
以前的語音助手,一旦涉及到查天氣、查航班這種需要調用外部數據的操作,很容易卡殼或者回答得很生硬。
現在的Gemini 2.5,知道何時該去獲取實時信息,並且能把查到的數據無縫地編織進語音回覆裡,不會打斷對話的流暢感。
在專門測試複雜多步驟函數調用的ComplexFuncBench Audio評測中,Gemini 2.5拿下了71.5%的高分,遙遙領先。
更新後的 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上與之前版本及行業競爭對手的性能對比
這意味著,它能真正充當一個靠譜的「辦事員」,而不是一個只會陪聊的「傻白甜」。
指令遵循更聽話
你是不是經常覺得AI聽不懂複雜的指令?
谷歌這次下了狠功夫。
新模型對開發者指令的遵循率從84%提升到了90%!
這意味著,如果你要求AI「用這種特定的格式回答,語氣要嚴厲一點,不要廢話」,它能更精準地執行你的要求。
對於構建企業級服務來說,這種可靠性才是核心競爭力。
對話更絲滑
多輪對話是AI的老大難問題。
聊著聊著,AI就忘了前面說過啥。
Gemini 2.5在檢索上下文方面取得了顯著進步。
它能更有效地記住之前的對話內容,讓整個交流過程不僅連貫,而且具有邏輯性。
配合上原生音頻的低延遲,你會感覺對面真的像坐了一個人。
我們離「賈維斯」還有多遠?
谷歌這次的更新,其實是在傳遞一個明確的信號:
語音交互正在成為下一個時代的入口。
從Gemini Live到Search Live,再到耳機裡的實時翻譯,谷歌正在把AI從屏幕裡解放出來,塞進我們的耳朵裡。
對於普通用戶:語言的障礙正在被技術剷平。
明年(2026年),這一功能將通過Gemini API擴展到更多產品中。
未來,也許我們真的不再需要花費數年時間痛苦地背單詞,一個耳機就能讓我們走遍天下。
對於企業:構建一個能聽、能說、能辦事、有情緒的下一代AI客服,門檻正在大幅降低。
彩蛋
除了原生音頻模型外,谷歌還丟出個核彈級實驗產品——Disco。
它是來自Google Labs的新發現工具,用於測試未來網絡的想法。
它內置了基於谷歌最強模型Gemini 3打造的神器GenTabs。
谷歌直言,目前還處於早期階段,並非所有功能都能完美運行。
最牛的地方在於,它能看懂你的需求。
GenTabs通過主動理解複雜任務(通過用戶打開的標籤頁和聊天記錄)並創建交互式網絡應用程序來幫助完成任務,從而幫助瀏覽網絡。
不用寫一行代碼,它直接把你亂七八糟的標籤頁和聊天記錄,「變」成一個專屬的交互式App。
想做周餐計劃?想教孩子認識行星?
跟它說人話就行,它自動給你生成工具,所有數據都有據可查,絕不瞎編。
目前macOS版已經開放排隊了,雖然還是早期實驗版,但這絕對是把「瀏覽」變成了「創造」。
趕緊衝,這波未來感拉滿了!
One More Thing
技術進步的速度往往超乎我們的想象。
昨天我們還在嘲笑Siri聽不懂人話,今天Gemini已經開始幫我們進行跨語言的情感交流了。
別光看著,Gemini 2.5 Flash Native Audio現在已經在Vertex AI上全面推出,Google AI Studio裡也能試用了。
趕緊去體驗一下吧!
或許在聽到AI用你的語氣說出第一句外語時,你會真切地感受到——未來已來。
參考資料:
https://deepmind.google/blog/
https://x.com/GoogleAI/status/1999560839679082507?s=20
https://blog.google/technology/google-labs/gentabs-gemini-3/
本文來自微信公眾號“新智元”,作者:YHluck,36氪經授權發佈。




