完爆ChatGPT,谷歌這招太狠:連你的「陰陽怪氣」都能神還原

谷歌發佈Gemini 2.5 Flash原生音頻模型,不僅能保留語調進行實時語音翻譯,更讓AI在複雜指令和連續對話中像真人一樣自然流暢。這一更新標誌著AI從簡單的「文本轉語音」跨越到了真正的「擬人化交互」時代。

想象這樣一個場景:

你戴著耳機走在印度孟買喧鬧的街頭,周圍是嘈雜的叫賣聲和完全聽不懂的印地語。

此時,一位當地大叔急匆匆地用印地語向你詢問路線,他的語速很快,語氣焦急。

若是以前,你可能得手忙腳亂地掏出手機,打開翻譯App,按下按鈕,尷尬地把手機遞到他嘴邊,然後聽著手機裡傳出毫無感情的「機翻」電子音。

Nano Banana Pro製圖

但現在,一切都變了。

你站在原地不動,耳機裡直接傳來了流利的中文:「嘿!朋友,麻煩問一下,火車站是不是往這邊走?

最絕的是,這句中文不僅意思準確,甚至連大叔那種焦急、氣喘吁吁的語調都完美復刻了!

你用中文回答,耳機自動把你的聲音轉化成印地語傳給對方,甚至保留了你熱情的語調。

這不僅是科幻電影裡的《巴別塔》重現,這是谷歌本週剛剛扔下的重磅「核彈」——Gemini 2.5 Flash Native Audio(原生音頻模型)

今天,我們就來扒一扒這次更新到底有多強。

所謂的「原生音頻」,到底強在哪?

很多人可能會問:「現在的手機不都有朗讀功能嗎?這有啥稀奇的?」

這裡有個巨大的誤區。

以前的AI語音交互,流程是這樣的:聽到聲音 -> 轉成文字 -> AI思考文字 -> 生成文字回覆 -> 轉化成語音讀出來。

這個過程不僅慢,而且在「轉來轉去」的過程中,語氣、停頓、情感這些人類溝通中最微妙的東西,全都丟了。

而谷歌這次發佈的Gemini 2.5 Flash Native Audio,核心就在「Native(原生)」這兩個字。

它不需要把聲音轉成文字再轉回來,它是直接聽、直接想、直接說

舉個栗子,這就好比你和一個老外聊天,以前你需要腦子裡瘋狂查字典,現在你已經形成了「語感」,脫口而出。

這次更新,谷歌不僅升級了Gemini 2.5 Pro和Flash的文本轉語音模型,帶來了更強的控制力。

更重要的是,它讓實時語音代理(Live Voice Agents)成真了。

這意味著什麼?

意味著在Google AI Studio、Vertex AI,甚至是搜索(Search Live)裡,你不再是和一個冷冰冰的機器對話,而是在和一個有「腦子」、有「耳朵」的智能體進行實時頭腦風暴

耳機裡的「同聲傳譯」,打破語言的巴別塔

這次更新中,最讓普通用戶感到興奮的,絕對是實時語音翻譯(Live Speech Translation)功能。

谷歌這次沒有畫餅,功能已經開始在美國、墨西哥和印度的安卓設備上,通過Google翻譯App進行Beta測試了(iOS用戶稍安勿躁,馬上就來)。

這個功能有兩個殺手鐧,直擊痛點:

持續監聽與雙向對話:真正的「無感」翻譯

以前用翻譯軟件,最煩的就是要不停地點「說話」按鈕。

現在,Gemini支持持續監聽

你可以把手機揣兜裡,戴上耳機,Gemini會自動把你周圍聽到的多種語言,實時翻譯成你的母語。

這就相當於隨身帶了個隱形翻譯官。

而在雙向對話模式下,它更聰明。

比如你會說英語,想和一個說印地語的人聊天。

Gemini能自動識別是誰在說話。

你在耳機裡聽到的是英語,而當你開口說完話,手機會自動外放印地語給對方聽。

你不需要去設置「現在我說」、「現在他說」,系統全自動切換。

風格遷移:連「情緒」都能翻譯

這是最讓我起雞皮疙瘩的功能——Style Transfer(風格遷移)

傳統的翻譯是「莫得感情」的朗讀機器。

但Gemini利用其原生音頻能力,能捕捉人類語言的細微差別。

如果對方說話時語調上揚、節奏輕快,翻譯出來的聲音也會是歡快的;

如果對方語氣低沉、猶豫,翻譯出來的聲音也會帶著遲疑。

保留了說話者的語調、節奏和音高

這不僅僅是聽懂意思,這是聽懂態度

在商務談判或者吵架的時候,這個功能簡直太重要了!

此外,它還支持:

  • 70多種語言和2000多個語言對:覆蓋了全球絕大多數人的母語。
  • 多語言混輸:即使在一場對話中混雜著幾種不同的語言,它也能同時理解,不用你手動切來切去。
  • 噪聲魯棒性:專門針對嘈雜環境優化,過濾背景音。哪怕你在嘈雜的戶外市場,也能聽得清清楚楚。

開發者狂喜,這個AI終於「聽懂人話」了

如果你是開發者,或者想為企業構建客服AI,這次Gemini 2.5 Flash Native Audio帶來的三個底層能力提升,絕對是「及時雨」。

函數調用更精準

以前的語音助手,一旦涉及到查天氣、查航班這種需要調用外部數據的操作,很容易卡殼或者回答得很生硬。

現在的Gemini 2.5,知道何時該去獲取實時信息,並且能把查到的數據無縫地編織進語音回覆裡,不會打斷對話的流暢感。

在專門測試複雜多步驟函數調用的ComplexFuncBench Audio評測中,Gemini 2.5拿下了71.5%的高分,遙遙領先。

更新後的 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上與之前版本及行業競爭對手的性能對比

這意味著,它能真正充當一個靠譜的「辦事員」,而不是一個只會陪聊的「傻白甜」。

指令遵循更聽話

你是不是經常覺得AI聽不懂複雜的指令?

谷歌這次下了狠功夫。

新模型對開發者指令的遵循率從84%提升到了90%

這意味著,如果你要求AI「用這種特定的格式回答,語氣要嚴厲一點,不要廢話」,它能更精準地執行你的要求。

對於構建企業級服務來說,這種可靠性才是核心競爭力。

對話更絲滑

多輪對話是AI的老大難問題。

聊著聊著,AI就忘了前面說過啥。

Gemini 2.5在檢索上下文方面取得了顯著進步。

它能更有效地記住之前的對話內容,讓整個交流過程不僅連貫,而且具有邏輯性。

配合上原生音頻的低延遲,你會感覺對面真的像坐了一個人。

我們離「賈維斯」還有多遠?

谷歌這次的更新,其實是在傳遞一個明確的信號:

語音交互正在成為下一個時代的入口。

從Gemini Live到Search Live,再到耳機裡的實時翻譯,谷歌正在把AI從屏幕裡解放出來,塞進我們的耳朵裡。

對於普通用戶:語言的障礙正在被技術剷平。

明年(2026年),這一功能將通過Gemini API擴展到更多產品中。

未來,也許我們真的不再需要花費數年時間痛苦地背單詞,一個耳機就能讓我們走遍天下。

對於企業:構建一個能聽、能說、能辦事、有情緒的下一代AI客服,門檻正在大幅降低。

彩蛋

除了原生音頻模型外,谷歌還丟出個核彈級實驗產品——Disco。

它是來自Google Labs的新發現工具,用於測試未來網絡的想法。

它內置了基於谷歌最強模型Gemini 3打造的神器GenTabs。

谷歌直言,目前還處於早期階段,並非所有功能都能完美運行。

最牛的地方在於,它能看懂你的需求。

GenTabs通過主動理解複雜任務(通過用戶打開的標籤頁和聊天記錄)並創建交互式網絡應用程序來幫助完成任務,從而幫助瀏覽網絡。

不用寫一行代碼,它直接把你亂七八糟的標籤頁和聊天記錄,「變」成一個專屬的交互式App。

想做周餐計劃?想教孩子認識行星?

跟它說人話就行,它自動給你生成工具,所有數據都有據可查,絕不瞎編。

目前macOS版已經開放排隊了,雖然還是早期實驗版,但這絕對是把「瀏覽」變成了「創造」。

趕緊衝,這波未來感拉滿了!

One More Thing

技術進步的速度往往超乎我們的想象。

昨天我們還在嘲笑Siri聽不懂人話,今天Gemini已經開始幫我們進行跨語言的情感交流了。

別光看著,Gemini 2.5 Flash Native Audio現在已經在Vertex AI上全面推出,Google AI Studio裡也能試用了。

趕緊去體驗一下吧!

或許在聽到AI用你的語氣說出第一句外語時,你會真切地感受到——未來已來。

參考資料:

https://deepmind.google/blog/

https://x.com/GoogleAI/status/1999560839679082507?s=20

https://blog.google/technology/google-labs/gentabs-gemini-3/

本文來自微信公眾號“新智元”,作者:YHluck,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論