5秒延遲,70種語言:Google把同傳逼到牆角

Google正式發佈Gemini 3.5 Live Translate,主打"近實時"語音到語音翻譯,支持70+種語言自動識別。

文章作者、來源:0x9999in1



TL;DR

  • 2026年6月9日,Google正式發佈Gemini 3.5 Live Translate,主打"近實時"語音到語音翻譯,支持70+種語言自動識別。
  • 它最大的顛覆不是準確率,而是拋棄了"輪換式"翻譯範式——不再等你說完一句話再翻,而是邊聽邊譯,落後說話人僅幾秒。
  • 模型保留原說話人的語調、節奏、音高,所有輸出嵌入SynthID水印;已上線Google Translate、Google Meet(私測)、Gemini Live API。
  • 全球AI同傳市場2026年估值約6.6億美元,2035年預計衝到31億美元,CAGR 19.1%;AI翻譯整體市場2026年規模3.5–4億美元區間,並向2030年8–10億美元逼近。
  • 受衝擊最直接的是中低端聽譯、企業例會翻譯、視頻字幕、跨境客服;高端會議同傳、文學翻譯、外交場景短期內還撐得住。
  • 一位從業十年的翻譯朋友的真實自述被廣泛傳播——"我的工作變成了檢查AI翻譯有沒有錯,月薪從兩萬降到八千。"——這不是段子,是產業現實。
  • 這門職業不會消失,但會被重新定價。能活下來的不是"翻得快"的人,是"翻得對、翻得有人味"的人。

一、Google這次發佈的,到底是什麼東西?

先把事實擺清楚。

2026年6月9日,Google在官方博客The Keyword上線了一篇文章,標題就一句話:Fluid, natural voice translation with Gemini 3.5 Live Translate。

它的核心不是"更準"。是"更早"。

傳統機器翻譯,包括過去版本的Google Translate、微軟Translator,乃至大多數同傳App,邏輯都是turn-by-turn——等你說完一句話或一個語義段,再翻。中間夾著尷尬的空白。兩個人面對面交流,節奏被強行打斷。所有人都尷尬。

Gemini 3.5 Live Translate不一樣。它是流式的。

邊聽,邊翻,邊說。

落後說話人"just a few seconds"。Google自己給的是"幾秒之內",國內媒體援引的數據是延遲壓縮到5秒以內。

更關鍵的一點:它保留原說話人的intonation、pacing、pitch——語調、節奏、音高。

什麼意思?傳統TTS翻完之後,給你一個標準、機械、毫無情緒的女聲或男聲。Gemini 3.5不再這麼幹。它試圖讓翻譯後的聲音聽起來"像你"——不是聲紋克隆,而是情感色彩的遷移。

你憤怒,它翻完的語氣也帶著憤怒。

你猶豫,它的英文輸出也會遲疑。

你笑著說話,它的法語版也會帶笑意。

這是一次範式的遷移。從"信息轉換"到"語境傳遞"。

它具體落地在哪些產品?

三個入口,節奏很快:

第一,開發者側。Gemini Live API公開預覽,Google AI Studio裡直接能調。模型代碼叫gemini-3.5-live-translate-preview。Agora、LiveKit、Pipecat、Fishjam這些實時音視頻基礎設施已經在第一波集成名單裡。

第二,企業側。Google Meet本月起向部分Workspace企業客戶開放私測。語言數從原先的5種暴增到70+種,會議中的語言組合從原先"只能英文進/出"擴展到2000+種組合

第三,消費側。Google Translate的App,Android和iOS全球更新。Android端新增了一個細節非常戳人的功能——"聽筒聆聽模式":你不用戴耳機,手機貼在耳朵上,像打電話一樣,翻譯就直接從聽筒裡出來。

不需要Pixel Buds。不需要專屬硬件。一部手機,一個App。

合作伙伴裡值得提一句的是東南亞的Grab——他們正在用這個模型,讓司機和外國乘客在接駕時實時對話。Grab每月通過自家平臺產生超過1000萬次語音通話。這是一個真實存在的、量級巨大的應用場景。

安全這塊Google做了什麼?

所有生成的音頻都帶SynthID水印,Google DeepMind那套技術。

水印嵌進波形裡,肉耳聽不出來,但機器能檢測。

目前沒法去除。

為什麼強調這個?因為接下來你會明白——一個能模仿你語調、節奏、情緒的AI翻譯器,意味著什麼樣的濫用風險。Google提前圈了一道圍欄。

二、為什麼"不用等你說完"是核彈級的變化?

技術上,這一步看似小,實則是同傳行業等了幾十年的臨界點。

先講清楚一個最基本的概念:人類同傳做的就是"邊聽邊說"。這是同傳和交傳的根本區別。交傳等你說完,記筆記,再翻。同傳——也就是會議箱裡戴耳機那種——和說話人幾乎同時輸出,延遲通常2到6秒。

業內有個鐵律:人類同傳一場最多撐20到30分鐘,必須換人。因為認知負荷高到爆表——一邊聽源語言,一邊在腦子裡轉譯,一邊用目標語言輸出,一邊還要監聽自己剛才說了什麼。這是地球上認知強度最高的幾種工作之一。

機器過去做不到。

因為機器要"等"。等一個完整的語義單元,才有底氣翻。

Transformer架構本質上是看到完整上下文才能輸出最優解。

Gemini 3.5 Live Translate這一步,技術上靠的是流式生成架構——邊讀token邊輸出token,並且引入了一個動態的"等待—翻譯"權衡:什麼時候多等一拍以保證質量,什麼時候立刻冒出來跟上節奏,模型自己判斷。

它在效率和質量之間找到了一個工程上可接受的甜點。

5秒以內的延遲,對會議、客服、直播、教學這些非外交級場景,已經夠用了。

夠用,就意味著替代。

這個產品定位為什麼這麼狠?

我說一個數據。Google自己的口徑:每月有"超過一萬億個詞"通過Google翻譯產品被處理,覆蓋數十億用戶。

這個體量本身就是一個壁壘。任何一家創業公司想做"AI同傳",做出來Demo很容易,做到Google這個規模、這個穩定性、這個語言覆蓋度、這個噪音魯棒性——很難。

而且Google這次的打法非常"全棧":API給開發者,Meet給企業,App給個人,Listening Mode給沒有耳機的所有人。入口全部鋪開,不留縫隙。

這不是發佈一個模型。這是發佈一個"翻譯基礎設施"。

三、給市場算筆賬:盤子有多大,蛋糕怎麼切?

談衝擊之前,先把市場摸清楚。否則就是空談。

AI同傳市場:根據Business Research Insights 2026年的報告,全球AI Simultaneous Interpreting市場2026年估值約6.6億美元,預計到2035年達到31.4億美元,CAGR 19.1%。北美約佔40%份額,亞太30%,歐洲25%。

AI翻譯軟件市場:根據textunited、CSA Research、Slator綜合數據,AI翻譯市場2026年規模在35–40億美元區間,2030年預計衝到80–100億美元

整個語言服務行業:根據Nimdzi 2025年報告,2024年全球語言服務市場規模717億美元。Mordor Intelligence給出的預測是2026年達到649.9億美元(注:口徑不同),2031年增長到976.5億美元,CAGR 8.44%。

傳統同傳服務:全球Simultaneous Interpreter市場2025年估值21.5億美元,預計2032年達到39.9億美元,CAGR 9.2%。遠程同傳(RSI)市場2026年規模約12億美元,CAGR 15.8%。

看出門道了嗎?

整個語言服務大盤還在增長。但AI部分增速遠高於人工部分。AI翻譯CAGR 20%+,人工同傳CAGR 9%。剪刀差越拉越大。

更要命的是這個數據:根據CSA Research 2026年初的調查,95%的企業已經在用AI或機器翻譯。Gitnux的數據是72%的翻譯機構已經在內部整合AI工具,而單詞翻譯的平均成本在過去幾年下跌28%,降到每詞0.07美元。

價格下行,需求上行,誰吃掉了被擠壓出來的產能?

AI。

誰的工資被壓縮了?

中低端譯員。

四、對聽譯職業的真實衝擊:分層瓦解,不是一刀切

我必須把話說在前面:我不認為AI會"消滅"翻譯職業

這種說法太懶了。也不準確。

但AI正在重構這個職業的金字塔結構。從底部開始,一層一層往上吃。

第一層:字幕、視頻聽譯、批量音視頻轉寫

這一層已經基本結束戰鬥了。

Premiere Pro、CapCut、剪映、達芬奇全部內置AI字幕生成。準確率95%以上。

B站、YouTube自動多語言字幕已經成標配。

專門做視頻翻譯的公司,比如HeyGen,可以做到口型同步+多語言配音。

價格塌得有多狠?2020年市場上一個普通英中字幕單價大約每分鐘8–15元,2026年降到每分鐘1–3元,還要免費試用

人在這一層基本只剩"校對"功能。月入兩萬降到八千的故事,主要發生在這一層。

第二層:企業例會、跨境客服、直播帶貨

Gemini 3.5 Live Translate這一刀就砍在這一層。

之前企業開跨境會議,要請同傳公司,一小時2000–5000元起步,半天封頂價8000–15000元。

現在Google Meet直接內嵌,按訂閱費走。

Grab這種重場景,每月1000萬次司乘通話——你讓人類去翻?根本不可能。這塊從一開始就是AI的市場,但之前精度不夠,現在夠了。

客服、電商、直播帶貨這些"高頻、低門檻、強實時"場景,AI拿走99%。

第三層:商務會議、行業峰會、技術研討

這一層是爭奪的主戰場。

AI能做到80分的水平。但客戶願不願意為最後那20分付錢?

看場合,看人。

法律、醫療、併購談判——客戶不敢省。

內部分享、產品演示、技術Workshop——客戶開始省。

這是大批中端譯員目前的"舒適區",未來3–5年會被嚴重擠壓。新浪財經2025年底的報道里給了一個數據:翻譯崗位將被AI取代約40%,初級譯員收入腰斬,企業翻譯成本降低40%–50%。

這不是預測,是已經發生的事。

第四層:高端同傳、外交、文學、影視配音

這一層目前安全。

但"目前"兩個字很重要。

外交場合容錯率為零,AI的政治、文化語境理解還不夠。

文學翻譯涉及隱喻、押韻、文化轉譯,AI給出的總是"對的"譯文,但不是"好的"譯文。

頂級同傳不只是翻譯,是語義補全+情緒潤色+現場救火。AI暫時學不會替領導圓場。

但中長期看,這一層也會縮。因為整個市場對"高端"的定義在被AI拉高門檻——AI能做的事情都不再值錢。能值錢的,必須是AI做不到的,而AI能做的越來越多。

五、聽譯這門手藝,未來還值多少錢?

我說幾個判斷。鋒利一點。

第一,"翻譯"不會消失,"翻譯員"會被重新定義。

未來的翻譯職業,大概率會分裂成兩類:

一類是AI翻譯質檢員/Post-Editor,時薪低、量大、可遠程,門檻低,被卷得很慘。

一類是Cross-cultural Communication Strategist——跨文化溝通顧問。不只翻語言,還翻語境、翻意圖、翻商業邏輯。時薪高,但數量稀少。

中間地帶消失。

第二,硬件場景會出現新的紅利期。

Google把Listening Mode放進手機聽筒,本身就是個信號——AI翻譯正在穿戴化、隨身化。Meta的Ray-Ban智能眼鏡、Apple Vision Pro、各種AI耳機——下一個戰場是"無感翻譯硬件"。

這塊不僅衝擊翻譯員,還衝擊翻譯機廠商(訊飛、有道、時空壺之類的)。Google把這個能力直接做進Android系統層,第三方硬件還怎麼賣?

第三,AI翻譯的"準確性焦慮",會被"水印焦慮"接力。

Google嵌SynthID水印是遠見。

因為接下來你會看到:政客的發言被AI翻譯後剪輯、斷章取義;商務談判中一方用AI翻譯"扭曲"對方意思;犯罪分子用語音克隆+實時翻譯做跨語言詐騙。

水印是一道防線,但不是萬能。

第四,中文譯員可能是這波衝擊下相對受益的一群人。

為什麼?因為中文的語義複雜度、文化負載、政治敏感性,是目前AI模型最難啃的部分。Gemini再強,對"領導關心的"、"原則上"、"研究研究"這種中文政治語義的理解,仍然差人類一截。

這是中文翻譯員未來5年的護城河。但護城河會被填平,只是時間問題。

六、收個尾

回到那個被廣泛傳播的真實自述:

"我現在的工作就是檢查AI翻譯有沒有錯,月薪從兩萬降到了八千。"

很扎心。但這其實不是AI的錯。

這是技術週期的常態。

打字員、電話接線員、膠捲沖印師、出租車調度員——每一波技術革命,都會送走一批職業。

Gemini 3.5 Live Translate的特別之處在於,它是第一次讓人感覺"翻譯"這件事不再需要"等"

而"等",恰恰是人類翻譯員唯一的尊嚴緩衝帶。

等說完,等思考,等組織語言。

這道緩衝被壓到5秒,再壓到3秒,再壓到幾乎無感。

機器追上來了。

那人怎麼辦?

答案其實很老套:去做機器做不了的事。

去做有判斷力的事。

去做有立場的事。

去做帶著體溫的事。

聽譯這門手藝不會死。

但靠它月入兩萬的好日子,可能真的回不去了。

潮水來的時候,先溼鞋的不是站在海邊的人。

是站在海里的人。

引用來源

  1. Anuda Weerasinghe, Tony Lu. "Fluid, natural voice translation with Gemini 3.5 Live Translate." The Keyword, Google Blog, 2026年6月9日.
  2. Ryan Whitwam. "Google announces Gemini 3.5 Live Translate for instant voice-to-voice translation." Ars Technica, 2026年6月9日.
  3. Abner Li. "Gemini 3.5 Live Translate rolling out to Google Meet and Translate." 9to5Google, 2026年6月9日.
  4. "谷歌Gemini 3.5 Live Translate發佈:延遲同傳、音色還原、多語言自動識別." AITOP100, 2026年6月10日.
  5. Business Research Insights. "AI Simultaneous Interpreting Market Size, Dynamics, 2033." 2026年發佈.
  6. Mordor Intelligence. "Translation Services Market Size, Drivers & Opportunities | 2026 - 2031."
  7. Voxbooster. "Machine Translation Statistics (2026): 55+ Data Points on Market Growth." 2026年.
  8. 新浪財經. "翻譯崗位將被AI取代40%,勞動密集型國家如何重構全球價值鏈中的語言分工." 2025年12月26日.

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論