就在剛剛,Gemini 3.5提前曝光了!
網友Lentils放出最新消息,代號「Cappuccino」的Gemini 3.5 Pro檢查點已經開始產出。
而就在幾個小時前,傳聞還是Gemini 3.2,沒想到一下子就替換成了Gemini 3.5。
從3.2到3.5的跳級命名,谷歌顯然想在I/O上講一個更大的故事。
Gemini大更新,谷歌祭出殺招
前一天,知名爆料人can率先曬出了首批輸出。
一個是DualShock 4手柄的交互式藍圖拆解,另一個是鵜鶘騎自行車的矢量插畫,自帶7維定製面板,車架顏色、光照、頭飾、籃筐內容、蹬車速度全部實時切換。
從截圖來看,這已經不是簡單的SVG了,而是一個prompt生成的完整交互式Web應用!
Abacus.AI CEO Bindu Reddy隨後放出的數據更炸——
3.2 Flash在編碼和推理上達到GPT-5.5的92%,成本卻便宜15到20倍。
不僅如此,谷歌全新的全時Agent「Gemini Spark」也被扒了出來。
可以看到,它不僅能全天候待命,幫你管郵件、跑任務,甚至可能不問你就替你下單。
然而就在此時,Alex Heath的獨家爆料,卻狠狠地潑了一盆冷水——
新款Gemini的性能,最多隻能追平OpenAI的GPT-5.5……
一個prompt四個方案,Gemini「懶癌」治好了
先看好消息。
以前Gemini生成SVG,社區最常用的吐槽就一個字,「懶」。給一個prompt,出一個敷衍結果。
但這次不一樣了。
網友Lentils只用了一個簡單提示,Gemini就直接出了4個風格各異、細節拉滿的Robot SVG。
同期洩露的3.5 Flash也印證了這個趨勢。
LM Arena的匿名跑分顯示,Flash在SVG生成、交互式3D編碼和動畫處理上已經超過了3.1 Pro。
換句話說,谷歌的蒸餾加稀疏化技術正在收穫回報,把前沿模型壓成了輕量版,質量斷崖卻沒出現。
幫你管郵件、替你花錢,谷歌Agent膽子夠大
同一天的另一個重磅洩露是「Gemini Spark BETA」。
根據爆料,Spark的定位是「你的日常AI智能體,全天候待命」。
一個24小時全時運轉的AI Agent,幫你處理收件箱、執行在線任務、管理多步驟工作流。
Spark的數據來源清單讓人倒吸一口氣。
已連接的Google應用、技能模塊、聊天記錄、定時任務、你登錄的網站、Personal Intelligence、位置信息。
Gemini會把你的姓名、聯繫方式、文件、偏好等信息分享給第三方來完成任務。
此外,為了保持會話連續性,系統還會保存遠程瀏覽器數據,包括登錄憑證和遠程代碼執行數據。
不過值得注意的是,Spark雖然設計上會在敏感操作前徵求許可,但它「可能在未經詢問的情況下分享你的信息或完成購買」。
也就是說,它可能不問你就下單,也可能不問你就把信息分享出去。
Spark的前身是谷歌內部代號「Remy」的Agent升級版,此前只面向AI Ultra訂閱用戶。
從Remy到Spark,Gemini的Agent從「一個功能」一步升格為「24/7的數字生活管家」。
這正面對標Anthropic即將發佈的託管Agent Conway,以及OpenAI已經上線的24/7 Agent平臺。
半年前的榜首,半年後摸不到前沿的邊
好消息到此結束。
根據Alex Heath從多個信源處得到的確認,下週二發佈的新Gemini,大致落在GPT-5.5這個檔位,距離Mythos還有明顯差距。
想當初,剛發佈的Gemini 3憑藉著LMArena 1501 Elo,幾乎掃了所有主流排行榜第一。
半年過去,GPT-5.5、Opus 4.7、Mythos相繼發佈後,格局已經被徹底改寫。
英國AI安全研究所的評測顯示,Mythos是第一個同時通過其兩套網絡安全測試範圍的模型,GPT-5.5只通過了一套。
AISI甚至承認,評測框架已經快跟不上Mythos的能力了。
回到谷歌這邊,根據網友Fandu扒到的模型選擇器的最新界面,新款Gemini很可能原生支持MCP第三方工具接入,Thinking模式也將全面重構。
可以看到,除了3.1 Flash-Lite、3 Flash、3.1 Pro這幾個大家熟知的模型外,還多了一個從未見過的分類「MCP Tool Testing」,也就是「可用於MCP工具測試的模型」。
思維模式也從原來的獨立Thinking模式,變成了全局開關,分Standard(適合大多數問題)和Extended(求解複雜問題)兩檔。
編程,最讓DeepMind焦慮的戰場
Heath的爆料中,編程部分的措辭最重。
他說,DeepMind內部正面臨著切實的壓力,尤其是在編程能力方面需要迎頭趕上。
追趕目標很明確,Anthropic。過去一年,Claude在開發者群體中坐穩了默認選項。
新Gemini會包含編程改進,但在Heath的信源裡,沒有一個人認為會帶來質變。
谷歌的AI編程平臺Antigravity,內部用得很多,但在外部市場一直沒能突圍。
4個月6%的開發者採用率,對一個IDE來說不算慢,但跟Claude Code和Codex的勢頭比差距明顯。
問題出在哪?
XDA的一篇月度評測試了三個工具做同一個任務。
Claude Code第一次就準確理解了複雜創意提示。而Antigravity的輸出卻像是用「微軟畫圖」做出來的塗鴉。
此外,Antigravity的定價策略也讓開發者頭疼。
谷歌已經多次調整定價模型,從免費預覽到信用點制度,社區論壇上關於額度用完沒提醒的抱怨一直沒斷過。
但最為關鍵的在於,如今AI編程已經徹底出圈了。
不管Claude Cowork,還是OpenAI的Codex,都能讓不會寫代碼的人用得飛起——
產品經理用自然語言描述需求,直接得到可運行的原型。設計師把Figma稿丟進去,拿到前端代碼。
然而到目前為止,谷歌都沒有任何產品能夠進入這個對話。
不過,知名大佬Haider的評論倒是提供了另一個視角。
谷歌可能並不打算通過跟別人跑同一條賽道來取勝,他們更大的重心在於打造一個更強大的多模態系統,而這需要時間。
通往ASI的飛輪,三家同時踩油門
雖然模型追不上,但谷歌有10億級分發入口和全時Agent。
Spark一旦鋪開,用戶的郵件、日程、購物、瀏覽數據將反哺Gemini的下一代訓練。
這是OpenAI和Anthropic都很難複製的打法。
但競爭對手沒有閒著。
就在昨天,OpenAI給Codex追加ultrafast模式,速度提升2-3倍,還祭出補貼戰,30天內切換的企業2個月免費。3小時內2000名開發者響應。
Anthropic同步放出Opus 4.7 Fast模式,Claude Code額度提升50%。
這場補貼戰表面上是搶開發者,底層邏輯比這深得多。
GPT-5.6的開發幾乎可以確定是在GPT-5.5的深度參與下進行的。 AI寫的代碼反哺AI的訓練,誰掌握了編程工具的用戶,誰就掌握了這個循環的加速器。
三家在三條賽道上同時踩油門。
OpenAI靠迭代速度碾壓,三週一個新版本。Anthropic靠模型質量封神,Mythos重新定義了前沿。谷歌靠分發和Agent包抄,把AI塞進10億人的手機裡。
沒有人在減速。通往ASI的飛輪,已經開始自轉了。
而對於每天都在用這些工具的人來說,這場三巨頭的軍備競賽,可能是2026年最划算的一件事。
補貼在加碼,額度在提升,模型在變強,價格在下降。
唯一的問題是,你的工作流押對了賽道嗎?
參考資料:
https://x.com/alexeheath/status/2054747125616169229
https://www.testingcatalog.com/google-prepares-gemini-spark-ai-agent-ahead-of-i-o-launch/
https://x.com/Lentils80/status/2054628116094501377
本文來自微信公眾號“新智元”,編輯:好睏 ,36氪經授權發佈。



