谷歌和OpenAI現在是針尖對麥芒!現在兩家公司是用各種新產品互相炮轟對方。
昨夜,OpenAI用專家級GPT-5.2復仇Gemini 3成功!
而在GPT-5.2發佈前一個多小時,谷歌就率先推出全新版Gemini Deep Research Agent。
谷歌對Gemini深度研究進行了重新構想,使其比以往任何時候都更加強大。
新版Deep Research Agent基於Gemini 3 Pro構建;
通過多步強化學習訓練,提高準確性並減少幻覺;
它能夠處理海量上下文,並提供引用來源驗證提出的每一個觀點。
除了Deep Research Agent功能更新,還放出了另外兩項全新能力:
開源新網絡研究Agent基準DeepSearchQA,驗證智能體在網絡研究任務中的全面性;
推出全新交互API(Interactions API)。
雖然GPT-5.2剛剛發佈無法對比,但谷歌DeepMind產品經理路Lukas Haas在社交平臺X上透露:
最新版Gemini Deep Research Agent在谷歌新基準測試上得分46.4%,在BrowseComp上與GPT-5 Pro相當,價格卻低了一個數量級。
深度研究,更「深度」了
Gemini Deep Research是一款專為長時間上下文收集與綜合任務優化的智能體。
該智能體的推理核心採用迄今為止最具事實準確性的Gemini 3 Pro模型,並經過專門訓練,以在複雜任務中減少幻覺生成並最大化報告質量。
通過擴展多步強化學習在搜索中的應用,該智能體能夠以高精度自主駕馭複雜的信息環境。
Gemini Deep Research在完整Humanity's Last Exam(HLE)測試集中達到46.4%的領先水平,在DeepSearchQA上取得66.1%的優異成績,並在BrowseComp測試中獲得59.2%的高分表現。
DeepResearch採用迭代式研究規劃機制——它會制定查詢、閱讀結果、識別知識缺口並再次搜索。
本次版本大幅改進了網絡搜索功能,使其能夠深入網站獲取特定數據。
該智能體經過優化,能夠以更低成本生成經過充分研究的報告。
不同於傳統的聊天機器人(Chatbot),Deep Research被設計為一個長時程運行的系統,其核心競爭力在於處理「非即時性」的複雜任務。
簡單聊聊深度研究
深度研究,算是日常使用AI工具中,最高頻的功能了。
畢竟每個月20美元,就能享受到多次「博士級」的服務,何樂而不為。
我的觀點就是,深度研究是普通人最能降維打擊知識服務的AI工具。
Deep Research,這一類深度研究的智能並非源於單一模型的暴力計算,而是源於其複雜的智能體工作流(Agentic Workflow)。
該工作流模擬了人類專家在面對陌生領域時的認知行為,主要包含規劃、執行、推理與報告四個閉環階段。
當用戶提交一個模糊的宏觀指令(例如「分析2030年量子傳感器的商業化路徑」)時,DeepResearch首先啟動的是其規劃模塊。
基於Gemini 3 Pro強大的推理能力,系統不會立即進行搜索,而是通過「後退一步提示」技術,將這一宏觀問題拆解為多個子維度的研究路徑,如技術成熟度、供應鏈瓶頸、政策監管環境及主要競爭對手分析。
這一規劃過程是動態的。在傳統的鏈式思維中,路徑往往是線性的;而在DeepResearch中,規劃樹是可擴展的。
如果在初步搜索中發現了未預見的新概念,系統會實時修改研究計劃,增加新的分支進行深入挖掘。
DeepSearchQA:深度研究智能體的基準測試
在上面的基準測試中,你應該注意到一個叫做DeepSearchQA。
這就是谷歌專門針對深度研究智能體開發的測試基準,一個用於評估智能體在複雜多步驟信息檢索任務表現的全新基準。
DeepSearchQA包含涵蓋17個領域的900項人工設計的因果鏈任務,其中每個步驟都依賴於先前的分析。
與傳統基於事實的測試不同,DeepSearchQA通過要求智能體生成詳盡答案集來評估研究完整性,同時檢驗研究精確度與信息召回能力。
DeepSearchQA還可作為思考時間效益的診斷工具。
在內部評估中,谷歌發現當允許智能體執行更多搜索和推理步驟時,其性能獲得顯著提升。
對比pass@8與pass@1的結果,證明了讓智能體通過並行探索多條軌跡進行答案驗證的價值。
這些結果基於DeepSearchQA的200個提示子集計算得出。
交互API:專為Agent應用開發設計
交互API原生集成了一套專屬接口,該接口專為Agent應用開發場景設計,可高效處理交錯式消息、思維鏈、工具調用及其狀態信息的複雜上下文管理工作。
除Gemini模型套件外,交互API還提供其首個內置Gemini Deep Research Agent。
下一步,谷歌將擴展其內置Agent,並提供構建和引入其他Agent的功能,這將使開發者能夠通過一個API連接Gemini模型、谷歌內置Agent和開發者的定製Agent。
交互API提供了一個單一的RESTful端點,用於與模型和Agent交互。
Interactions API擴展了generateContent的核心功能,為現代智能體應用提供所需特性,包括:
可選服務器端狀態:將歷史記錄管理卸載到服務器的能力。這簡化了客戶端代碼,減少上下文管理錯誤,並可能通過提高緩存命中率來降低成本。
可解釋且可組合的數據模型:專為複雜智能體歷史記錄設計的清晰架構。您可以對交錯排列的消息、思考過程、工具及其結果進行調試、操作、流式處理和邏輯推理。
後臺執行:無需維持客戶端連接,即可將長時間運行的推理循環卸載到服務器端的能力。
遠程MCP工具支持:模型可直接調用模型上下文協議(MCP)服務器作為工具。
隨著Interactions API的推出,Google試圖重新定義開發者構建AI應用的方式,從「無狀態的請求-響應」模式轉向「有狀態的智能體交互」模式。
目前的LLM API大多是無狀態的。開發者必須在客戶端維護整個對話歷史,並在每次請求時將數萬token的上下文發送回服務器。
這不僅增加了延遲和帶寬成本,還使得構建複雜的、多步驟的Agent變得異常繁瑣。
Interactions API引入了服務器端狀態管理。
開發者只需通過/interactions端點創建一個會話,Google的服務器就會自動維護該會話的所有上下文、工具調用結果以及Agent的內部思維狀態。
這才是我認為谷歌這個最新API恐怖的地方。
Interactions API最革命性的特性在於它允許開發者直接調用谷歌預訓練的高級Agent,而不僅僅是基礎模型。
比如開發者可以通過簡單的API調用(指定agent=deep-research-pro-preview-12-2025)將Google最頂尖的研究能力嵌入到自己的ERP、CRM或科研軟件中。
考慮到DeepResearch一次任務可能消耗數十萬token的閱讀量和生成量,單次深度研究的成本可能達到數美元。
然而,與其替代的人類初級分析師數小時甚至數天的工作成本相比,這一價格仍具有極高的投資回報率。
DeepMind與英國政府達成合作
最後,還有一個消息值得注意。
在谷歌和OpenAI打生打死意外,谷歌DeepMIind已經在國家層面,展開合作。
DeepMind作為誕生於倫敦的AI巨頭,正在通過DeepResearch及其底層技術,與英國政府展開一場規模空前的「AI治國」實驗。
這一合作不僅涉及科學探索,更深入到公共行政的毛細血管,特別是在解決英國長期存在的住房危機和規劃效率低下問題上取得了突破性進展。
Project Extract:破解城市規劃的「數據孤島」
英國的城市規劃系統(Planning System)長期以來被視為阻礙經濟增長和住房建設的瓶頸。
每年,地方議會需要處理約35萬份規劃申請,而大量的歷史規劃檔案仍以紙質、掃描PDF或手繪地圖的形式存在。
規劃師往往需要花費數小時在一個佈滿灰塵的檔案中尋找幾十年前劃定的地下管線或保護區邊界。
為了解決這一痛點,DeepMind與英國政府AI孵化器(i.AI)合作開發了Extract工具。
這不是一個簡單的OCR軟件,而是一個基於Gemini多模態推理能力的複雜地理空間智能系統。
非結構化信息理解:
Extract首先利用Gemini的視覺語言能力讀取低質量的掃描文檔。它不僅能識別文字,還能理解手寫註釋的語義(例如,識別旁註中的「批准日期」而非「申請日期」),其日期識別準確率達到了94%。
視覺推理與多邊形提取:
這是最核心的技術突破。Gemini能夠理解地圖上的視覺符號語言,例如區分「紅色實線」代表的產權邊界和「藍色虛線」代表的排水渠。一旦識別出目標區域,系統會調用OpenCV和SAM等計算機視覺工具,像數字手術刀一樣精確地從像素圖像中提取出地理多邊形,其形狀匹配度(IoU)達到了90%。
時空特徵匹配:
歷史地圖的比例尺和參照系往往與現代衛星地圖不同。Extract利用LoFTR算法,能夠在舊地圖和現代地圖之間找到共同的特徵點(如古老的教堂、路口),計算出精確的變換矩陣,將幾十年前的手繪紅線精確映射到今天的數字地圖座標系中。
全流程自動化:
通過這一流程,Extract將一份複雜規劃文檔的處理時間從平均2小時壓縮至40秒到3分鐘。這意味著一個地方議會每天可以數字化處理上百份積壓檔案,效率提升了百倍。
目前,Extract已在威斯敏斯特(Westminster)、希靈登(Hillingdon)等四個地區進行試點。
英國政府計劃在2026年春季將其推廣至全國所有地方議會。
這不僅將釋放數千小時的行政人力,更重要的是,它將構建一個全國統一的數字規劃數據庫,為英國政府承諾的「建設150萬套新住房」計劃提供數據底座。
這是DeepResearch技術在垂直領域應用的最佳範例——將通用的多模態推理能力轉化為具體的行政生產力。
科學新基建:從AlphaFold到自動化材料實驗室
在基礎科學領域,DeepMind與英國政府的合作旨在通過AI加速科學發現的飛輪效應。
DeepMind宣佈將於2026年在英國建立其首個自動化AI科學實驗室。
閉環發現系統:實驗室將運行一個由Gemini和GNoME(Graph Networks for Materials Exploration)驅動的閉環系統。AI負責基於量子化學原理設計新的晶體結構,預測其穩定性。
機器人合成:這些設計指令直接發送給全自動化的機器人平臺,機器人負責配料、合成、燒結和測試。
數據反饋:實驗結果實時反饋給AI,用於修正下一輪的預測。目標是將新材料(如室溫超導體、高效電池電解質)的發現週期從數十年縮短至數月甚至數天。這一舉措直接服務於英國的淨零排放(NetZero)戰略和能源安全。
除了硬件實驗室,DeepMind還向英國科學家開放了一系列前沿AI模型:
國家安全與數字免疫系統
在安全領域,合作重點從「進攻性能力」轉向了「防禦性韌性」。
DeepMind與英國AI安全研究所(UKAI Security Institute)合作,部署了基於DeepResearch技術的網絡防禦工具。
BigSleep(原Project Naptime):這是一個利用LLM在大規模代碼庫中尋找潛伏漏洞的智能體。它曾成功在SQLite等核心開源基礎設施中發現了人類專家未能察覺的內存安全漏洞。
Code Mender:與BigSleep配合,不僅發現漏洞,還能自動生成修復代碼補丁。這一套「發現-修復」的自動化閉環,旨在為英國的國家關鍵信息基礎設施(CII)構建一套實時的「數字免疫系統」,抵禦日益複雜的網絡攻擊。
以上就是谷歌這次針對GPT 5.2的更新內容。
個人認為谷歌目前還是最強的。
雖然昨夜GPT 5.2閃擊Gemini 3成功,但是在多模態能力依然還是稍微落後的,或者在年底會有一個對標Nano Banana Pro的產品出現。
而且從最新的深度研究智能體來看,以及DeepMind在英國的深度戰略佈局,谷歌更加領先一步。
這種領先性向我們展示了AI技術發展的一個清晰圖景:
通用人工智能(AGI)的雛形正在從對話框中走出,演變為能夠感知、規劃並改變物理與數字世界的智能體。
參考資料:
https://blog.google/technology/developers/deep-research-agent-gemini-api/
https://x.com/GoogleDeepMind/status/1999165701811015990
https://deepmind.google/blog/strengthening-our-partnership-with-the-uk-government-to-support-prosperity-and-security-in-the-ai-era/
本文來自微信公眾號“新智元”,作者:定慧,36氪經授權發佈。




