谷歌最新 Gemini Agent 爆擊GPT-5.2?人類最後考試得分見分曉,網友:Altman又該發“紅色警報”了

avatar
36氪
12-12

在全球人工智能領域競爭快速升溫的當下,谷歌與 OpenAI 再次在同一天拋出重磅更新,令整個行業的注意力高度集中。

昨天夜裡,谷歌發佈了全新“重新構想”的 Gemini Deep Research 版本,並首次開放了嵌入式研究智能體 API。

而幾乎同時,OpenAI 正式發佈了備受期待的 GPT-5.2(代號 Garlic)。兩家公司圍繞智能體(Agent)未來、基礎大模型能力邊界以及應用生態主導權的競爭,正進入一個前所未有的焦灼階段。

這一次,谷歌和 OpenAI 的攻防幾乎精確地踩在同一時間窗口,讓外界得以清晰觀察這兩家全球 AI 巨頭之間的戰略對抗節奏。

1  谷歌推出全新 Deep Research Agent 

谷歌推出的全新 Gemini Deep Research 工具是一款智能 Agent,能夠整合海量信息並處理提示信息中大量的上下文數據。谷歌表示,客戶使用 Deep Research Agent 執行的任務範圍廣泛,從盡職調查到藥物毒性安全研究均有涉及。

谷歌還表示,很快會將這款全新的 Deep Research Agent 集成到其各項服務中,包括谷歌搜索、谷歌財經、Gemini 應用以及廣受歡迎的 NotebookLM。這標誌著谷歌正朝著一個未來世界邁出又一步:未來,人類將不再使用谷歌搜索任何內容,而是由人工智能代理代勞。

具體而言,Deep Research Agent 有哪些能力?

在此次更新中,Google 不僅對 Deep Research Agent 進行了架構級的再設計,還以 Gemini 3 Pro 為核心基礎模型,構建了一個更加穩定、準確、可追溯的深度研究系統。新版 Deep Research Agent 的能力提升可總結為三個關鍵方向:模型升級、推理穩定性突破以及交互能力全面增強

先說模型升級。新版 Deep Research Agent 完全基於 Gemini 3 Pro 構建,而 Gemini 3 Pro 被谷歌視為其迄今最“真實”、最可靠、最適合長鏈推理的旗艦模型版本。谷歌強調,這不僅是性能提升,更是研究型智能體“可依賴性”的質變。

為了構建這樣的智能體,谷歌採用了多步強化學習(Reinforcement Learning over Multi-step Trajectories)的訓練策略。其目標非常明確:在長達數十步、數百步的複雜研究任務中,AI 必須保持推理路徑穩定,減少出現幻覺的概率,並確保連續決策過程中的一致性。

傳統 LLM 在長鏈推理中的主要痛點之一,就是每一步推理都會引入累計誤差——只要一個幻覺性的節點,就可能導致整個輸出結果失效。谷歌強調,新版 Deep Research 在這一點上取得重大突破:

  • 多輪強化學習優化決策序列
  • 在冗長任務鏈中顯著減少邏輯偏移
  • 更穩定的檢索—分析—推理—引用閉環

這使得 Deep Research 可以承擔以往 LLM 無法勝任的任務,例如完整執行跨天級研究、政策評估、多源數據整合和全流程盡職調查。

新版 Deep Research Agent 的另一個核心優勢是其超大規模上下文處理能力。在 Gemini 3 Pro 的支持下,它可以一次性處理遠超以往的資料量,包括學術論文、官方報告、長篇網頁內容等,更重要的是,谷歌為 Deep Research 加入了一項“研究級標準能力”:它會為每一條觀點、每一個結論自動附上可追溯引用來源。 引用不僅是網址鏈接,而是結構化地指向原文中的關鍵片段或段落,以確保輸出可信、觀點可查,用戶可進行二次調查與審核 。這使 Deep Research 不是“生成內容”,而是“提供帶證據鏈的研究結果”。

此次版本更新不僅是功能升級,而是谷歌圍繞“研究型智能體生態”的一次系統性發佈。除了 Deep Research Agent 更新,谷歌還推出兩項關鍵新能力:開源全新網絡研究智能體基準:DeepSearchQA 和全新交互 API。

在當前行業中,網絡研究型智能體缺乏統一衡量標準。為了證明谷歌取得的進展,谷歌又創建了一個新的基準測試。這個新基準測試名為 DeepSearchQA,旨在測試智能體在複雜的多步驟信息檢索任務中的表現。谷歌已將該基準測試開源。

DeepSearchQA 開源地址:https://www.kaggle.com/benchmarks/google/dsqa/leaderboard

DeepSearchQA 包含 17 個領域共 900 道精心設計的“因果鏈”任務,每一步都依賴於先前的分析。與傳統的基於事實的測試不同,DeepSearchQA 衡量的是全面性,要求智能體生成詳盡的答案集。這既評估了研究的精確度,也評估了檢索召回率。

對比 pass@8 和 pass@1 的結果,可以證明讓智能體探索多條並行路徑進行答案驗證的價值。這些結果是在 DeepSearchQA 的 200 個提示子集上計算得出的。

全新的 Deep Research Agent 在“人類最後的考試”(HLE)和 DeepSearchQA 測試中取得了最先進的成果,並在 BrowseComp 測試中表現最佳。它經過優化,能夠以更低的成本生成高質量的研究報告。

基準測試結果令人驚歎。它基於 Gemini 3 Pro 核心構建,但採用智能體工作流程來實現最先進的性能。統計數據(來自圖表):

  • 人類的最後考試(HLE): 46.4%(顯著優於 GPT-5 Pro 的 38.9%)
  • DeepSearchQA: 66.1%(略勝 GPT-5 Pro 的 65.2%)
  • BrowseComp: 59.2%(與 GPT-5 Pro 不分伯仲)

Gemini Deep Research 在完整的“人類最後的考試”(HLE)數據集上取得了 46.4% 的領先成績,在 DeepSearchQA 上取得了 66.1% 的成績,在 BrowseComp 上取得了高達 59.2% 的成績。

Interactions API 是谷歌此次發佈的最具戰略意義的能力之一。它讓開發者首次能夠以結構化方式控制智能體的行為狀態、推理步驟、長鏈任務執行、中間狀態存儲等,這意味著以前開發者只能“向模型發問”,而現在開發者可以“調教智能體如何執行任務”。

2  網友怎麼看? 

在谷歌發佈新版 Deep Research Agent 後,技術社區的反應同樣值得關注。

在 Hacker News 與 Reddit 相關討論帖中,不少開發者表達了對谷歌此次“真正把 Agent 做成工程化產品”的肯定。

在 Reddit 上,有用戶對技術的進步發出感嘆:

“太不可思議了!我覺得我們還沒有充分意識到這一點。過去三年我們取得的進步簡直令人難以置信!”

有網友指出,谷歌首次在產品層面強調“可驗證引用”“端到端多步推理穩定性”,是 AI Agent 領域一次明顯的進步。

一位自稱長期從事合規審閱工作的用戶評論說:“如果 Deep Research 真的能做到逐步鏈路可審計,那將是第一次有大廠真正把 Agent 從玩具推向生產環境。”

但也有觀點保持謹慎,一位 Reddit 用戶批評道:“谷歌用自家基準證明自己最強,這種事情已經發生過太多次了。我們需要的是在真實網頁、真實任務中的第三方測試。”

谷歌這款新 Agent 的發佈時間與 OpenAI GPT-5.2 是同一天,自然難逃網友們將兩者相比較的命運。

在 Reddit 上,有用戶提問這款 Deep Research Agent 與同一時間 OpenAI 發佈的 GPT-5.2 相比如何,另一位用戶回答稱用途不同,但 GPT-5.2 更好。

為了將兩者進行更清晰的對比,還有網友找出了 OpenAI 研究員 Sebastien Bubeck

在領英上的發文,在這篇發文中,Sebastien Bubeck 稱 GPT-5.2 在人類的最後考試(HLE)中的得分是 45%,而谷歌這款新的 Agent 的得分是 46.4%,略高於 GPT-5.2。

同時,圍繞谷歌與 OpenAI 的競爭,也有人發出調侃式評論:“谷歌剛發 Deep Research,OpenAI 就把 Garlic(GPT-5.2)端上來了,這倆公司現在簡直是在互相搶發新聞。”

還有人總結這場激烈競賽的節奏:“這已經不是模型大戰,而是發佈會大戰。”

3  模型能力的“貼身肉搏”越演愈烈 

基礎模型能力始終是兩家公司最具標誌性的競爭焦點。

2025 年初,谷歌推出的 Gemini 3 Pro 以其更“真實”、更可依賴、幻覺率更低的特性,試圖在長鏈推理和專業任務場景中重建優勢。Gemini 3 Pro 強調檢索增強、多模態處理能力以及大規模上下文處理能力,在科研、法律、金融等高可信場景中表現亮眼。

而 OpenAI 在最新發布的 GPT-5.2(Garlic)中,強化了邏輯一致性、工具調用穩定性以及智能體行為的自主性,進一步提升了跨任務泛化能力。內部基準測試顯示,GPT-5.2 在推理、代碼生成、多輪工具調度方面對 Gemini 保持領先,尤其是在 OpenAI 自研的“連續推理一致性 Benchmark”中表現突出。

兩者之間的能力差距被行業評論認為“已進入毫釐級別”——差距常常只體現在特定任務場景,而不再是全局性的優勢。

如果說基礎模型決定了智能體能否思考,那麼智能體平臺能力則決定了智能體能否執行任務。

谷歌此次對 Gemini Deep Research Agent 進行全面重構,可視為其正式加入智能體戰爭的關鍵節點。

新版 Deep Research Agent 具有三大亮點:

  • 基於 Gemini 3 Pro 全面重寫推理鏈路
  • 採用多步強化學習訓練,保持長鏈任務中決策一致性,顯著降低幻覺概率
  • 提供全鏈路引用,可追溯每個觀點的證據來源

這使其從“報告生成工具”升級為“可執行完整研究任務的專業智能體”。更關鍵的是,谷歌推出了結構化控制智能體行為的 Interactions API,開發者可以對智能體的每一階段、每一子任務進行高度可控的調度與狀態管理。這意味著 Deep Research Agent 不再是谷歌產品線內部的能力,而是一個通用的智能體執行引擎。

OpenAI 的智能體體系則更側重通用性和自由度。

Agent API、OpenAI Swarm、BrowserAgent、CodeAgent 已形成一個完整的智能體開發框架,加上 GPT-5.2 的推理一致性提升,讓其在自動化任務執行、工具調用複雜度和環境適應性上保持優勢。

兩者競爭的是:未來軟件開發將以智能體為核心,而誰掌握了智能體框架標準,誰就掌握了新一代計算範式的主導權。

參考鏈接:

https://ai.google.dev/gemini-api/docs/deep-research?hl=zh-cn

https://techcrunch.com/2025/12/11/google-launched-its-deepest-ai-research-agent-yet-on-the-same-day-openai-dropped-gpt-5-2/

本文來自微信公眾號“InfoQ”,作者:冬梅,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論