GPT-5.2降智遭全網差評,奧特曼慌了

年終AI大戲,OpenAI敗給了谷歌?GPT-5.2上線48小時,全網吐槽一大片。第三方數據實證,Gemini 3 Pro才是真正的王者。

OpenAI打出了GPT-5.2這張「年度王牌」,卻沒有打贏谷歌...

Epoch AI最新報告,GPT-5.2的能力指數(ECI)得分152,僅次於Gemini 3 Pro。

在多項基準測試中,GPT-5.2的實力並沒有「全線霸榜」。

在由陶哲軒聯手百位數學家出的考題——FrontierMath中,GPT-5.2僅在T1-3級中霸榜,T4還是Gemini 3的高地。

另外,在國際象棋Chess Puzzles中,GPT-5.2拿下了第一的成績。

唯一例外的是,在SimpleQA Verified上,GPT-5.2都不及GPT-5.1,意味著迭代後的可信度更差了。

不僅如此,多個第三方基準評測顯示,GPT-5.2遠不及預期,沒有打敗Gemini 3。

包括OCR-Arena、simple-bench、Live-Bench上,GPT-5.2甚至都排在了Claude Opus 4.5之後。

發佈僅兩天,GPT-5.2水花不大,反而圈子裡開發者吐槽的不少。

為了打贏這場硬仗,OpenAI拉響「紅色警報」,把改進ChatGPT事項提到了優先級。

更極端的是,內部直接停掉了AGI的研發,Sora也暫停了八週,顯然擺出了破釜沉舟的姿態。

可是呢,在業界來看,OpenAI至今仍未擺脫被動的局面。

GPT-5重度用戶站出來發聲,「GPT-5.2距離成為一塊石頭也不遠了」。

年終之戰,OpenAI敗了?

三年前,谷歌因錯失先機,被OpenAI ChatGPT搶盡了風頭。

近日,谷歌創始人謝爾蓋·布林重返斯坦福演講,現場公開承認曾經的「最大失誤」:

我們搞砸了——太怕AI說錯話,結果輸掉一個時代。

如今,憑藉Gemini 3 Pro+Nano Banana Pro,谷歌已重回AI浪潮之巔。

風水輪流轉。這一次,輪到了OpenAI,卻在2025年這場關鍵戰役中自亂陣腳。

上線首日,奧特曼激動宣稱,API調用量就超過了萬億token,且增長速度極快

此前Information爆料,GPT-5.2,代號大蒜(Garlic),原計劃在明年初亮相。

整個硅谷,曾透露了一種風聲——OpenAI預訓練終結了,甚至GPT-5.1可能基於4o後訓練而來,由此提升不大

確實如此,在預訓練上,OpenAI遇到了Scaling瓶頸。

預訓練Scaling,或許不大

在GPT-5.2(大蒜)研發上,原爆料稱,OpenAI解決了預訓練環節遇到的一些關鍵問題——

改進之前「最好的」且「體量大得多」的預訓練模型。

在內部,OpenAI整合了在開發「Shallotpeat」期間修復的Bug,積累了許多預訓練的經驗。

正如Information所言,最關鍵的突破發生在「預訓練階段」。

但以上的一切信息,都是新聞報道。OpenAI究竟在預訓練上,是否實現了重大突破,難以得知。

但從官方全線擊敗Gemini 3基準上可以猜測,GPT-5.2在預訓練方面取得了一定的改進。

但是從第三方評測和網友反饋中,GPT-5.2在底層技術迭代上,沒有實現突破式的進展。

Epoch AI另一項評估中,頂尖AI大模型在長程任務的性能,Gemini 3依舊是最強的——

Gemini 3 Pro:4.9小時

GPT-5.2:3.5小時

Opus 4.5:2.6小時

正如工程師Dan Mac所言,Gemini 3 Pro之所以擁有更深入的智能,是因為谷歌預訓練最強。

而GPT-5.2擁有最好的專用智能,是OpenAI在後訓練上優化的結果。

明年初,還有更大的

紐約時報最新爆料稱,接下來幾周,OpenAI將繼續把重點放在ChatGPT優化上。

他們正在籌備明年初的一次更大規模發佈。

在內部,OpenAI的2B和2C方向的「雙線作戰」模式並行。

OpenAI也在推進其他項目,包括廣告和電商相關嘗試。

儘管被吐槽,他們仍在探索「更剋制」的方式,比如通過ChatGPT聊天完成購物,並從交易中抽成。

在企業市場方面,OpenAI正將支撐ChatGPT的同一套AI技術引入企業軟件領域。

數據顯示,每週使用ChatGPT的用戶超過8億人,市場份額約為76%。

一位AI大佬說,「消費級AI幾乎就等同於OpenAI,如果失去了這一點,這家公司就不會有現在這樣的價值」。

然而,在過去12個月裡,全世界多家AI初創已開發出能夠匹敵,甚至在某些方面超越OpenAI領先模型的技術。

谷歌Gemini 3 Pro的出世,對OpenAI業務來說著實是一次不小的打擊。

Gemini 3力壓GPT-5.2,OpenAI只是虛晃一槍?

就從網友實測角度來說,GPT-5.2還有很大的改進空間。

有網友忍無可忍,直言OpenAI完全沒腦子:

GPT-5.2語氣冰冷,堪比北極,完全無視用戶體驗,「一味地不斷倒退,把原本正常、自然的語言越改越離譜,最後變成一堆辱罵和說教,然後還把這當成某種勝利來兜售。」

OpenAI活該被Gemini 3嚇得夠嗆。

比如,在視覺推理上,Gemini 3 Pro完全碾壓GPT-5.2。

3D模型生成上,GPT-5.2速度更慢、成本更高,總體表現不如Gemini 3。

越界小說生成上,GPT-5.2墊底,不如Gemini 3 Pro、Claude 4.5 Opus、Grok 4:

越界小說是一種文學類型,以渴望衝破社會桎梏與基本規範的角色為核心。

這類作品通常涉及一系列禁忌主題、黑暗題材與極端議題。

前端代碼生成上,Gemini 3大幅領先,GPT-5.2仍望塵莫及。

在相同提示下,在健身儀表盤首頁設計上,53萬多人討論了Gemini 3 、GPT-5.2和Claude Opus 4.5的設計,

提示詞:健身儀表盤首頁。頂部為每週活動概覽(緊湊型),今日消耗卡路里及環形進度條(緊湊卡片),卡路里卡片下方為連續鍛鍊計數器,底部為周度鍛鍊柱狀圖。移動端應用,單屏顯示。視覺風格:淺色模式,柔和的乳白色背景,圓角卡片帶有細微陰影,珊瑚色作為主要強調色,電子藍用於圖表和高亮部分。簡潔的無襯線字體排版,現代卡片式佈局。情緒:激勵人心且充滿活力。清新、純淨且平易近人。現代健康美學,令人感到鼓舞和振奮。

GPT 5.2幾乎次次墊底:

開發者Mattia用AI搜索模型Perplexity查看了全部評論,Gemini 3是最後的贏家!

如果以上只是個例,那下列的數據不會撒謊:GPT-5.2不及Gemini 3 Pro。

GPT-5.2慘遭滑鐵盧

在博彩網站Ploymarket上,大部分網友認為谷歌在今年年底擁有最好的AI模型。

在網友Lisan al Gaib的小型手動性能對比基準Dubesors上,Gemini 3 Pro排名第一,而GPT-5.2排到了16名。

致力於推動AI安全研究和提升公共討論關注度的CAIS(Center for AI Safety,人工智能安全中心),發佈了最新的CAIS AI Dashboard,結果還是Gemini 3 Pro在文本和視覺能力指數上勝出,就在風險指數上落後GPT-5.2。

在文本能力指數測試中,Gemini 3 Pro只在ARC-AGI-2中落後,GPT-5.2幾乎全線潰敗!

在視覺能力指數測試中,Gemini 3 Pro再次幾乎全勝,比GPT-5.2平均得分高出了4.5分!

在風險指數測試中,GPT-5.2領先Gemini 3 Pro,但落後於Claude Opus 4.5和Claude Sonnet4.5.

在評估語言模型在終端環境中驅動自主智能體能力的測試平臺Terminus上,Gemini 3.0 Pro和GPT-5.2幾乎不分上下,但Gemini 3.0 Pro與GPT-5.2的高推理模式相比,仍平均多了0.2%。

此外,網友也驗證其他基準測試,比如SWE-Bench、IUMB:

總之,GPT-5.2疑似翻車,在多個重要的基準測試中似乎落後於Gemini 3:

奧特曼聖誕驚喜

GPT-5.2發佈當天,奧特曼還預告了,下一週還有「聖誕禮物」。

至於新品,可能就是下一代GPT Image v2模型了。

幾天前,兩款神秘AI圖像模型「栗子」和「榛子」在LM Arena平臺上展開測試。

但是,開發者實測後表示,目測OpenAI圖像模型不太樂觀。

在圖像生成/編輯方面,GPT圖像模型遠落後於Gemini 3加持的Nano Banana Pro。

而且輸出的結果,存在一系列的問題——

黃色色調、邏輯性差、一致性弱、圖像質量較低、世界知識不足等問題。

據稱,這款模型的基底,可能還是GPT-4o。

2025年終局之戰,真的已經塵埃落定了嗎?

參考資料:

https://www.nytimes.com/2025/12/11/technology/openai-google-ai-technology-gap.html

https://dashboard.safe.ai/

本文來自微信公眾號“新智元”,作者:桃子 KingHZ,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論