【導讀】號稱滿分屠榜的GPT-5.2,一發布就降智了?許多網友現身表示,似乎確實比開始弱了很多。但提前實測的網友表示,它的確很強,甚至當得起GPT-6之稱!
昨夜,OpenAI放出了GPT-5.2炸彈。
根據官方公佈的基準測試,它幾乎完全碾壓Gemini 3 Pro。
GPT-5.2最擅長幫人們完成有經濟價值的任務,比如做電子表格、做PPT、寫代碼和審查代碼、分析長文檔等等。
而且號稱在GDPval等基準測試中,有70.9%的時間能追趕甚至吊打專業人士。
可以說,這是OpenAI進入紅色預警,甚至不惜改變AGI目標,都要完成的一個產品,而且還身負著狙擊Gemini 3的重任。
所以,GPT-5.2實測起來,體感究竟如何?
GPT-5.2實測:一上線就降智?
出乎意料都是,一個GPT-5.2實測翻車的帖子,在X上火了。
如果向它提問:「garlic」中有多少個R?它會回答:0個。
相比之下,其他模型的表現就要穩定得多。
歸根結底,這是LLM的一個底層問題:因為tokenization而無法統計字母數量。
不過,只要強制選到Thinking版本,GPT-5.2就能答對這個問題了。
在reddit上,也有很多網友表示:在GPT-5.2剛發佈的時候,似乎功能還很強。
結果幾個小時後,它緊接著就降智了。
有人表示,自己早上八點半開始用的時候還好好的,喝完一杯咖啡後,GPT-5.2忽然就不行了。
似乎每次新模型一發布,幾小時後就會被削弱,OpenAI這是什麼操作?
大佬現身說法:還是挺強的
不過這點小插曲,還是沒有影響坊間的正面評論。
昨晚GPT-5.2一發布,網友們就被震撼了。
比如有人說,ARC-AGI 2的這次飛躍屬實瘋狂,OpenAI究竟是怎麼做到的?
本來大家還以為OpenAI已經落後谷歌了,看來並沒有!
看起來,OpenAI內部還捂著不少厲害的東西沒發佈。
而且,領略過GPT-5.2超強滿血版的用戶,對它是一致好評。
沃頓商學院教授Ethan Mollick表示,自己有幸提前使用了GPT-5.2,它的性能還是令人印象很深刻的。
比如下面這個任務:創建一個視覺上有趣的著色器,可以在twigl-dot-app中運行,使其看起來像一座無限的新哥特式塔樓城市,部分淹沒在波濤洶湧的海洋中。
對於這個視頻,很多網友大加讚歎:GPT-5.2不僅遵循了指令,還在代碼中選擇了非常合理的審美和結構。
然後,教授又讓GPT-5.2繪製一張人類歷年考試成績的圖表。
這個任務十分複雜,因為需要在過程中查找和交叉引用大量資料,然後一次性就生成有用的結果。
可以看到,GPT-5.2的表現十分驚豔。
這個Twigl代碼的實例,顯出了GPT-5.2的強大編碼能力。
推理、數學、編程的重大飛躍
Magicpathai的CEO表示,自己已經測試GPT-5.2有一段時間了。
他對於這個模型的評價是——「複雜推理、數學、編程和模擬方面的一次重大飛躍」。
在實例中,它在單個文件中就構建了一個完整的3D圖形引擎,還支持交互式控制,分辨率達到4K。
在這個視頻中,他還用GPT-5.2進行了高難度推理。
有人質疑道:這個圖形引擎會不會是GPT-5.2調庫完成的?CEO表示,所有代碼和圖形完全是從0開始寫的。
也就是說,GPT-5.2的進步不是漸進式的,而是編碼助手功能的徹底範式轉變。
網友們驚呼:這種進步的速度,實在是令人頭暈目眩。
這位CEO對於GPT-5.2的評價是:它是OpenAI推出的最佳智能體模型,可以連續運行大量工具而不會出現問題,並且比其前代產品速度更快。
為了測試它的功能,他構建了一個智能體,可以同時使用GPT-5.2、5.1和5。
結果顯示,GPT-5.2調用工具時無需任何前導碼,而且即使在長時間會話中,也不會迷失方向。
還有人讓GPT-5.2用ASCII寫出了自己的內心世界,答案很震撼。
總之,在大多數人的反饋中,GPT-5.2能穩定地處理實際工作,條理清晰,工作流程順暢。
相比於會出現小中斷的舊模型,GPT-5.2對於任務的理解更強,完成得也更順利。
ARC Prize表示,GPT-5.2 Pro(X-High)的最新SOTA得分為90.5%,這就意味著,AI在一年內效率已經提高了約390倍。
背後神秘華人,浮出水面
同以往一樣,這次GPT-5.2的幕後功臣,依然有不少華人。
比如,最早預告GPT-5.2的OpenAI華人研究員、北大校友Yu Bai。
他本科在北大學習數學,在斯坦福獲得統計學博士學位。
負責後訓練的Yun Dai,本科來自清華大學,在加州大學爾灣分校獲得了計算機科學碩士學位。
另一位OpenAI華人研究員Zuxin Liu,從事推理模型後訓練工作。
他本科畢業於北航,在CMU攻讀碩士和博士學位。
Aston Zhang來自在伊利諾伊大學厄巴納-香檳分校攻讀博士學位,現在是OpenAI的研究員。
他感謝了團隊,尤其強調了GPT-5.2 Thinking的處理多步驟任務能力。
總之,昨晚的AI大戰,OpenAI給出了強烈一擊。
接下來,谷歌又會拿出什麼來應對呢?
參考資料:
https://x.com/skirano/status/1999182295685644366
https://x.com/emollick/status/1999185085719887978
本文來自微信公眾號“新智元”,編輯:Aeneas,36氪經授權發佈。




