GPT-5.2發佈即降智?背後華人被挖出,清北校友核心貢獻

avatar
36氪
12-12

【導讀】號稱滿分屠榜的GPT-5.2,一發布就降智了?許多網友現身表示,似乎確實比開始弱了很多。但提前實測的網友表示,它的確很強,甚至當得起GPT-6之稱!

昨夜,OpenAI放出了GPT-5.2炸彈。

根據官方公佈的基準測試,它幾乎完全碾壓Gemini 3 Pro。

GPT-5.2最擅長幫人們完成有經濟價值的任務,比如做電子表格、做PPT、寫代碼和審查代碼、分析長文檔等等。

而且號稱在GDPval等基準測試中,有70.9%的時間能追趕甚至吊打專業人士。

可以說,這是OpenAI進入紅色預警,甚至不惜改變AGI目標,都要完成的一個產品,而且還身負著狙擊Gemini 3的重任。

所以,GPT-5.2實測起來,體感究竟如何?

GPT-5.2實測:一上線就降智?

出乎意料都是,一個GPT-5.2實測翻車的帖子,在X上火了。

如果向它提問:「garlic」中有多少個R?它會回答:0個。

相比之下,其他模型的表現就要穩定得多。

歸根結底,這是LLM的一個底層問題:因為tokenization而無法統計字母數量。

不過,只要強制選到Thinking版本,GPT-5.2就能答對這個問題了。

在reddit上,也有很多網友表示:在GPT-5.2剛發佈的時候,似乎功能還很強。

結果幾個小時後,它緊接著就降智了。

有人表示,自己早上八點半開始用的時候還好好的,喝完一杯咖啡後,GPT-5.2忽然就不行了。

似乎每次新模型一發布,幾小時後就會被削弱,OpenAI這是什麼操作?

大佬現身說法:還是挺強的

不過這點小插曲,還是沒有影響坊間的正面評論。

昨晚GPT-5.2一發布,網友們就被震撼了。

比如有人說,ARC-AGI 2的這次飛躍屬實瘋狂,OpenAI究竟是怎麼做到的?

本來大家還以為OpenAI已經落後谷歌了,看來並沒有!

看起來,OpenAI內部還捂著不少厲害的東西沒發佈。

而且,領略過GPT-5.2超強滿血版的用戶,對它是一致好評。

沃頓商學院教授Ethan Mollick表示,自己有幸提前使用了GPT-5.2,它的性能還是令人印象很深刻的。

比如下面這個任務:創建一個視覺上有趣的著色器,可以在twigl-dot-app中運行,使其看起來像一座無限的新哥特式塔樓城市,部分淹沒在波濤洶湧的海洋中。

對於這個視頻,很多網友大加讚歎:GPT-5.2不僅遵循了指令,還在代碼中選擇了非常合理的審美和結構。

然後,教授又讓GPT-5.2繪製一張人類歷年考試成績的圖表。

這個任務十分複雜,因為需要在過程中查找和交叉引用大量資料,然後一次性就生成有用的結果。

可以看到,GPT-5.2的表現十分驚豔。

這個Twigl代碼的實例,顯出了GPT-5.2的強大編碼能力。

推理、數學、編程的重大飛躍

Magicpathai的CEO表示,自己已經測試GPT-5.2有一段時間了。

他對於這個模型的評價是——「複雜推理、數學、編程和模擬方面的一次重大飛躍」。

在實例中,它在單個文件中就構建了一個完整的3D圖形引擎,還支持交互式控制,分辨率達到4K。

在這個視頻中,他還用GPT-5.2進行了高難度推理。

有人質疑道:這個圖形引擎會不會是GPT-5.2調庫完成的?CEO表示,所有代碼和圖形完全是從0開始寫的。

也就是說,GPT-5.2的進步不是漸進式的,而是編碼助手功能的徹底範式轉變。

網友們驚呼:這種進步的速度,實在是令人頭暈目眩。

這位CEO對於GPT-5.2的評價是:它是OpenAI推出的最佳智能體模型,可以連續運行大量工具而不會出現問題,並且比其前代產品速度更快。

為了測試它的功能,他構建了一個智能體,可以同時使用GPT-5.2、5.1和5。

結果顯示,GPT-5.2調用工具時無需任何前導碼,而且即使在長時間會話中,也不會迷失方向。

還有人讓GPT-5.2用ASCII寫出了自己的內心世界,答案很震撼。

總之,在大多數人的反饋中,GPT-5.2能穩定地處理實際工作,條理清晰,工作流程順暢。

相比於會出現小中斷的舊模型,GPT-5.2對於任務的理解更強,完成得也更順利。

ARC Prize表示,GPT-5.2 Pro(X-High)的最新SOTA得分為90.5%,這就意味著,AI在一年內效率已經提高了約390倍。

背後神秘華人,浮出水面

同以往一樣,這次GPT-5.2的幕後功臣,依然有不少華人。

比如,最早預告GPT-5.2的OpenAI華人研究員、北大校友Yu Bai。

他本科在北大學習數學,在斯坦福獲得統計學博士學位。

負責後訓練的Yun Dai,本科來自清華大學,在加州大學爾灣分校獲得了計算機科學碩士學位。

另一位OpenAI華人研究員Zuxin Liu,從事推理模型後訓練工作。

他本科畢業於北航,在CMU攻讀碩士和博士學位。

Aston Zhang來自在伊利諾伊大學厄巴納-香檳分校攻讀博士學位,現在是OpenAI的研究員。

他感謝了團隊,尤其強調了GPT-5.2 Thinking的處理多步驟任務能力。

總之,昨晚的AI大戰,OpenAI給出了強烈一擊。

接下來,谷歌又會拿出什麼來應對呢?

參考資料: 

https://x.com/skirano/status/1999182295685644366 

https://x.com/emollick/status/1999185085719887978 

本文來自微信公眾號“新智元”,編輯:Aeneas,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
53
收藏
13
評論