GPT-5.5全球首破,0源碼盲寫程序,編程AI進入新紀元

【導讀】全網AI交白卷的地獄級基準,被GPT-5.5拿下一血!開局0源碼盲寫程序,拉滿推理算力直接滿血通關。傳統代碼測試已廢,通往ASI的算力狂飆正式打響。

「地獄級」編程難題,終於被AI拿下了!

今天,在一個所有前沿AI交白卷的基準ProgramBench上,GPT-5.5首關告破!

兩種不同編程語言C和Python,GPT-5.5 xhigh完全碾壓Opus 4.7 xhigh。

就在幾天前,Meta聯手斯坦福、哈佛祭出了這個ProgramBench的全新編程基準:

200道題,所有前沿AI模型的通過率——0%。

沒有一個模型,能完整解出哪怕一道。如今,GPT-5.5成為了首個破例者!

編程AI「終極考試」,從0重建程序

ProgramBench到底有多難?

傳統編程基準,不論是SWE-bench,還是HumanEval,本質上是「修bug」或「補函數」。

給模型一個已有代碼庫,告訴它哪裡壞了,讓它修bug。

這是開卷考試,甚至是半開卷,ProgramBench則完全不同。

它給一個編譯好的可執行文件和一份文檔,然後說:從0開始,把這個程序重寫出來。

不給源碼,不許反編譯,不許聯網。

200個任務,從小工具jq、ripgrep,到重量級的FFmpeg、SQLite、PHP編譯器。

OpenAI研究員Noam Brown此前曾表示,「是時候淘汰GQPA這類評估方式,引入一套全新的了」。

剛發佈之初,所有刷榜的AI幾乎全掛,這次,GPT-5.5終於扳回了一局。

GPT-5.5首破紀錄:同一題,C和Python兩種解法

GPT-5.5攻克的第一個任務是——cmatrix,一個經典的終端「黑客帝國」數字雨效果程序。

讓研究人員驚訝的是,GPT-5.5的high和xhigh兩個推理級別,選擇了完全不同的語言來解決同一道題。

high版本用C語言,xhigh版本用Python。

最終結果,兩個都通過了全部行為測試。

GPT-5.5 high的策略堪稱教科書級別:先用10輪探索測試了40多種flag組合,徹底摸清了原程序的CLI行為。

然後一次性寫出完整的C語言實現,僅用5次微調修補就搞定。

GPT-5.5 xhigh更徹底,27步探索,把每一條CLI路徑都摸了個遍,然後一氣呵成寫出完整的Python實現。

關鍵數字來了。

未開高推理模式的GPT-5.5(medium),成績勉強比Claude Sonnet 4.6好一點。

但一旦切到xhigh模式,性能直接起飛。

不僅首次解出一道題(通過率0.5%),還創下了「幾乎解出」任務的新紀錄:26個任務通過了95%以上的單元測試。

更值得注意的是,GPT-5.5 xhigh在完整的累積直方圖上全程碾壓所有對手。

無論你選什麼指標,平均分、中位數、≥90%通過率、≥50%通過率,它都是第一。

178次調用,Opus 4.7栽在兩個bug上

對比之下,Claude Opus 4.7 xhigh的表現令人唏噓。

花費$10.74,調了178次API,是GPT-5.5普通版$1.04、17次調用的10倍。

結果,19個測試失敗,全場最差。

Opus 4.7的失敗原因出人意料地簡單:

Bug 1:顏色解析大小寫敏感。

代碼用了strcmp()而不是strcasecmp()。輸入「GREEN」「Red」「BLUE」全部被判無效。

一個函數調用的差異,直接導致11個測試失敗

178步探索裡,Opus從來沒有測試過大寫或混合大小寫的顏色輸入,它只試了小寫和一個無效顏色「purple」。

Bug 2:無效顏色的退出碼寫錯了。

原程序遇到無效顏色返回exit(0),Opus寫成了exit(1)。

諷刺的是,Opus在探索階段明明觀察到了原程序的行為——./executable -C purple; echo "exit=$?" 輸出的是exit=0。但在測試自己的實現時,卻沒有發現這個差異。

8個測試失敗。

不過,Opus 4.7有一個亮點值得一提:它在處理缺失的ncurses頭文件時展現了驚人的系統工程能力。

其他三個模型發現ncurses.h缺失後,直接改用ANSI轉義序列。

Opus 4.7卻花了約20步深入調查,用ldconfig -p發現了運行時.so文件,用nm -D檢查導出符號,然後手寫了一份106行的頭文件聲明,直接鏈接動態庫。

這是真正的創意工程,但並沒有帶來更好的成績。

還有199題未解

ProgramBench的出現,標誌著編程基準進入了一個新階段。

SWE-bench的通過率已經被捲到了88.7%。GPQA上AI已經超過了大多數PhD。

這些eval正在以驚人的速度「融化」,分數越來越高,區分度越來越低。

而ProgramBench,200道題,至今只有1道被解出,通過率:0.5%。

更重要的是,這次破紀錄揭示了一個關鍵趨勢:「推理算力」正在成為編程AI能力的核心變量。

GPT-5.5在默認推理模式下表現平平,但高推理模式直接改變了質的飛躍。

這意味著,不是模型不夠聰明,而是之前給它「思考」的時間不夠。

ProgramBench的200道題裡,還有199道在等著。

從零到一,不只是起點

回顧AI發展史上的每一次「首破零」時刻——

AlphaGo首次擊敗職業棋手、GPT-4首次通過律師資格考試、o1首次在數學奧賽題上拿分。

「從零到一」從來不是線性進步的起點,而是指數爆發的信號彈。

Noam Brown提出的推理算力Scaling Law,在ProgramBench上得到了迄今為止最直觀的驗證:

同一個GPT-5.5底座,medium模式幾乎交白卷,high模式滿分通關,xhigh模式斷層碾壓。

智能不再是一個固定值,而是算力的函數。

這意味著什麼?意味著通往ASI的路徑,可能不需要等待下一代架構革命。

只要推理算力持續擴展,只要Scaling Law不撞牆。

今天在ProgramBench上只能重建cmatrix的模型,明天就可能重建SQLite,後天就可能重建整個Linux內核。

參考資料: 

https://x.com/polynoamial/status/2054255862441812099 

https://programbench.com/blog/gpt-5-5-first-solve/ 

本文來自微信公眾號“新智元”,編輯:桃子 ,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論