【導讀】全網AI交白卷的地獄級基準,被GPT-5.5拿下一血!開局0源碼盲寫程序,拉滿推理算力直接滿血通關。傳統代碼測試已廢,通往ASI的算力狂飆正式打響。
「地獄級」編程難題,終於被AI拿下了!
今天,在一個所有前沿AI交白卷的基準ProgramBench上,GPT-5.5首關告破!
兩種不同編程語言C和Python,GPT-5.5 xhigh完全碾壓Opus 4.7 xhigh。
就在幾天前,Meta聯手斯坦福、哈佛祭出了這個ProgramBench的全新編程基準:
200道題,所有前沿AI模型的通過率——0%。
沒有一個模型,能完整解出哪怕一道。如今,GPT-5.5成為了首個破例者!
編程AI「終極考試」,從0重建程序
ProgramBench到底有多難?
傳統編程基準,不論是SWE-bench,還是HumanEval,本質上是「修bug」或「補函數」。
給模型一個已有代碼庫,告訴它哪裡壞了,讓它修bug。
這是開卷考試,甚至是半開卷,ProgramBench則完全不同。
它給一個編譯好的可執行文件和一份文檔,然後說:從0開始,把這個程序重寫出來。
不給源碼,不許反編譯,不許聯網。
200個任務,從小工具jq、ripgrep,到重量級的FFmpeg、SQLite、PHP編譯器。
OpenAI研究員Noam Brown此前曾表示,「是時候淘汰GQPA這類評估方式,引入一套全新的了」。
剛發佈之初,所有刷榜的AI幾乎全掛,這次,GPT-5.5終於扳回了一局。
GPT-5.5首破紀錄:同一題,C和Python兩種解法
GPT-5.5攻克的第一個任務是——cmatrix,一個經典的終端「黑客帝國」數字雨效果程序。
讓研究人員驚訝的是,GPT-5.5的high和xhigh兩個推理級別,選擇了完全不同的語言來解決同一道題。
high版本用C語言,xhigh版本用Python。
最終結果,兩個都通過了全部行為測試。
GPT-5.5 high的策略堪稱教科書級別:先用10輪探索測試了40多種flag組合,徹底摸清了原程序的CLI行為。
然後一次性寫出完整的C語言實現,僅用5次微調修補就搞定。
GPT-5.5 xhigh更徹底,27步探索,把每一條CLI路徑都摸了個遍,然後一氣呵成寫出完整的Python實現。
關鍵數字來了。
未開高推理模式的GPT-5.5(medium),成績勉強比Claude Sonnet 4.6好一點。
但一旦切到xhigh模式,性能直接起飛。
不僅首次解出一道題(通過率0.5%),還創下了「幾乎解出」任務的新紀錄:26個任務通過了95%以上的單元測試。
更值得注意的是,GPT-5.5 xhigh在完整的累積直方圖上全程碾壓所有對手。
無論你選什麼指標,平均分、中位數、≥90%通過率、≥50%通過率,它都是第一。
178次調用,Opus 4.7栽在兩個bug上
對比之下,Claude Opus 4.7 xhigh的表現令人唏噓。
花費$10.74,調了178次API,是GPT-5.5普通版$1.04、17次調用的10倍。
結果,19個測試失敗,全場最差。
Opus 4.7的失敗原因出人意料地簡單:
Bug 1:顏色解析大小寫敏感。
代碼用了strcmp()而不是strcasecmp()。輸入「GREEN」「Red」「BLUE」全部被判無效。
一個函數調用的差異,直接導致11個測試失敗。
178步探索裡,Opus從來沒有測試過大寫或混合大小寫的顏色輸入,它只試了小寫和一個無效顏色「purple」。
Bug 2:無效顏色的退出碼寫錯了。
原程序遇到無效顏色返回exit(0),Opus寫成了exit(1)。
諷刺的是,Opus在探索階段明明觀察到了原程序的行為——./executable -C purple; echo "exit=$?" 輸出的是exit=0。但在測試自己的實現時,卻沒有發現這個差異。
8個測試失敗。
不過,Opus 4.7有一個亮點值得一提:它在處理缺失的ncurses頭文件時展現了驚人的系統工程能力。
其他三個模型發現ncurses.h缺失後,直接改用ANSI轉義序列。
Opus 4.7卻花了約20步深入調查,用ldconfig -p發現了運行時.so文件,用nm -D檢查導出符號,然後手寫了一份106行的頭文件聲明,直接鏈接動態庫。
這是真正的創意工程,但並沒有帶來更好的成績。
還有199題未解
ProgramBench的出現,標誌著編程基準進入了一個新階段。
SWE-bench的通過率已經被捲到了88.7%。GPQA上AI已經超過了大多數PhD。
這些eval正在以驚人的速度「融化」,分數越來越高,區分度越來越低。
而ProgramBench,200道題,至今只有1道被解出,通過率:0.5%。
更重要的是,這次破紀錄揭示了一個關鍵趨勢:「推理算力」正在成為編程AI能力的核心變量。
GPT-5.5在默認推理模式下表現平平,但高推理模式直接改變了質的飛躍。
這意味著,不是模型不夠聰明,而是之前給它「思考」的時間不夠。
ProgramBench的200道題裡,還有199道在等著。
從零到一,不只是起點
回顧AI發展史上的每一次「首破零」時刻——
AlphaGo首次擊敗職業棋手、GPT-4首次通過律師資格考試、o1首次在數學奧賽題上拿分。
「從零到一」從來不是線性進步的起點,而是指數爆發的信號彈。
Noam Brown提出的推理算力Scaling Law,在ProgramBench上得到了迄今為止最直觀的驗證:
同一個GPT-5.5底座,medium模式幾乎交白卷,high模式滿分通關,xhigh模式斷層碾壓。
智能不再是一個固定值,而是算力的函數。
這意味著什麼?意味著通往ASI的路徑,可能不需要等待下一代架構革命。
只要推理算力持續擴展,只要Scaling Law不撞牆。
今天在ProgramBench上只能重建cmatrix的模型,明天就可能重建SQLite,後天就可能重建整個Linux內核。
參考資料:
https://x.com/polynoamial/status/2054255862441812099
https://programbench.com/blog/gpt-5-5-first-solve/
本文來自微信公眾號“新智元”,編輯:桃子 ,36氪經授權發佈。



