GPT-5.5全球首破，0源碼盲寫程序，編程AI進入新紀元

36氪

【導讀】全網AI交白卷的地獄級基準，被GPT-5.5拿下一血！開局0源碼盲寫程序，拉滿推理算力直接滿血通關。傳統代碼測試已廢，通往ASI的算力狂飆正式打響。

「地獄級」編程難題，終於被AI拿下了！

今天，在一個所有前沿AI交白卷的基準ProgramBench上，GPT-5.5首關告破！

兩種不同編程語言C和Python，GPT-5.5 xhigh完全碾壓Opus 4.7 xhigh。

就在幾天前，Meta聯手斯坦福、哈佛祭出了這個ProgramBench的全新編程基準：

200道題，所有前沿AI模型的通過率——0%。

沒有一個模型，能完整解出哪怕一道。如今，GPT-5.5成為了首個破例者！

編程AI「終極考試」，從0重建程序

ProgramBench到底有多難？

傳統編程基準，不論是SWE-bench，還是HumanEval，本質上是「修bug」或「補函數」。

給模型一個已有代碼庫，告訴它哪裡壞了，讓它修bug。

這是開卷考試，甚至是半開卷，ProgramBench則完全不同。

它給一個編譯好的可執行文件和一份文檔，然後說：從0開始，把這個程序重寫出來。

不給源碼，不許反編譯，不許聯網。

200個任務，從小工具jq、ripgrep，到重量級的FFmpeg、SQLite、PHP編譯器。

OpenAI研究員Noam Brown此前曾表示，「是時候淘汰GQPA這類評估方式，引入一套全新的了」。

剛發佈之初，所有刷榜的AI幾乎全掛，這次，GPT-5.5終於扳回了一局。

GPT-5.5首破紀錄：同一題，C和Python兩種解法

GPT-5.5攻克的第一個任務是——cmatrix，一個經典的終端「黑客帝國」數字雨效果程序。

讓研究人員驚訝的是，GPT-5.5的high和xhigh兩個推理級別，選擇了完全不同的語言來解決同一道題。

high版本用C語言，xhigh版本用Python。

最終結果，兩個都通過了全部行為測試。

GPT-5.5 high的策略堪稱教科書級別：先用10輪探索測試了40多種flag組合，徹底摸清了原程序的CLI行為。

然後一次性寫出完整的C語言實現，僅用5次微調修補就搞定。

GPT-5.5 xhigh更徹底，27步探索，把每一條CLI路徑都摸了個遍，然後一氣呵成寫出完整的Python實現。

關鍵數字來了。

未開高推理模式的GPT-5.5（medium），成績勉強比Claude Sonnet 4.6好一點。

但一旦切到xhigh模式，性能直接起飛。

不僅首次解出一道題（通過率0.5%），還創下了「幾乎解出」任務的新紀錄：26個任務通過了95%以上的單元測試。

更值得注意的是，GPT-5.5 xhigh在完整的累積直方圖上全程碾壓所有對手。

無論你選什麼指標，平均分、中位數、≥90%通過率、≥50%通過率，它都是第一。

178次調用，Opus 4.7栽在兩個bug上

對比之下，Claude Opus 4.7 xhigh的表現令人唏噓。

花費$10.74，調了178次API，是GPT-5.5普通版$1.04、17次調用的10倍。

結果，19個測試失敗，全場最差。

Opus 4.7的失敗原因出人意料地簡單：

Bug 1：顏色解析大小寫敏感。

代碼用了strcmp()而不是strcasecmp()。輸入「GREEN」「Red」「BLUE」全部被判無效。

一個函數調用的差異，直接導致11個測試失敗。

178步探索裡，Opus從來沒有測試過大寫或混合大小寫的顏色輸入，它只試了小寫和一個無效顏色「purple」。

Bug 2：無效顏色的退出碼寫錯了。

原程序遇到無效顏色返回exit(0)，Opus寫成了exit(1)。

諷刺的是，Opus在探索階段明明觀察到了原程序的行為——./executable -C purple; echo "exit=$?" 輸出的是exit=0。但在測試自己的實現時，卻沒有發現這個差異。

8個測試失敗。

不過，Opus 4.7有一個亮點值得一提：它在處理缺失的ncurses頭文件時展現了驚人的系統工程能力。

其他三個模型發現ncurses.h缺失後，直接改用ANSI轉義序列。

Opus 4.7卻花了約20步深入調查，用ldconfig -p發現了運行時.so文件，用nm -D檢查導出符號，然後手寫了一份106行的頭文件聲明，直接鏈接動態庫。

這是真正的創意工程，但並沒有帶來更好的成績。

還有199題未解

ProgramBench的出現，標誌著編程基準進入了一個新階段。

SWE-bench的通過率已經被捲到了88.7%。GPQA上AI已經超過了大多數PhD。

這些eval正在以驚人的速度「融化」，分數越來越高，區分度越來越低。

而ProgramBench，200道題，至今只有1道被解出，通過率：0.5%。

更重要的是，這次破紀錄揭示了一個關鍵趨勢：「推理算力」正在成為編程AI能力的核心變量。

GPT-5.5在默認推理模式下表現平平，但高推理模式直接改變了質的飛躍。

這意味著，不是模型不夠聰明，而是之前給它「思考」的時間不夠。

ProgramBench的200道題裡，還有199道在等著。

從零到一，不只是起點

回顧AI發展史上的每一次「首破零」時刻——

AlphaGo首次擊敗職業棋手、GPT-4首次通過律師資格考試、o1首次在數學奧賽題上拿分。

「從零到一」從來不是線性進步的起點，而是指數爆發的信號彈。

Noam Brown提出的推理算力Scaling Law，在ProgramBench上得到了迄今為止最直觀的驗證：

同一個GPT-5.5底座，medium模式幾乎交白卷，high模式滿分通關，xhigh模式斷層碾壓。

智能不再是一個固定值，而是算力的函數。

這意味著什麼？意味著通往ASI的路徑，可能不需要等待下一代架構革命。

只要推理算力持續擴展，只要Scaling Law不撞牆。

今天在ProgramBench上只能重建cmatrix的模型，明天就可能重建SQLite，後天就可能重建整個Linux內核。

參考資料：

https://x.com/polynoamial/status/2054255862441812099

https://programbench.com/blog/gpt-5-5-first-solve/

本文來自微信公眾號“新智元”，編輯：桃子，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論