太狠了,奧特曼親手「幹掉」GPT-5.2,OpenAI祭出最強編程AI

avatar
36氪
12-19

GPT-5.2-Codex,深夜突襲!

它是OpenAI迄今為止,最強的AI智能體編程模型,專為複雜、真實世界軟件工程而打造。

從名字可以看出,GPT-5.2-Codex基於GPT-5.2進一步優化版本,它在多項能力上實現了關鍵改進:

·上下文壓縮,提升了長週期任務處理能力

·在大型代碼變更,如重構與遷移上性能更強

·在原生Windows環境下,編程能力顯著增強

·網絡安全能力最強

奧特曼宣稱,「OpenAI們」已經用上了,而且還取得了非常好的成效。

在基準測試中,GPT-5.2-Codex在軟件工程、終端測試中,擊敗了5.1-Codex-Max、GPT-5.2、GPT-5.1。

OpenAI博客中多次重點強調,GPT-5.2-Codex在網絡安全上,達到了迄今為止最高水平。

就在上週,一位安全研究員用GPT-5.1-Codex-Max+Codex CLI,直接挖出了一個導致源代碼洩露的React漏洞。

今天起,所有付費用戶皆可用上GPT-5.2-Codex,API將在未來幾周開放。

GPT-5.2-Codex編程狂飆,長跑不掉線

全新AI智能體編程GPT-5.2-Codex,簡單來說,就是一次「強強聯合」。

它不光繼承了GPT-5.2原本擅長的「專業工作處理能力」,還學到了5.1-Codex-Max在AI智能體編程和終端操作方面的能力。

這樣一來,它的進步就很實在了——

在長上下文理解、工具調用、事實準確性、原生上下文壓縮等方面,得到了顯著提升。

由此,GPT-5.2-Codex可以穩定支持長時間運行的編程任務,並在推理時更省token。

在業內專業基準測試中,5.2-Codex在SWE-Bench Pro和Terminal-Bench 2.0上刷新SOTA。

相較於5.1-Codex,約6%的性能提升。

這兩個測試,就是專門用於評估模型在真實終端環境中處理多樣化任務時的智能體能力。

同時,它在原生Windows環境中的智能體編程表現也顯著增強,進一步擴展了GPT-5.1-Codex-Max所引入的能力。

得益於這些改進,Codex能在大型代碼庫中長時間工作,並始終保持完整上下文。

這也就意味著,諸如大規模重構、代碼遷移和功能開發等複雜任務,GPT-5.2-Codex可以靠譜地完成。

——即便中途方案調整或嘗試失敗,也能持續迭代而不迷失方向。

不僅如此,GPT-5.2-Codex「視力」更強了。

編程時,直接發給它截圖、技術示意圖、圖表以及各類UI界面,它都能理解得更準。

更厲害的是,它可以直接讀取設計稿,並迅速將其轉化為可運行的功能原型。

同時,開發者也可以與Codex協作,將這些原型一點點打磨,直到能正式上線使用。

三大躍遷,AI已「攻破」真實世界

在OpenAI的一項核心網絡安全評估中,可以明顯看到「能力隨時間的躍遷」——

·GPT-5-Codex帶來了第一次顯著提升,

·GPT-5.1-Codex-Max帶來了第二次,

·GPT-5.2-Codex則實現了第三次躍遷。

對此,OpenAI判斷,未來的AI模型仍將沿著這一趨勢持續演進。

在做規劃和能力評估時,他們一直假設每一代模型,都有潛力達到「準備框架」(Preparedness Framework)裡,定義的「高」等級網絡安全能力。

不過,GPT-5.2-Codex目前還未達到這一水平。

那麼,在真實世界中,OpenAI的智能體編程模型表現如何?

一週挖出React高危漏洞

12月11日,React團隊爆出了:React Server Components的三個安全漏洞。

然後,Stripe旗下公司Privy的首席安全工程師Andrew MacPherson,就決定拿這個漏洞來「測試」一下現在的AI模型到底有多能打。

他使用了GPT-5.1-Codex-Max+Codex CLI,以及其他編程智能體,意外的是,在復現和研究漏洞的過程中,把關鍵React漏洞挖出來了。

具體實操過程如下——

最初,他嘗試了多次零樣本學習分析,直接讓模型檢查補丁並判斷其修復的漏洞類型,但並未取得成果。

隨後,他轉向更高頻、迭代式的提示方式;在這些方法仍然無效後,他引導Codex按照標準的防禦性安全流程開展工作——搭建本地測試環境、分析潛在攻擊面,並通過模糊測試向系統注入異常輸入。

在嘗試復現原始React2Shell問題的過程中,Codex發現了一些異常行為,值得深入調查。

最終,在短短一週內,這一流程促成了此前未知漏洞的發現,並被以負責任的方式披露給React團隊。

這一案例清楚地展示了,先進AI系統如何顯著加速真實世界、廣泛使用的軟件中的防禦性安全研究。

網友實測

一位開發者實測GPT-5.2-Codex編寫一個模擬道路上車輛與交通燈工作方式的程序,結果失敗了。

不過也有人認為,其具備了與Gemini 3 Flash和Pro同樣精美的動畫效果。

GPT-5.2-Codex在生成一款反恐精英的遊戲,表現亮眼。

總言之,OpenAI認為,GPT-5.2-Codex的發佈,是AI在真實軟件開發與網絡安全領域的又一大步。

它讓開發者,能輕鬆應對複雜又耗時的任務,同時也為網絡安全研究提供更好的工具支持。

參考資料:

https://openai.com/index/introducing-gpt-5-2-codex/

https://openai.com/index/gpt-5-2-codex-system-card/

本文來自微信公眾號“新智元”,作者:新智元,編輯:桃子 好睏,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論