硅谷一夜兩彈，GPT-5.3-Codex狙擊Claude 4.6, 奧特曼真急了

02-06

一天之內，兩大編程AI輪番轟炸硅谷。Claude Opus 4.6之後，奧特曼緊急放出GPT-5.3-Codex。雙雄爭霸，徹底撕開AI王座爭奪戰的帷幕。

硅谷今夜難眠！

Claude Opus 4.6毫無徵兆地深夜突襲，沒想到，卻讓奧特曼措手不及。

作為回應，OpenAI倉促應戰，不過半小時緊急祭出最強智能體編程模型——GPT-5.3-Codex。

沒有GPT-5.3，只有GPT-5.3-Codex！

它完美融合了GPT-5.2-Codex頂尖編程能力與GPT-5.2卓越的推理及專業知識能力，且運行速度更提升了25%。

那些涉及深度研究、工具調用及複雜執行的長程任務，都能夠輕鬆駕馭。

GPT-5.3-Codex就像一位並肩作戰的同事，你可以在它工作時進行實時引導和互動，且完全無需擔心上下文丟失。

值得一提的是，GPT-5.3-Codex還是首個在自身創造過程中發揮了關鍵作用的模型。

隨著GPT-5.3-Codex的問世，Codex的角色發生了質的飛躍：

從一個只會編寫和審查代碼的AI智能體，進化為一個幾乎能完成開發者和專業人士在計算機上能做的任何事情的AI智能體。

GPT-5.3-Codex現已加入ChatGPT付費計劃，覆蓋Codex所有應用場景：App、CLI、IDE擴展及Web端。

如今，整個硅谷成為了Anthropic和OpenAI雙雄決戰的「修羅場」，空氣中都充滿了火藥味兒。

有趣的是，原本奧特曼在凌晨12點預告了新模型發佈，卻讓Anthropic搶佔了發佈的先機。

一夜之間，兩大最強編程AI懟臉PK，網友們紛紛吐槽，「簡直跟不上AI迭代的速度了」。

GPT-5.3-Codex登場，編碼更強了

GPT-5.3-Codex實力有多強，亮一亮成績單就知道了。

軟件工程新SOTA

GPT-5.3-Codex在評估現實世界軟件工程的SWE-Bench Pro評測中，創下了行業新高。

與此同時，在衡量編程智能體終端技能的Terminal-Bench 2.0中，它的表現也遠超此前的SOTA。

值得一提的是，GPT-5.3-Codex實現這一切所消耗的Token，比以往任何模型都要少得多。

相較於只測試Python的SWE-bench Verified，SWE-Bench Pro涵蓋四種語言，不僅更能抵禦數據汙染，也更具挑戰性、多樣性和行業相關性

從0造出遊戲

結合前沿的編程能力、美學和緊湊性的改進，GPT-5.3-Codex能產出驚人的成果，甚至能在幾天內從零開始構建功能高度複雜的各類遊戲和應用。

為了測試該模型的Web開發和長程智能體能力，OpenAI讓GPT-5.3-Codex做了兩款遊戲：

Codex App發佈時的賽車遊戲第二版，以及一款潛水遊戲。

利用開發Web遊戲的技能以及預先選好的通用後續提示詞（比如「修復bug」或「改進遊戲」），GPT-5.3-Codex在數百萬個Token的交互中，自主對遊戲進行了迭代。

賽車遊戲：包含不同的賽車手、八張地圖，甚至還有可以用空格鍵觸發的道具

潛水遊戲：玩家可以在其中探索各種珊瑚礁，收集它們以完成你的魚類圖鑑，同時還要管理氧氣

· 更懂你的意圖

相比GPT-5.2-Codex，當你讓GPT-5.3-Codex製作日常網站時，它能更精準地理解你的意圖。

對於簡單或描述模糊的提示詞，它現在默認會生成功能更豐富、設置更合理的網站，為你提供更優質的起步畫布，助力創意落地。

· GPT-5.3-Codex vs GPT-5.2-Codex

舉個例子，同時要求GPT-5.3-Codex和GPT-5.2-Codex構建落地頁。

GPT-5.3-Codex會自動將年度計劃顯示為折算後的月付價格，讓折扣看起來清晰且經過精心設計，而不是簡單地算出年度總額。

此外，它還製作了一個包含三條不同用戶引語的自動切換證言輪播，而非單調的一條。這使得頁面默認看起來更完整，更像是一個可以直接上線的產品。

GPT-5.3-Codex

GPT-5.2-Codex

提示詞：

為Quiet KPI構建一個落地頁，這是一個對創始人友好的每週指標摘要。美學風格採用柔和的SaaS風，玻璃質感卡片，薰衣草色到藍色的漸變，微妙的模糊效果。板塊包括：帶有郵箱收集的首屏，示例報告卡片網格，集成列表行，客戶證言輪播，月付/年付價格切換，常見問題解答，頁腳。

· 字體使用Satoshi或類似的幾何無襯線字體。

· 按鈕採用圓角，14px半徑，強烈的聚焦狀態。

· 添加一個有品位的基於滾動的顯現效果。

超越編程的通用能力

軟件工程師、設計師、產品經理和數據科學家所做的工作遠不止生成代碼。

GPT-5.3-Codex不僅為軟件生命週期中的所有環節，如調試、部署、監控、編寫PRD、編輯文案、用戶研究、測試、指標等提供了支持。

而且，它還能幫用戶構建任何想做的東西——不管是製作精美的幻燈片，還是在表格裡進行復雜的數據分析。

在衡量專業知識工作的GDPval中，GPT-5.3-Codex表現出色，與GPT-5.2處於同一頂尖水平。

1. 財務建議幻燈片

2. 零售培訓文檔

3. NPV分析電子表格

4. 時尚演示PDF

· 計算機使用能力

OSWorld是一個關於計算機使用的基準測試，要求智能體在可視化的桌面計算機環境中完成生產力任務。

在這裡，GPT-5.3-Codex展現出遠超之前GPT模型的計算機操作能力。

在OSWorld-Verified中，模型使用視覺來完成各種計算機任務（人類得分約為72%）

總之，這些在編程、前端、計算機操作和現實世界任務中的優異表現表明，GPT-5.3-Codex不僅在單項任務上表現更好，更是向單一通用智能體邁出的跨越性一步。

這意味著智能體已能夠在全方位的現實世界技術工作中進行推理、構建和執行。

協同作戰，還能中途喊停

隨著模型能力越來越強，現在的挑戰已經從「智能體能做什麼」，變成了「人類如何輕鬆地與並行工作的多個智能體進行交互、指揮和監督」。

在GPT-5.3-Codex的加持下，操作過程的更新也會更加頻繁。

這樣，開發者就可以在它工作時隨時掌握關鍵決策和進。

你不必乾等著最終結果，而是可以實時交互——提問、討論方法，並引導它走向解決方案。

GPT-5.3-Codex會把它的操作講給你聽，響應你的反饋，並讓你從頭到尾都全程同步。

自我加速迭代，接管研發工作流

現在的Codex，懂你意圖，更懂效率。

OpenAI內部甚至出現了一種「套娃」式的進化：Codex正在加速Codex的誕生。

短短兩個月，OpenAI的研究員和工程師們發現，工作方式已被徹底顛覆。

他們正在用GPT-5.3-Codex的早期版本，去訓練、部署和優化現在的正式版。

這一波「自我進化」的實戰成績，相當炸裂：

研究團隊

從監控訓練運行、深挖交互模式，到給人類同事開發分析工具，Codex全程參與，不僅修Bug，還能提建議。

工程團隊

它是最硬核的戰友。無論是優化測試框架、定位緩存失效的根源，還是在流量洪峰中動態調度GPU集群，它都穩得住。

Alpha測試實戰

為了搞懂生產力差異，Codex自己寫正則分類器，跑遍海量日誌，直接甩出一份精準報告。

面對反直覺數據，它聯手數據科學家構建新管道。人類需要幾小時？Codex只用了三分鐘，就從數千個數據點中提煉出了關鍵洞察。

不止編程，更是全能操盤手

GPT-5.3-Codex的野心，早已溢出了代碼框。

隨著這次發佈，Codex也開始從單純的寫代碼工具，轉型為操作計算機並端到端完成工作的得力助手。

OpenAI正在解鎖更廣闊的戰場——從構建軟件，到深度研究、複雜分析，乃至執行一切案頭工作。

曾經，它的目標是做「最強編程智能體」；現在，它是你電腦裡無所不能的「通用協作者」。

Codex的適用邊界被無限拓寬，而我們創造力的天花板，也將被徹底重寫。

參考資料：

https://openai.com/index/introducing-gpt-5-3-codex/

https://x.com/OpenAI/status/2019474152743223477

https://x.com/sama/status/2019474754529321247

本文來自微信公眾號“新智元”，作者：新智元，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

收藏

評論

分享

相關推薦

貝萊德與Uniswap合作，將代幣化債券基金引入DeFi領域，導致UNI價格飆升……

貝萊德高管表示，亞洲地區1%的加密貨幣配置可釋放2萬億美元的新資金流入。

戰略轉型提振 BERA，Berachain 飆升 150%。