GPT-5.3上線Codex,OpenAI回應Claude新模型只用了15分鐘

avatar
36氪
02-06

火星撞地球,新模型大戰!

Claude Opus 4.6發佈僅僅15分鐘,OpenAI也甩出了自己最新最強編程模型——

GPT-5.3-Codex。

最直觀的感受是,這個新模型終於有點美學品味了。

官方展示了兩個Demo:一個賽車遊戲、一個潛水遊戲。還蠻有風格的。

據說,GPT-5.3-Codex在幾乎沒有人工干預的情況下,持續迭代這些遊戲,累計消耗了數百萬token

在網頁開發上,除了UI更好看,對「意圖」的理解也更強了。

即便Prompt給得不清楚,它也能自動補全邏輯,生成一個功能齊全的網站。

就這些Demo來看,設計感確實比之前強了一截。

Computer use能力同樣拉滿,現在已經能用來幫金融從業者直接做PPT。

其他職場工作也能覆蓋,尤其是在專業知識密集型任務上,寫文檔、做電子表格都沒什麼問題。

硬實力方面,官方給出的亮點如下:

更聰明:SWE-Bench Pro 57%,TerminalBench 2.0 76%,OSWorld 64%。

更可控:支持任務進行中的實時引導,可隨時調整方向並獲取更新。

更快速:完成相同任務時,所需token不到5.2-Codex的一半,單token速度提升超過25%。

更Agent:不只是更會寫代碼,計算機操作同樣很強。

直接看這張對比表會更直觀,幾乎每一個維度,都比上一代有明顯提升。

網友直呼過於刺激,昨天OpenAI剛被Anthropic拿廣告狙了一槍,今天就對轟了回來。

一天之內,兩個重量級編程模型

評論區也迅速分成了Anthropic派和OpenAI派。

下面來看看,這場奧特曼主動挑起的AI coding大戰,OpenAI到底表現如何?

GPT 5.3 Codex

大家最關心的,當然還是編程能力。

OpenAI表示,GPT-5.3-Codex在SWE-Bench Pro上實現了SOTA。

這是一個專為真實世界軟件工程設計的測試,覆蓋四種編程語言,整體難度更高、任務更豐富,也更貼近真實生產場景。

同時,GPT-5.3-Codex在Terminal-Bench 2.0上的表現也有明顯提升。

更關鍵的是效率。在拿下這些成績的同時,GPT-5.3-Codex使用的token數量少於任何以往模型

除了編程能力,新一代Codex的另一個重點是Computer use

OSWorld是一項面向智能體的計算機使用基準測試,要求模型在可視化的桌面計算機環境中完成各類生產力任務。

結果顯示,GPT-5.3-Codex在計算機使用能力上,明顯強於此前的GPT模型。

綜上,GPT-5.3-Codex不是一次單點模型能力突破,更像是基於智能體的全方位發展,編碼、前端開發、計算機操作全都有提升

更有意思的是,這次GPT-5.3-Codex直接參與了自己的訓練過程

OpenAI表示,這是他們首個參與「自我加速」的模型。Codex團隊在研發過程中使用其早期版本,來調試自身訓練流程、管理部署,並評估測試結果。

官方也給出了一些具體例子。

訓練階段,研究團隊使用Codex監控和調試訓練任務,幫助在整個訓練過程中追蹤模型行為變化,對交互進行深入分析,並提出改進方案。

數據分析方面,一位數據科學家與GPT-5.3-Codex協作,構建了新的數據管道,並以遠超傳統儀表盤工具的方式對結果進行了可視化。

隨後,研究人員與Codex一起分析這些結果,模型在不到三分鐘內,就從數千個數據點中提煉出了關鍵洞見。

工程團隊則藉助Codex優化和適配GPT-5.3-Codex的測試與運行框架。

當開始出現影響用戶體驗的異常邊緣案例時,團隊成員通過Codex定位到了上下文渲染相關的缺陷,並進一步追溯到了緩存命中率偏低的原因。

Two More Things

與Anthropic的巔峰對決的確相當精彩,但OpenAI其實還有兩個值得關注的大動作。

1、Frontier:一個幫助企業打造「AI同事」的平臺

這是OpenAI一項相當重磅的ToB業務,目標很明確:讓Agent真正進入公司工作流。

具體實現方式,包括共享上下文、上手式的入職引導、帶反饋的實踐學習,以及清晰的權限與邊界。

據悉,HP、Intuit、Oracle、State Farm、Thermo Fisher和Uber等知名企業,已經早早採用了Frontier。

2、AI4S:OpenAI和Ginkgo聯手,用GPT-5把蛋白質合成成本打下來了40%

這是一家做合成生物學的實驗室型公司,他們將GPT-5接入一座自主實驗室,讓模型可以提出實驗方案、規模化執行實驗、從結果中學習,並決定下一步該嘗試什麼,完整跑通了一個閉環。

2026年,或許是AI4S加速演進的一年。

不過,在OpenAI忙著和Anthropic對狙,網友們被一系列新動態弄的眼花繚亂的同時,評論區也有另一種聲音。

把4o還給我!!

直到現在,奧特曼依然沒有回應4o被徹底下架這件事。

或許,真的是和Anthropic打得太忙了。

參考鏈接:

[1]https://openai.com/index/introducing-gpt-5-3-codex/

[2]https://openai.com/index/introducing-openai-frontier/

[3] https://x.com/i/trending/2019496485793198148

本文來自微信公眾號“量子位”,作者:關注前沿科技,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論