GPT-5.4 發佈，OpenClaw 的能力要被替代？OpenAI 新模型會自己用電腦了，還順手把編程能力拉滿

今天，GPT-5.4 發佈，那個熟悉的 OpenAI 又回來了。

GPT-5.4 是一款新的前沿模型，把 OpenAI 過去一段時間在推理能力（GPT-5.2）、頂級編程能力（GPT-5.3-Codex）以及原生計算機使用能力上的進展，整合到了同一個版本里。

這次發佈的分量很重，光是“原生電腦操作”這一點，就已經足夠吸引眼球，而當它再疊加頂級的專業知識工作能力、100 萬 token 的上下文窗口，以及明顯提升的工具使用效率時，對所有希望用 AI 工作、與 AI 協作，或者基於 AI 搭建系統的人來說，這都意味著一次真正意義上的能力躍升。

GPT-5.4 搶的是 OpenClaw 的入口？

在這個新模型上，最大的變化就是原生電腦操作能力的到來。OpenAI 的原話是，GPT-5.4 是其“首個原生具備電腦操作能力的通用模型”。

OSWorld Verified 的 computer use 基準測試上從 47.3% 提升到了 75%，而 BrowseComp 的準確率從 65.8% 提升至 82.7%。

這不只是“跑幾個 shell 命令”那麼簡單，真正的意義在於：它可以進入你的桌面、訪問網頁，基本上能夠在你的電腦上完成很多原本只有人來操作的事情，而這些事通常是我們平時通過網頁端 ChatGPT 做不到的。

尤其是像 OpenClaw 這樣的產品，在最近幾個月，甚至可以說最近幾周，突然變得非常火，核心原因就在於，它已經改變了我們使用 AI 模型的方式。過去，我們更多隻是停留在網頁端，通過 web app 和模型對話，電腦本地幾乎沒有真正參與進來。但現在，這種局面已經從根本上發生了變化。

從 OpenAI 給出的示例中，我們可以看到 GPT-5.4 可以熟練使用計算機，包括查看瀏覽器用戶界面截圖、點擊界面、發送電子郵件以及安排日曆。

另一個新的實驗功能 “Playwright (Interactive)”，允許 Codex 實時進行 Web 和 Electron 應用的可視化調試，甚至能在構建應用的同時直接測試——這正是藉助它的原生電腦操作能力實現的。

OpenAI 研究員 SQ Mah 表示，這背後主要有兩項關鍵能力支撐：一是 CUA（computer use，計算機操作能力），二是通過圖像輸入生成高質量網站的能力。

與 GPT-5.3 Codex 相比，GPT-5.4 在使用 CUA 時，不再需要額外拉起一個全新的環境來執行操作。在 3D 遊戲中，CUA 會自己點擊遊戲界面，移動象棋位置，甚至通過實際操作來驗證規則是否正確生效。

在網站生成場景中，模型會調用 image gen 工具，生成圖片，然後通過 CUA 來檢查自己的工作：打開生成的圖片、檢查圖片內容、打開網站頁面也看一遍，然後把它們並排對比，確保生成的網站儘可能接近輸入的那張圖。

SQ Mah 還強調說，通過持久化的 CUA，他們發現，在一些讓模型測試自己工作的場景中，token 使用量實際上下降了三分之二。

其實，OpenAI 早在去年 1 月就推出了 CUA，但出於安全性和準確性的考量，這個項目並沒有真正被重視起來。

甚至一度讓人懷疑，OpenAI 是否已經放棄了這條路線。特別是在 GPT-4o 等項目吸引了幾乎全部關注的那段時間裡，CUA 基本處於一種“銷聲匿跡”的狀態。

他們是不是放棄這個項目了？現在一點消息都沒有了。我其實一直在用 Azure/OpenAI，它已經預覽好幾個月了。雖然我申請了，但一直沒能獲得批准。

與 GPT-4o 等項目鋪天蓋地的宣傳相比，CUA 基本上銷聲匿跡了。而且它目前仍處於預覽階段，這意味著訪問權限受到嚴格限制，許多人甚至都無法嘗試...... 不過我不認為這條路線已經失敗。一旦“瀏覽器優先”的方案在穩定性、隱蔽性以及內置安全機制上真正成熟，它很可能會成為 agent 工作流的一次重大躍遷。

但從今天 GPT-5.4 的發佈來看，情況顯然變了。OpenAI 不僅重新把這項能力帶回到臺前，還在 GitHub 上新發布了一些的 CUA sample app。

CUA 讓 ChatGPT 5.4 可以直接使用我們的電腦，這一點和 OpenClaw 的思路非常接近：本質上，大家都在爭奪同一個入口——讓 AI 直接使用電腦，而不再繼續受限於 API 和聊天窗口。只不過，相比 OpenClaw 這類建立在模型之外的 computer-use 框架，GPT-5.4 走得更直接：它把電腦操作能力原生整合進了模型。

當這些模型開始“反超”像 OpenClaw 這樣的開源項目時，那些年營收千萬、上億甚至百億的公司，完全可以做出自己版本的 OpenClaw——更安全、更快、更可靠。所以在 agentic AI 能力方面，現在真的是令人興奮的階段。

一邊降成本，一邊降幻覺

這次升級明顯是在“照顧開發者和重度用戶”，其中一個關鍵原因是 GPT-5.4 帶來了工具搜索（tool search）：模型不再把所有工具的完整定義一次性塞進上下文（這可能導致每次請求額外燒掉數萬 token），而是隻拿到一個輕量列表，需要用哪個工具時再按需檢索具體定義。

在 Scale 的 MCP Atlas 基準中，啟用 36 個 MCP 服務器、測試 250 個任務時，tool-search 配置在不降低準確率的情況下，把總 token 使用量減少了 47%。對構建大型 agent 系統的開發者來說，這幾乎等同於：成本更低、響應更快。

幻覺問題也顯著下降。按 OpenAI 的說法，GPT-5.4 的單條事實陳述比 GPT-5.2 更不容易出錯（錯誤概率降低 33%），整體回答包含錯誤的概率也降低了 18%——這對依賴準確輸出的專業用戶來說，是非常實用的一次升級。

與此同時，在 Harvey 的 BigLaw Bench（法律文檔評測）中，GPT-5.4 的準確率達到了 91%。

編程能力也更強了

GPT-5.4 現在也成為 OpenAI 的主力編程模型——在大多數任務中，你不再需要在 ChatGPT 與 Codex 之間糾結選哪一個。

它在 SWE-Bench Pro 上與 GPT-5.3-Codex 持平或更強，同時也更快，尤其是在較低推理強度設置下。在對話裡，你可以直接開始寫代碼，無需額外選擇。

Codex 還新增了 fast mode，在所有支持的模型上帶來最高 1.5 倍速度提升。OpenAI 還強調 GPT-5.4 在複雜前端任務上明顯更強，輸出既更精緻好看，也更符合功能正確性。這一點，也已經從不少開發者的實際反饋中得到了印證。

能力升級，價格也升級

在 API 中，OpenAI 表示 GPT-5.4 Thinking 對應的模型名稱為 gpt-5.4，而 GPT-5.4 Pro 則對應 gpt-5.4-pro。價格如下：

GPT-5.4：

輸入：$2.50 / 每 100 萬 token

輸出：$15 / 每 100 萬 token

GPT-5.4 Pro：

輸入：$30 / 每 100 萬 token

輸出：$180 / 每 100 萬 token

從整體來看，與目前市面上的模型相比，GPT-5.4 在 API 運行成本上屬於較高的一檔，如下表所示。

還有一個重要變化：在 GPT-5.4 中，如果請求的輸入 token 超過 272,000，費用將按正常價格的 2 倍計算，這反映了它支持比以往模型更大的提示上下文。

在 Codex 中，默認的 compaction（壓縮）上限是 272k token。只有當輸入超過 272k 時，才會觸發更高的長上下文價格。這意味著開發者只要把提示控制在這個範圍內，就不會觸發額外費用；如果需要更長上下文，也可以通過提高 compaction 上限來實現，但只有這些更大的請求才會按更高費率計費。

OpenAI 發言人還表示，在 API 中最大輸出長度為 128,000 token，與之前的模型保持一致。

至於為什麼 GPT-5.4 的基礎價格更高，OpenAI 的解釋主要有三個原因：

在複雜任務上的能力顯著提升，包括編程、計算機操作、深度研究、高級文檔生成和工具調用等；

來自 OpenAI 技術路線圖的一系列研究突破；

推理效率更高，在完成相同任務時需要更少的推理 token。

同時他們也強調，即使價格有所上調，GPT-5.4 的定價仍然低於許多同級別的前沿模型。

參考鏈接：

https://openai.com/zh-Hans-CN/index/computer-using-agent/

https://www.reddit.com/r/OpenAI/comments/1mwc03q/openai_computer_user_agent_cua/

https://venturebeat.com/technology/openai-launches-gpt-5-4-with-native-computer-use-mode-financial-plugins-for

本文來自微信公眾號“InfoQ”，編譯：Tina，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論