OpenAI祭出GPT-5.4神裝,Codex同款Harness全面開放

avatar
36氪
04-16

OpenAI不聲不響,又下了一手狠棋。

就在剛剛,Agents SDK迎來一次徹底的架構重寫

原生harness、原生沙盒、Codex級的文件系統工具,外加七家頭部沙盒廠商一鍵接入。

3月初,GPT-5.4帶著原生computer use(計算機使用)高調登場時,開發者就已經吐槽過一件事。

模型能操作電腦了,可Agent跑在哪臺電腦上、怎麼保證跑起來不出事,還是得自己東拼西湊一套框架。

今晚這個缺口被OpenAI自己補上了。

一句話版本,OpenAI這次把Agents SDK從「聊天機器人的玩具」改造成了「生產級Agent的底座」

harness負責控制流、模型調用、工具路由、暫停恢復;沙盒負責讀寫文件、裝依賴、跑代碼,兩層徹底解耦。

更狠的是,這一刀同時砍在了LangChain、CrewAI、LangGraph這些第三方Agent框架身上。

OpenAI下場把基建層做了,留給第三方的空間,肉眼可見地在收窄。

從「聊天機器人的玩具」到生產級底座

講這次升級之前,先得搞清楚原來的Agents SDK長啥樣。

2025年3月,OpenAI第一次推出Agents SDK,主打輕量、少抽象、幾行Python就能跑起來的賣點。

但這一版SDK,本質上是為聊天機器人場景做的。

一年多過去,模型在能力上的提升可謂是翻天覆地——一口氣能跑幾個小時、幾天,甚至幾周。

原來那套為聊天機器人設計的SDK,自然也就跟不上時代了。

這次的重寫,主要做了兩件事。

第一件,給模型配一個完整的運行框架——harness。

配置化記憶、感知沙盒的編排、類似Codex的文件系統工具、通過MCP調工具、通過skills漸進式披露信息、通過AGENTS.md自定義指令、用shell工具執行代碼、用apply patch工具編輯文件,全部打包進SDK原生支持。

熟悉Claude Code和Codex的開發者看到這套清單會很眼熟。

沒錯,OpenAI這次是把自家Codex過去一年踩過的坑、積累的最佳實踐,順手產品化塞進了SDK。

第二件,把harness和compute徹底分離。

harness跑在你的可信基建裡,管模型調用、審批、追蹤、運行狀態。compute是一個獨立的沙盒,專門負責讀寫文件、跑命令、裝包、吐產物。

兩層之間的接口標準化,API key和敏感憑證壓根兒不會進入模型生成代碼實際執行的那個環境。

結果就是,沙盒裡既沒有API密鑰,也沒有任何敏感憑證。沙盒本身完全隔離,甚至可以和網絡斷開,沒有任何對外流量。

這不是安全性能的小修小補。這是整個Agent架構的範式轉移。

900頁保險單100%提取一半PR出自Agent

harness/compute分離的第一個結果,是沙盒供應商的生態圖一夜鋪開。 

這次發佈,Blaxel、Cloudflare、Daytona、E2B、Modal、Runloop、Vercel七家沙盒廠商同時被寫進官方支持列表。 

七家能同時接入,關鍵在OpenAI給了一個叫Manifest的抽象層——一份描述Agent工作區的配置清單。 

要掛載哪些本地文件、從哪個雲存儲拉數據、產物寫到哪裡,全寫在這份Manifest裡。AWS S3、Google Cloud Storage、Azure Blob Storage、Cloudflare R2全覆蓋。 

最關鍵的是這份Manifest和具體沙盒供應商解耦。 

今天用E2B寫的Agent,明天想換成Modal跑,不用重寫代碼,改一行配置。哪家沙盒便宜、哪家離數據近,就切到哪家。 

官方給了一個最小示例。讓一個Agent跑進本地沙盒,掛上一個財報目錄,對比FY2025和FY2024的三項財務指標,核心代碼不到20行。

另外兩個對長跑任務格外關鍵的新能力是,讓沙盒容器掛了也能從檢查點續命的快照和狀態恢復;以及解決擴展性問題的多沙盒並行+子Agent隔離環境。

由此,Agent第一次有了「掉線續命」和「分身作戰」的原生能力。

在一篇技術長文中,Modal技術團隊成員Erik Dunteman順手透露了一個細節——

Ramp已經用Modal跑了一支後臺編碼Agent大軍,公司超過一半的PR都是這些Agent自己創建的。

不僅如此,Stripe也在今年早些時候披露,內部的AI Agent每週產出超過1000個PR。

兩家公司的共同點是,在拿到成熟Agent基建之後,業務團隊的生產力出現了斷層式躍遷。

如今,OpenAI把這些曾經只有頭部公司才能攢出來的基建,變成了SDK裡開箱即用的默認配置。

https://modal.com/blog/building-with-modal-and-the-openai-agent-sdk 

對此,FurtherAI CTO Sashank Gondala披露,他們的Agent啃下了一份900多頁的保險理賠記錄,提取成功率100%。

900多頁、100%、保險理賠記錄,這三個詞湊在一起的含金量老保險從業者一看就懂,業內最難啃的文檔之一,以前跑到某一頁崩掉是常態。

Tomoro AI研發工程師Douglas Adams給出了另一組硬數字,相同能力的Agent,這次需要的代碼量比以前少了6倍。

Box開發者關係負責人Carter Rabasa,則傳了一份業務數據並配上bash/python作為工具,讓agent在沙盒裡跑了一整套發票對賬業務流程。

沒想到,第一輪試水就跑通了。

沙盒對跑agent生成的代碼來說非常完美。

OpenAI下場做基建,LangChain們無處躲

到這一層,這次發佈對行業的衝擊才真正顯露。

LangChain、LangGraph、CrewAI、AutoGen這些第三方Agent框架,過去一年靠什麼活著?答案是靠補齊OpenAI原生SDK不夠「生產可用」的那塊空白。

編排、記憶管理、護欄、追蹤、多Agent協作,這些都是第三方框架的主戰場。

現在,OpenAI一次性把這些主戰場全接管了。

他們要做的就是Agent世界的基礎設施層,第三方框架從此要麼往更高層走(編排、垂直場景),要麼往更低層走(專用沙盒、專用工具),夾在中間的那塊地板,已經被OpenAI自己踩實了。

而且,OpenAI口中的「兼容所有沙盒服務商」,本身就是在把沙盒供應商納入OpenAI的生態位。

今天可能還是OpenAI的合作伙伴,明天的身份很可能就只是OpenAI生態下的「組件供應商」了。

Python先行,TypeScript還在排隊

雖然這一切目前還不完美。

harness和sandbox的新能力首發只上了Python,TypeScript版本排在後續更新計劃裡;SDK至今仍然停留在0.Y.Z版本號。

但方向已經非常清晰了。

GPT-5.4帶著原生computer use登臺,Agents SDK給它配齊了真正的運行環境。

下一步缺的,只是更多開發者把業務邏輯搭在這個基建之上。

從此,做Agent框架的創業公司會重新審視自己的定位。做沙盒的供應商開始算OpenAI流量能不能接得住。做業務層Agent應用的團隊盤算要不要遷移。

GPT-5.4出廠那天被一些人說成是「沒有驚喜的例行升級」。

40天后回頭看,真正的驚喜今天才發。

參考資料: 

https://techcrunch.com/2026/04/15/openai-updates-its-agents-sdk-to-help-enterprises-build-safer-more-capable-agents/ 

https://modal.com/blog/building-with-modal-and-the-openai-agent-sdk 

https://openai.com/index/the-next-evolution-of-the-agents-sdk/ 

https://x.com/OpenAIDevs/status/2044466699785920937 

https://x.com/snsf/status/2044514160034324793 

本文來自微信公眾號“新智元”,編輯:好睏 ,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論