
OpenAI 最新宣佈與 AI 晶片新創 Cerebras 合作推出 GPT-5.3-Codex-Spark,為一款 GPT-5.3-Codex 的小型版本,也是 OpenAI 首款專為「即時寫程式」所設計的模型。目前將先開放給 ChatGPT Pro 用戶,讓開發者能搶先體驗。
Cerebras 是什麼?雙方合作動機為何?
因 OpenAI 近期面臨用戶規模快速成長與算力資源吃緊的雙重壓力,急需能支撐即時互動場景的超低延遲 AI 推論算力,以提升 ChatGPT、程式生成與 AI 代理等產品的即時回應體驗。
而 Cerebras 主打的晶圓級晶片能消除傳統 GPU 叢集的通訊瓶頸,提供更快、更高效的推理性能。因此,OpenAI 與 Cerebras 展開逾 100 億美元的多年期合作,採購高達 750MW 的低延遲運算能力,一方面加速複雜查詢、程式碼生成與即時互動體驗,另一方面也作為分散對輝達 (NVIDIA) 依賴、強化供應鏈彈性的策略佈局。
OpenAI 與 Cerebras 的合作採取分階段上線方式,相關基礎建設將從 2026 年起陸續啟動,並持續到 2028 年全面部署。Cerebras 將負責託管與提供資料中心的專用低延遲算力,而 OpenAI 則獲得專屬的超低延遲運算容量,已經應用於首款合作模型 GPT-5.3-Codex-Spark 的推論運作。
Codex-Spark 為即時協作編程而生,雙軌自動化成形
OpenAI 表示,近期推出的前沿模型,已能長時間自主執行復雜任務,連續運作數小時、數天甚至數週不需人工介入;而 Codex-Spark 則是第一款專為「即時與 Codex 協作寫程式」設計的模型,主打開發者可即時要求修改程式碼、調整邏輯與介面,並立即看到成果。代表 Codex 目前正提供兩種自動化工作模式:
「一種是長時間、長任務型自動執行,另一種則是即時互動、快速修改、即時回饋。」
OpenAI 指出,未來會依開發者實際使用回饋,來逐步擴大功能與開放範圍。
低延遲資源有限,高峰恐出現限流
在研究預覽階段,Codex-Spark 提供 128k 上下文長度,僅支援文字輸入,並設有獨立的流量與速率限制,不會佔用一般標準模型額度。OpenAI 也提醒,因採用特殊低延遲運算資源,在使用高峰期間,可能出現排隊或暫時限制存取的情況,以維持整體服務穩定。
Codex-Spark 優化互動編程,速度能力並重
Codex-Spark 針對互動式寫程式場景進行優化,強調速度與能力同樣重要。使用者可在模型運作過程中即時打斷或調整方向,快速反覆修改內容。
OpenAI 為確保回應速度,系統預設採取輕量化工作風格,只做最小必要修改,除非用戶明確要求,否則不會自動執行測試。官方示例包含製作貪吃蛇遊戲、規劃專案與翻譯檔案等應用情境。下圖為官方示意畫面,強調:
「GPT-5.3-Codex-Spark 在製作遊戲時,在程式碼編寫能力與速度上,已超越先前自家模型 GPT-5.3-Codex。」

效能取向再進化,軟體優化結合低延遲晶片助攻
OpenAI 表示,Codex-Spark 在完成任務的整體時間上明顯縮短,並同步優化從請求送出到回應返回的整體流程,包括客戶端與伺服器往返開銷降低約 80%、每個字元 (Token) 的處理負擔減少約 30%。而當用戶送出請求後,對話框開始出現第一個回應文字的時間也縮短約 50%,整體互動流暢度明顯提升。
硬體方面,Codex-Spark 部署於 Cerebras 的 Wafer Scale Engine 3 低延遲推論平臺,並已整合進 OpenAI 既有生產架構。OpenAI 說明,GPU 仍是訓練與推論的核心主力,負責大規模與成本效益運算,Cerebras 則補足極低延遲場景,兩者可在同一工作流程中搭配使用。
目前 Codex-Spark 以研究預覽形式開放 ChatGPT Pro 用戶使用,API 僅提供少數設計合作伙伴測試;在安全面則已通過標準評估,未達內部高風險能力門檻,未來也將朝即時互動與長時間任務逐步融合的雙模式方向發展。
(OpenAI 新推 Codex macOS 版 App!限時開放給 ChatGPT 免費用戶使用)
這篇文章 OpenAI GPT-5.3-Codex-Spark 上線:Pro 用戶搶先體驗,回覆速度更快 最早出現於 鏈新聞 ABMedia。