
OpenAI 最新宣布与 AI 晶片新创 Cerebras 合作推出 GPT-5.3-Codex-Spark,为一款 GPT-5.3-Codex 的小型版本,也是 OpenAI 首款专为「即时写程式」所设计的模型。目前将先开放给 ChatGPT Pro 用户,让开发者能抢先体验。
Cerebras 是什么?双方合作动机为何?
因 OpenAI 近期面临用户规模快速成长与算力资源吃紧的双重压力,急需能支撑即时互动场景的超低延迟 AI 推论算力,以提升 ChatGPT、程式生成与 AI 代理等产品的即时回应体验。
而 Cerebras 主打的晶圆级晶片能消除传统 GPU 丛集的通讯瓶颈,提供更快、更高效的推理性能。因此,OpenAI 与 Cerebras 展开逾 100 亿美元的多年期合作,采购高达 750MW 的低延迟运算能力,一方面加速复杂查询、程式码生成与即时互动体验,另一方面也作为分散对辉达 (NVIDIA) 依赖、强化供应链弹性的策略布局。
OpenAI 与 Cerebras 的合作采取分阶段上线方式,相关基础建设将从 2026 年起陆续启动,并持续到 2028 年全面部署。Cerebras 将负责托管与提供资料中心的专用低延迟算力,而 OpenAI 则获得专属的超低延迟运算容量,已经应用于首款合作模型 GPT-5.3-Codex-Spark 的推论运作。
Codex-Spark 为即时协作编程而生,双轨自动化成形
OpenAI 表示,近期推出的前沿模型,已能长时间自主执行复杂任务,连续运作数小时、数天甚至数周不需人工介入;而 Codex-Spark 则是第一款专为「即时与 Codex 协作写程式」设计的模型,主打开发者可即时要求修改程式码、调整逻辑与介面,并立即看到成果。代表 Codex 目前正提供两种自动化工作模式:
「一种是长时间、长任务型自动执行,另一种则是即时互动、快速修改、即时回馈。」
OpenAI 指出,未来会依开发者实际使用回馈,来逐步扩大功能与开放范围。
低延迟资源有限,高峰恐出现限流
在研究预览阶段,Codex-Spark 提供 128k 上下文长度,仅支援文字输入,并设有独立的流量与速率限制,不会占用一般标准模型额度。OpenAI 也提醒,因采用特殊低延迟运算资源,在使用高峰期间,可能出现排队或暂时限制存取的情况,以维持整体服务稳定。
Codex-Spark 优化互动编程,速度能力并重
Codex-Spark 针对互动式写程式场景进行优化,强调速度与能力同样重要。使用者可在模型运作过程中即时打断或调整方向,快速反复修改内容。
OpenAI 为确保回应速度,系统预设采取轻量化工作风格,只做最小必要修改,除非用户明确要求,否则不会自动执行测试。官方示例包含制作贪吃蛇游戏、规划专案与翻译档案等应用情境。下图为官方示意画面,强调:
「GPT-5.3-Codex-Spark 在制作游戏时,在程式码编写能力与速度上,已超越先前自家模型 GPT-5.3-Codex。」

效能取向再进化,软体优化结合低延迟晶片助攻
OpenAI 表示,Codex-Spark 在完成任务的整体时间上明显缩短,并同步优化从请求送出到回应返回的整体流程,包括客户端与伺服器往返开销降低约 80%、每个字元 (Token) 的处理负担减少约 30%。而当用户送出请求后,对话框开始出现第一个回应文字的时间也缩短约 50%,整体互动流畅度明显提升。
硬体方面,Codex-Spark 部署于 Cerebras 的 Wafer Scale Engine 3 低延迟推论平台,并已整合进 OpenAI 既有生产架构。OpenAI 说明,GPU 仍是训练与推论的核心主力,负责大规模与成本效益运算,Cerebras 则补足极低延迟场景,两者可在同一工作流程中搭配使用。
目前 Codex-Spark 以研究预览形式开放 ChatGPT Pro 用户使用,API 仅提供少数设计合作伙伴测试;在安全面则已通过标准评估,未达内部高风险能力门槛,未来也将朝即时互动与长时间任务逐步融合的双模式方向发展。
(OpenAI 新推 Codex macOS 版 App!限时开放给 ChatGPT 免费用户使用)
这篇文章 OpenAI GPT-5.3-Codex-Spark 上线:Pro 用户抢先体验,回复速度更快 最早出现于 链新闻 ABMedia。