
OpenAI 于 12/12 新推出 GPT-5.2,并定位为目前最适合「专业知识工作」的 AI 模型系列。官方表示,GPT-5.2 能直接产出简报、试算表、程式码与长文件分析等实际工作成果,并支援跨工具、多步骤任务处理,还可以制作前端网页小游戏与贺卡。根据回馈,ChatGPT 企业级用户平均每天可节省 40 至 60 分钟工作时间,高度使用者每周甚至更省下超过 10 小时,GPT-5.2 被视为进一步放大生产力的关键版本。
三种版本同步推出,全面对应不同专业使用情境
OpenAI 表示,GPT-5.2 这次同步推出 Instant、Thinking、Pro 三个版本,分别主打日常效率、深度推理与高难度问题品质。而在 ChatGPT 应用上,GPT-5.2 会率先提供给付费方案用户。在 API 平台,则已全面开放给开发者使用。
专业工作能力大跃进,首次在 GDPval 达到人类专家等级
OpenAI 指出,GPT-5.2 Thinking 在 GDPval 专业知识工作评测中出现关键突破。该评测涵盖 44 种职业、9 大产业,要求模型直接产出可交付成果,如简报、试算表、排班表与商业文件。
结果显示,GPT-5.2 Thinking 有 70.9% 的任务被判为超越产业专家表现,或者打平,产出速度超过人类专家 11 倍,成本低于 1%,成为 OpenAI 首次达到、甚至超越人类专业水准的模型。

实战能力全面升级,专案产出与程式开发同步强化
在实际应用上,GPT-5.2 Thinking 的简报与试算表结构更完整、逻辑更接近专业顾问与分析师,还能处理人力规划、股权结构与专案管理等复杂内容。在投资银行等级的试算表任务中,其表现较前一代提升约 9%。

在软体开发方面,GPT-5.2 Thinking 于 SWE-Bench Pro 真实世界程式码维修测试中,准确率达 56%,能直接读取程式码仓库、理解工程问题,并输出可用的修补程式。

(注:SWE-Bench Pro 是一套模拟「真实世界软体工程工作」的测试,要求 AI 直接修好实际专案中的程式问题,而不是只回答理论题。)
可信度与整合度提升,长文件、影像与工具协作更成熟
OpenAI 表示,GPT-5.2 Thinking 的回应错误率相较前一代相对下降约 30%。在 MRCRv2 评测中,即使面对约数十万字的超长文件,仍能维持接近满分的准确率,适用于合约、财报与逐字稿分析。
在影像理解方面,GPT-5.2 在图表与软体介面判读的错误率明显下降,在工具调用能力上,于 Tau2-bench 测试中准确率达 98.7%,能稳定完成跨系统、多步骤的完整任务流程。

(注:MRCRv2 是一套专门测试 AI 在超长内容中,能不能正确抓住关键资讯、并在多次推理中不搞混上下文的能力测试。Tau2-bench 为一套模拟真实客服与业务流程的评测,用来测试 AI 是否能在多轮互动中,正确呼叫工具、整合资讯,并完成整个任务。 )
这篇文章 OpenAI 新推 GPT-5.2:可做小游戏与贺卡,企业用户每周更省 10 小时工时 最早出现于 链新闻 ABMedia。




