OpenAI 新推 GPT-5.2：可做小游戏与贺卡，企业用户每周更省 10 小时工时

12-12

本文为机器翻译

展示原文

OpenAI 于 12/12 新推出 GPT-5.2，并定位为目前最适合「专业知识工作」的 AI 模型系列。官方表示，GPT-5.2 能直接产出简报、试算表、程式码与长文件分析等实际工作成果，并支援跨工具、多步骤任务处理，还可以制作前端网页小游戏与贺卡。根据回馈，ChatGPT 企业级用户平均每天可节省 40 至 60 分钟工作时间，高度使用者每周甚至更省下超过 10 小时，GPT-5.2 被视为进一步放大生产力的关键版本。

三种版本同步推出，全面对应不同专业使用情境

OpenAI 表示，GPT-5.2 这次同步推出 Instant、Thinking、Pro 三个版本，分别主打日常效率、深度推理与高难度问题品质。而在 ChatGPT 应用上，GPT-5.2 会率先提供给付费方案用户。在 API 平台，则已全面开放给开发者使用。

专业工作能力大跃进，首次在 GDPval 达到人类专家等级

OpenAI 指出，GPT-5.2 Thinking 在 GDPval 专业知识工作评测中出现关键突破。该评测涵盖 44 种职业、9 大产业，要求模型直接产出可交付成果，如简报、试算表、排班表与商业文件。

结果显示，GPT-5.2 Thinking 有 70.9% 的任务被判为超越产业专家表现，或者打平，产出速度超过人类专家 11 倍，成本低于 1%，成为 OpenAI 首次达到、甚至超越人类专业水准的模型。

实战能力全面升级，专案产出与程式开发同步强化

在实际应用上，GPT-5.2 Thinking 的简报与试算表结构更完整、逻辑更接近专业顾问与分析师，还能处理人力规划、股权结构与专案管理等复杂内容。在投资银行等级的试算表任务中，其表现较前一代提升约 9%。

在软体开发方面，GPT-5.2 Thinking 于 SWE-Bench Pro 真实世界程式码维修测试中，准确率达 56%，能直接读取程式码仓库、理解工程问题，并输出可用的修补程式。

(注：SWE-Bench Pro 是一套模拟「真实世界软体工程工作」的测试，要求 AI 直接修好实际专案中的程式问题，而不是只回答理论题。)

可信度与整合度提升，长文件、影像与工具协作更成熟

OpenAI 表示，GPT-5.2 Thinking 的回应错误率相较前一代相对下降约 30%。在 MRCRv2 评测中，即使面对约数十万字的超长文件，仍能维持接近满分的准确率，适用于合约、财报与逐字稿分析。

在影像理解方面，GPT-5.2 在图表与软体介面判读的错误率明显下降，在工具调用能力上，于 Tau2-bench 测试中准确率达 98.7%，能稳定完成跨系统、多步骤的完整任务流程。

(注：MRCRv2 是一套专门测试 AI 在超长内容中，能不能正确抓住关键资讯、并在多次推理中不搞混上下文的能力测试。Tau2-bench 为一套模拟真实客服与业务流程的评测，用来测试 AI 是否能在多轮互动中，正确呼叫工具、整合资讯，并完成整个任务。 )

这篇文章 OpenAI 新推 GPT-5.2：可做小游戏与贺卡，企业用户每周更省 10 小时工时最早出现于链新闻 ABMedia。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢