OpenAI推出o3模型！推理能力再推高等级，为下一代AI铺路

12-21

本文目录

ChatGPT 背后开发商 OpenAI 连续 12 天新品发表于昨（20）日迎来尾声，压轴登场的是全新的推理模型「o3」和「o3-mini」，这款 AI 模型拥有更强的推理能力，旨在解决需要逐步逻辑推理的复杂任务。

模型特点

1) 推理能力创下 SoTA 成绩

OpenAI 声明指出，o3 模型在多项基准测试中表现优异，包括复杂的编程、数学和科学问题，显示出其强大的逻辑推理能力。

在由 Alignment Research Center (ARC) 开发，用于测试 AI 系统通用人工智慧（AGI）能力的「ARC-AGI」评估中，o3 在部分非公开测试中取得了 75.7% 的突破性成绩，创下技术新高度（State of the Art, SoTA）。

此外，一个高计算资源版本（high-compute configuration）的 o3 在相同测试中达成了更高的 87.5% 成绩，但可能由于该版本资源要求超出标准，未能符合 ARC-AGI-Pub（公开可验证 ARC-AGI 测试结果）的资格。

2) 多版本选择

OpenAI 提供了 o3 和 o3-mini 两个版本，后者预计于 2025 年 1 月底推出，完整版 o3 将随后发布（并未公布具体时间）。

这款新模型采用了 OpenAI 最近推出的自适应思考时间（Adaptive Thinking Time）API，提供低、中、高三种不同的推理模式。该功能允许使用者根据需求调整模型在回答问题前的「思考」时间长度。从下图可以看出，o3-mini 在推理结果上能与目前的 o1 模型相媲美，但在运算成本方面则显著降低。

3) 安全性强化

OpenAI 采用了新的「审慎对齐（Deliberative alignment）」训练方法，直接教导大型语言模型（LLMs）理解人类撰写的、可解释的安全规范，并在回答问题之前确保遵守这些规范进行推理。OpenAI 在声明中表示：

通过这种方法，我们成功对 OpenAI 的 o 系列模型进行了优化，使其能使用「思维链」（Chain-of-Thought, CoT）推理技术，反思使用者的提问，找出 OpenAI 内部政策中相关的规范文本，从而生成更安全的回应。

命名由来

值得一提的是，OpenAI 跳过了「o2」的命名，直接使用了「o3」。执行长 Sam Altman 解释，这是为了避免与英国电信供应商 O2 产生混淆，同时展现了 OpenAI 独特的幽默感。他在直播中表示：

「出于对 Telefónica（O2 的母公司）的尊重，以及延续 OpenAI 极度不擅长取名的优良传统，我们将它命名为 o3。」

邀请研究人员参与安全测试

目前，o3 和 o3-mini 正处于内部安全测试阶段，OpenAI 已开放申请，邀请外部研究人员参与安全测试。申请将于 2025 年 1 月 10 日截止。

对于该模型的推出，Sam Altman 毫不谦虚地表示，这标志著 AI 发展正式进入「下一阶段」。

回顾今年中彭博爆料 OpenAI 的 AI 分级表，在聊天机器人和推理模型后的下一阶段便是 Agents —— 能代表使用者采取行动的先进 AI 系统。这正是当前无论是加密货币市场还是 Web2 领域，都在全力探索与开发的重点方向。

TOD18FoIAd | 动区动趋-最具影响力的区块链新闻媒体 — OpenAI 的 AI 分级系统划分。图源：彭博

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢