ChatGPT 背后开发商 OpenAI 连续 12 天新品发表于昨(20)日迎来尾聲,压轴登场的是全新的推理模型「o3」和「o3-mini」,这款 AI 模型拥有更强的推理能力,旨在解决需要逐步逻辑推理的复杂任务。
模型特点
1) 推理能力创下 SoTA 成绩
OpenAI 声明指出,o3 模型在多项基准测试中表现优异,包括复杂的编程、数学和科学问题,显示出其强大的逻辑推理能力。
在由 Alignment Research Center (ARC) 开发,用于测试 AI 系统通用人工智能(AGI)能力的「ARC-AGI」评估中,o3 在部分非公开测试中取得了 75.7% 的突破性成绩,创下技术新高度(State of the Art, SoTA)。
此外,一个高计算资源版本(high-compute configuration)的 o3 在相同测试中达成了更高的 87.5% 成绩,但可能由于该版本资源要求超出标准,未能符合 ARC-AGI-Pub(公开可验证 ARC-AGI 测试结果)的资格。
2) 多版本选择
OpenAI 提供了 o3 和 o3-mini 两个版本,后者预计于 2025 年 1 月底推出,完整版 o3 将随后发布(并未公布具体时间)。
这款新模型采用了 OpenAI 最近推出的自适应思考时间(Adaptive Thinking Time)API,提供低、中、高三种不同的推理模式。该功能允许使用者根据需求调整模型在回答问题前的「思考」时间长度。从下图可以看出,o3-mini 在推理结果上能与目前的 o1 模型 相媲美,但在运算成本方面则显著降低。
3) 安全性强化
OpenAI 采用了新的「审慎对齐(Deliberative alignment)」训练方法,直接教导大型语言模型(LLMs)理解人类撰写的、可解释的安全规范,并在回答问题之前确保遵守这些规范进行推理。OpenAI 在声明中表示:
通过这种方法,我们成功对 OpenAI 的 o 系列模型进行了优化,使其能使用「思维链」(Chain-of-Thought, CoT)推理技术,反思使用者的提问,找出 OpenAI 内部政策中相关的规范文本,从而生成更安全的回应。
命名由来
值得一提的是,OpenAI 跳过了「o2」的命名,直接使用了「o3」。执行长 Sam Altman 解释,这是为了避免与英国电信供应商 O2 产生混淆,同时展现了 OpenAI 独特的幽默感。他在直播中表示:
「出于对 Telefónica(O2 的母公司)的尊重,以及延续 OpenAI 极度不擅长取名的优良传统,我们将它命名为 o3。」
邀请研究人员参与安全测试
目前,o3 和 o3-mini 正处于内部安全测试阶段,OpenAI 已开放申请,邀请外部研究人员参与安全测试。 申请将于 2025 年 1 月 10 日截止。
对于该模型的推出,Sam Altman 毫不谦虚地表示,这标志着 AI 发展正式进入「下一阶段」。
回顾今年中彭博爆料 OpenAI 的 AI 分级表,在聊天机器人和推理模型后的下一阶段便是 Agents —— 能代表使用者采取行动的先进 AI 系统。这正是当前无论是加密货币市场还是 Web2 领域,都在全力探索与开发的重点方向。