OpenAI今天宣布了其迄今最强大的人工智能模型的改进版本 - 一个在回答问题时需要更多时间进行推理的模型,这是在谷歌宣布了其首个此类模型的一天之后。
OpenAI的新模型称为o3,取代了此前推出的o1模型。与o1一样,新模型也会花时间思考问题,以提供更好的需要逐步逻辑推理的答案。(OpenAI选择跳过"o2"这个名称,因为它已经是英国一家移动运营商的名称。)
"我们认为这是AI下一阶段的开始,"OpenAI首席执行官Sam Altman在周五的直播中说。"你可以使用这些模型来完成需要大量推理的越来越复杂的任务。"
OpenAI表示,o3模型在几个指标上的得分都远高于其前身,包括测量复杂编码相关技能和高级数学和科学能力的指标。它在ARC-AGI基准测试中的得分是o1的3倍,该基准旨在测试AI模型解决极其困难的数学和逻辑问题的能力。
谷歌也在进行类似的研究。谷歌研究员Noam Shazeer昨天在X上发帖透露,该公司开发了自己的推理模型Gemini 2.0 Flash Thinking。谷歌首席执行官Sundar Pichai在他自己的帖子中称其为"我们迄今为止最周到的模型"。
这两个对抗的模型显示,OpenAI和谷歌之间的竞争比以往任何时候都更加激烈。对于OpenAI来说,展示它能够不断取得进步至关重要,因为这将有助于吸引更多投资并建立一个盈利的业务。与此同时,谷歌也迫切需要证明自己仍然处于人工智能研究的前沿。
这些新模型也表明,人工智能公司正越来越多地寻求超越简单地扩大AI模型规模,以从中挖掘出更高的智能。
OpenAI表示,新模型有o3和o3-mini两个版本。该公司目前还没有公开这些模型,但表示将邀请外部人员进行测试。OpenAI今天还透露了更多关于对o1进行对齐的技术细节。这涉及让模型思考请求的性质,以检查是否可能违反其防护措施。
大型语言模型可以很好地回答许多问题,但当被要求解决需要基本数学或逻辑的难题时,它们通常会失败。OpenAI的o1通过对逐步问题解决的训练,使AI模型能够更好地处理这类问题。
能够推理问题的模型在公司寻求部署所谓的AI代理以可靠地解决复杂问题的过程中也将很重要。o3模型在SWE-Bench测试中的得分比o1高20%,该测试衡量模型的代理能力。
"这真的标志着我们正在不断攀登效用的前沿,"OpenAI研究高级副总裁Mark Chen在今天的直播中说。
"这个模型在编程方面非常出色,"Atlman补充道。
尽管科技巨头在年底还没有取得真正的突破性时刻,但人工智能的发布速度一直令人眩晕。
本月初,谷歌宣布了其旗舰模型Gemini 2.0的新版本,并展示了它作为网页浏览助手和通过智能手机或智能眼镜观察世界的助手的功能。
OpenAI在圣诞节前夕也做出了多项公告,包括其视频生成模型的新版本、一个基于ChatGPT的免费搜索引擎,以及一种通过拨打1-800-ChatGPT访问ChatGPT的方式。
更新于2024年12月20日下午1:16:本文已更新,增加了来自OpenAI的更多评论和细节。