OpenAI 最强模型 o3「遭爆作弊」疑用特权提前获测试答案，数学能力造假？

動區動趨

01-21

本文目录

ChatGPT 背后开发商 OpenAI 近日传出模型造假的风声，引起科技社群广泛议论。事件起因源于 Less Wrong 论坛上一位名为「Meemi」的非营利组织 Epoch AI 承包商发文爆料。

文章指出，用于测试 AI 开发数学基准测试平台 FrontierMath 不仅曾受到 OpenAI 资助，并且 FrontierMath 有给 OpenAI 最新推出的 o3 模型「开后门」的特权。

延伸阅读：OpenAI推出o3模型！推理能力再推高等级，为下一代AI铺路

Meemi 指控 OpenAI 在测试 o3 模型前就拿到题目与答案

Meemi 在内文中提到，许多 FrontierMath 相关命题人、承包商都对 OpenAI 资助一事不知情：

为 FrontierMath 创造数学题目的数学家并未（主动地）被告知来自 OpenAI 的资助。承包商们被要求对题目及其解答保密，包括不得使用 Overleaf、Colab 或通过电子邮件讨论题目，并签署 NDA（保密协议），以确保题目机密性及避免泄漏。
此外，承包商在 12 月 20 日也未被告知 OpenAI 的资助。我相信，甚至一些署名的论文作者也不知道 OpenAI 的资助。

Meemi 接著补充道，他有间接消息来源表明，OpenAI 在测试前就拥有 FrontierMath 的题目与答案：

目前，Epoch AI 或 OpenAI 并未公开表示 OpenAI 是否能够获取这些题目、答案或解决方案。我有间接消息来源表明，OpenAI 确实拥有这些题目和答案，并且使用它们进行验证测试。我不清楚 Epoch AI 和 OpenAI 是否有协议限制将此数据集用于训练，但有一些迹象表明，这样的协议并不存在。

什么是 FrontierMath？

据了解，FrontierMath 是 Epoch AI 联合 60 多位全世界的数学家，共同推出的全新数学基准，其中包括教授、IMO命题人、菲尔兹奖得主。

这些数学问题从奥赛难度到当今的数学前沿，包含了目前数学研究的所有主要分支——从数论和实数分析中的计算密集型问题到代数几何和群论中的抽象问题。

Epoch AI 联合创办人出面道歉

而在社群闹得沸沸扬扬之际，Epoch AI 联合创办人 Tamay Besiroglu 也在 19 日发推为此事道歉，他表示：

我们犯了一个错误，没有更早公开 OpenAI 在 FrontierMath 中的参与。我们的合约限制了我们，直到 o3 模型发布前才能披露。
事后来看，我们应该更加努力争取更早的透明度。我们承认这点，未来会做得更好。

Besiroglu 还在部落格补充表示，虽然 OpenAI 拥有 FrontierMath 的访问权限，但它与 Epoch AI 之间有一项「口头协议」，不会使用 FrontierMath 的问题集来训练 AI 模型。另外，Epoch AI 还设有一个单独的保留集，作为一种额外的保障，用于独立验证 FrontierMath 基准测试的结果。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢