OpenAI 最強模型 o3「遭爆作弊」疑用特權提前獲測試答案,數學能力造假?

ChatGPT 背後開發商 OpenAI 近日傳出模型造假的風聲,引起科技社群廣泛議論。事件起因源於 Less Wrong 論壇上一位名為「Meemi」的非營利組織 Epoch AI 承包商發文爆料。

文章指出,用於測試 AI 開發數學基準測試平台 FrontierMath 不僅曾受到 OpenAI 資助,並且 FrontierMath 有給 OpenAI 最新推出的 o3 模型「開後門」的特權。

延伸閱讀:OpenAI推出o3模型!推理能力再推高等級,為下一代AI鋪路

Meemi 指控 OpenAI 在測試 o3 模型前就拿到題目與答案

Meemi 在內文中提到,許多 FrontierMath 相關命題人、承包商都對 OpenAI 資助一事不知情:

為 FrontierMath 創造數學題目的數學家並未(主動地)被告知來自 OpenAI 的資助。承包商們被要求對題目及其解答保密,包括不得使用 Overleaf、Colab 或通過電子郵件討論題目,並簽署 NDA(保密協議),以確保題目機密性及避免洩漏。

此外,承包商在 12 月 20 日也未被告知 OpenAI 的資助。我相信,甚至一些署名的論文作者也不知道 OpenAI 的資助。

Meemi 接著補充道,他有間接消息來源表明,OpenAI 在測試前就擁有 FrontierMath 的題目與答案:

目前,Epoch AI 或 OpenAI 並未公開表示 OpenAI 是否能夠獲取這些題目、答案或解決方案。我有間接消息來源表明,OpenAI 確實擁有這些題目和答案,並且使用它們進行驗證測試。我不清楚 Epoch AI 和 OpenAI 是否有協議限制將此數據集用於訓練,但有一些跡象表明,這樣的協議並不存在。

什麼是 FrontierMath?

了解,FrontierMath 是 Epoch AI 聯合 60 多位全世界的數學家,共同推出的全新數學基準,其中包括教授、IMO命題人、菲爾茲獎得主。

這些數學問題從奧賽難度到當今的數學前沿,包含了目前數學研究的所有主要分支——從數論和實數分析中的計算密集型問題到代數幾何和群論中的抽象問題。

Epoch AI 聯合創辦人出面道歉

而在社群鬧得沸沸揚揚之際,Epoch AI 聯合創辦人 Tamay Besiroglu 也在 19 日發推為此事道歉,他表示:

我們犯了一個錯誤,沒有更早公開 OpenAI 在 FrontierMath 中的參與。我們的合約限制了我們,直到 o3 模型發布前才能披露。

事後來看,我們應該更加努力爭取更早的透明度。我們承認這點,未來會做得更好。

Besiroglu 還在部落格補充表示,雖然 OpenAI 擁有 FrontierMath 的訪問權限,但它與 Epoch AI 之間有一項「口頭協議」,不會使用 FrontierMath 的問題集來訓練 AI 模型。另外,Epoch AI 還設有一個單獨的保留集,作為一種額外的保障,用於獨立驗證 FrontierMath 基準測試的結果。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論