AI證明數學猜想,這次來真的了。
OpenAI最新模型GPT-5.2 Pro剛剛獨立證明了一道埃爾德什猜想。
論證過程經菲爾茲獎得主陶哲軒驗證成立,還被評價為“迄今為止最明確的第一類結果(AI主要貢獻)”。
這道題是埃爾德什問題庫中的第281號,由傳奇數學家保羅·埃爾德什(Paul Erdős)與羅納德·格雷厄姆(Ronald Graham)於1980年共同提出,涉及同餘覆蓋系統與自然密度的深層關係。
45年來,這道題一直靜靜躺在問題庫裡,等待解答。
直到2025年1月17日,一位名叫Neel Somani的研究者把這道題扔給了GPT-5.2 Pro。
證明只用到GPT 5.2 Pro
埃爾德什問題網站已收錄AI證明結果。
整個論證在無窮阿德爾整數環上展開,藉助哈爾測度和點態遍歷定理,結合緊緻性論證完成了從逐點收斂到一致收斂的躍遷。
按陶哲軒的話說,它是“Furstenberg對應原理”的一個變體,這是遍歷理論與組合數學交叉領域的標準工具。
但GPT-5.2 Pro的用法又有些不同,它比通常的論證更依賴伯克霍夫定理。
然而真正讓陶哲軒印象深刻的不是證明方法本身,而是AI沒有犯錯。
讓我更驚訝的是它避免了錯誤,比如極限交換或量詞順序的失誤,這正是這道題最容易踩的坑。前幾代大語言模型幾乎肯定會在這些微妙之處栽跟頭。
為了驗證這份證明,陶哲軒親自動手,把整套遍歷論論證翻譯成了組合學語言,用哈代-利特爾伍德極大不等式替代伯克霍夫定理,重新走了一遍全部推導。
結論:證明成立。
一個意外的發現
正當大家討論GPT-5.2 Pro的證明時,一位網名KoishiChan的用戶在評論區拋出了一個令人意外的發現:
這道題其實有更簡單的解法,而且所需的兩個定理早在1936年和1966年就已經存在了。
第一個是達文波特(Harold Davenport)與埃爾德什本人在1936年合作證明的密度收斂定理。
第二個是羅傑斯定理,首次發表於1966年的哈爾伯斯塔姆-羅斯專著《序列》第五章。把這兩個經典結果拼在一起,第281號問題幾乎是直接推論。
這就奇怪了。埃爾德什自己就是1936年那篇論文的合著者,而他在1980年提出這道題時,都沒有意識到答案近在眼前。
陶哲軒就此事專門寫郵件請教了法國數學家特南鮑姆(Tenenbaum)。
特南鮑姆確認“只要滿足你提到的兩個經典結果(達文波特-埃爾多斯定理和羅傑斯定理),問題就能立即得到解決”,但他也猜測“問題的表述可能在某個環節被改動過”。不過目前沒有人找到任何其他版本的表述,所以只能按原樣處理。
更有意思的是,2007年菲拉塞塔、福特、科尼亞金、波默朗斯和餘等五位頂尖專家在解決另一道埃爾德什問題時,同樣不知道羅傑斯定理的存在,直到特南鮑姆提醒他們才補上了引用。
陶哲軒感慨:“羅傑斯定理沒有得到它應有的傳播。它只出現在哈爾伯斯塔姆-羅斯那本書裡,沒有單獨發表,文獻引用寥寥無幾。或許這場討論能讓更多研究篩法和同餘覆蓋的人注意到這個結果。”
最終現在這道題有了兩份證明:一份來自GPT-5.2 Pro的遍歷論路徑,一份來自KoishiChan挖出的經典文獻組合。
陶哲軒確認兩者是“不同的證明”,雖然在概念上有些重疊。
如何評估AI數學的真實成功率
消息傳開後,各路AI模型紛紛被拉來交叉驗證。
Gemini 3 Pro表示證明沒有問題。另一位研究者用GPT-5.2 Pro反覆檢查論證細節,AI認為唯一需要補充嚴格性的地方在第二步,可以用法圖引理繞過遍歷論直接完成。
不過陶哲軒指出這裡法圖引理的方向用反:我剛教完研究生測度論,這類錯誤見得太多了。
隨後又確認其實是對補集應用法圖引理,方向沒問題,論證成立。
但陶哲軒同時發出了冷靜的提醒。他寫道:
評估AI工具真實成功率時,最大的統計偏差來自強烈的報告偏差,負面結果幾乎不會被披露。
如果某人或某AI公司把工具用在開放問題上但沒有進展,他們沒有動力報告這個負面結論;即使報告了,也不太可能像正面結果那樣在社交媒體上傳播開來。
儘管絕大多數集中在難度譜系的簡單一端,遠不能說明中等難度的埃爾德什問題已經進入AI的射程範圍。
他推薦了Paata Ivanisvili和Mehmet Mars Seven發起的一個開源項目,系統記錄前沿大語言模型在埃爾德什問題上的正面和負面結果。
數據顯示,這些工具在埃爾德什問題上的真實成功率大約只有百分之一到二。
但考慮到問題庫裡有超過600道未解難題,這個比例仍然意味著一批數量可觀且非平凡的AI貢獻。
參考鏈接:
[1]https://www.erdosproblems.com/forum/thread/281
[2]https://x.com/neelsomani/status/2012695714187325745
[3]https://mathstodon.xyz/@tao/115911902186528812
本文來自微信公眾號“量子位”,作者:關注前沿科技,36氪經授權發佈。




