AI搶攻人類奧賽金牌，DeepMind數學模型做對25道IMO幾何題，GPT-4慘敗得0分

36氪

01-18

【導讀】今天，谷歌DeepMind的AlphaGeometry模型登上了Nature！30道IMO幾何題中，它能做出25道，已經接近人類金牌選手的水平！而GPT-4，卻一道題都沒做出來，直接掛了零蛋。

谷歌DeepMind的AI智能體，又破紀錄了！

這個名叫AlphaGeometry的AI系統，能做出國際數學奧林匹克（IMO）的30道幾何題中的25道，這個表現，已經接近了人類的奧數金牌得主。

從此，AI在數學領域的推理能力再次實現史詩級升級，超越此前的最高水平。

這一研究已經登上Nature。

論文地址：https://www.nature.com/articles/s41586-023-06747-5

下面這道IMO大賽幾何真題，曾經難倒了一大批參賽選手，而如今，AI卻能把做出來了！

更特別的是，這個模型是靠合成數據訓練出來的，而非通常使用的真實數據。

訓練過程是這樣的：先初始生成了十億個隨機幾何圖形，全面分析每個圖形中點和線的所有關係。

隨後，AlphaGeometry找出了每個圖形中所有的證明，並反向追溯出為得到這些證明所需添加的額外幾何元素（如果有的話）。

就這樣，AlphaGeometry結合了神經語言模型和符號演繹引擎的優勢，已經形成了一個神經符號系統。

兩個系統中一個提供快速提供直覺式的想法，另一個負責更謹慎理性的決策。一個大膽假設，一個小心求證，不斷改進方案，為複雜的幾何定理找到證明。

而合成數據的思路，也為大模型語料不足的問題，提供了嶄新的出路。

網友驚呼：這簡直就是創造了歷史！

OpenAI研究科學家，德撲AI之父Noam Brown表示，「祝賀GoogleDeepMind團隊取得這個成績！看到AI在高等數學方面取得了如此大的進步，令人興奮」。

真題實測

話不多說，我們直接上真題。

已知等腰三角形ABC中，AB和AC的邊長相等，求證：∠ABC=∠BCA。

等腰三角形的底角相等，這是學過初中數學的人都知道的常識（等腰定理1），可是要怎麼證明？

AlphaGeometry的做法是，通過運行符號推理引擎，來啟動證明搜索。

這個引擎會從定理前提中不知疲倦地推導出新語句，直到定理被證明，或新語句被窮盡。

但如果符號引擎無法找到證明，語言模型就會構造一個輔助點，在符號引擎重試之前增加證明狀態。

如是循環，一直到找到解決方案為止。

比如，在第一個輔助構造「D作為BC的中點」之後，環路終止了。

隨後就開始證明過程，證明由另外兩個步驟組成，這兩個步驟都利用了中點的特性：「BD = DC」，「B，D，C是共線的」。

此後不斷循環，直至證明∠ABC=∠BCA。

與此同時，2015年IMO的P3，也被AlphaGeometry輕鬆搞定。

如果要做對這道題，需要構建三個輔助點。

在這兩種解決方案中，研究者將語言模型的輸出（藍色）和符號引擎輸出交錯排列，反映出了執行順序。（具體證明過程見論文）

甚至，AlphaGeometry還在IMO 2004 P1中，發現了未被使用的前提。

由於提取最小前提所需的回溯算法，AlphaGeometry識別了一個對證明工作來說不必要的前提：O不必是BC的中點，P、B、C 就是共線。

其中，右上是原始定理圖，底部是廣義定理圖，其中O從其中點位置釋放出來，而P仍然停留在直線BC上。

原始問題要求P介於B和C之間，這是廣義定理和解決方案無法保證的條件。但AlphaGeometry就解決了這一點。

此外，在做2008年IMO P6的證明題中，AlphaGeometry卻失敗了。這是所有30個問題集中最難的一個，人類平均得分僅為0.28/7。

值得一提的是，北大韋神曾連續兩屆以滿分拿下了IMO 2008、IMO 2009的金牌。

為什麼考AI要用奧數題

怎麼評價一個AI系統的數學和邏輯推理能力夠不夠強？

那自然是給它上最難的數學題，比如IMO的原題。

畢竟，能參加國際數學奧林匹克競賽的，都是全世界數學最優秀的高中生，可以說代表了全人類的最高水平。

所以這一次測試，也可以看作AI和人類的對決！

專家們從2000年至2022年間的IMO競賽題中，選出了30道，組成了IMO-AG-30基準測試集，然後在限定的比賽時間內，讓「選手」們展開對決。

對決結果是，谷歌DeepMind的AlphaGeometry，已經接近了IMO金牌選手的水平。

人類金牌選手平均能解出25.9道題，而AlphaGeometry能解出25道，可以說已經無限逼近人類。

而此前的SOTA AI系統「吳氏方法」，僅能解出10道題。

除了吳氏方法，在AlphaGeometry與其他最先進的方法比較中，30道IMO試題，GPT-4一道也不會做，直接得了0分！

要知道，以前的AI智能體在處理複雜的數學問題時，時常受困於推理能力不足，以及訓練數據的缺乏。

但AlphaGeometry的不同之處在於，它結合了結合了神經語言模型的預測力，和基於規則的推理引擎，讓這兩個系統協同作業，從而尋找解決方案。

研究者還開發了一種方法，可以生成大量的合成訓練數據——高達1億個獨特樣本。

這樣，就可以在有效解決數據不足的問題，在不依賴人類示範的情況下訓練AlphaGeometry。

通過AlphaGeometry，我們可以看出AI在邏輯推理、發現和驗證新知識方面的能力，在不斷增強。

今天，AI已經可以做出奧林匹克級別的幾何題，再過一段時間，可能就會出現更高級、更通用的AI系統，直至某天出現AGI。

現在，谷歌DeepMind已經把AlphaGeometry的代碼和模型開源，希望它們能和其他合成數據生成和訓練的工具一起，為數學、科學和AI領域帶來新的機遇。

項目地址：https://github.com/google-deepmind/alphageometry

幾何證明雙重buff：大模型+符號推理引擎

具體來說，AlphaGeometry是由2個主要組件構成的神經符號系統（neuro-symbolic system）：

1. 神經語言模型

2. 符號推理引擎

這個AI系統便是通過以上兩個部分協同工作，實現複雜的幾何定理證明。

谷歌DeepMind團隊在此引用了「思考：快與慢」這本書中的理念。

「這有點像我們的『直覺思維』和『邏輯思維』：一個系統提供快速，基於直覺的想法，而另一個系統則進行更為縝密、基於邏輯的決策」。

這裡，神經語言模型就是「系統1」，擅長髮現數據中的普遍模式和關係，能夠迅速預見到可能有幫助的幾何構造。

然而，它們往往不擅長嚴密的推理，也不能解釋自己的決策過程。

符號推理引擎則不同，可以看作是「系統2」。

它們基於形式邏輯（formal logic），按照明確的規則得出結論，這些結論既合乎邏輯又能解釋清楚。

不過，符號推理引擎在解決大型、複雜問題，可能會顯得「緩慢」且不夠靈活。

AlphaGeometry在解決一個簡單問題時的過程：首先，給定問題及其定理假設（左圖），AlphaGeometry（中圖）利用其符號引擎對圖形進行邏輯推理，從而推導出新的結論，直至找到答案或無法進一步推導。如果答案未找到，AlphaGeometry的語言模型就會引入一個潛在有助於解題的新圖形元素（以藍色表示），為符號引擎提供新的推理途徑。這個過程會不斷重複，直到找到問題的解決方案（右圖）。在這個示例中，僅需加入一個新的圖形元素。

AlphaGeometry語言模型的作用就在於，指引符號推理引擎尋找解決幾何問題的可能路徑。

一般來說，IMO級別的幾何題往往基於圖表，需要在圖表中添加新的幾何元素，比如點、線或圓，才能找到解答。

AlphaGeometry的語言模型能夠預測，在無限可能中哪些新元素最有助於解題。這些提示有助於補全信息的空缺，使得符號引擎能夠對圖表做出更多推斷，並逐步逼近正確答案。

舉個栗子，AlphaGeometry解決了2015年國際數學奧林匹克競賽第三題（如下），右邊是解題過程的精華部分。

整個解題的過程，共計109步邏輯推理。

圖中的藍色部分表示新增加的圖形元素

此外，谷歌團隊還讓AlphaGeometry去解決IMO 2005的P3，共用了110步完成。

完整解題步驟：https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphageometry-an-olympiad-level-ai-system-for-geometry%20/AlphaGeometry%20solution.pdf

1億個合成數據，從0訓練AI

AlphaGeometry解決數學的能力如此強悍，而更讓人震驚的是：僅用合成數據從0開始完成訓練。

正如谷歌DeepMind所言，因為缺乏訓練數據，AI系統一直難以解決棘手的幾何問題。

對此，研究人員採用了「合成數據」的技術，模擬知識積累過程，無需任何人類演示教學，從0基礎開始訓練AlphaGeometry。

如下圖所示，便是通過合成數據生成的隨機圖形的部分示例。

谷歌使用了10萬個CPU，最初生成了10億個幾何對象的隨機圖，並對每個圖表中的點和線條之間的所有關係進行了全面的推導（運行符號演算和回溯過程用了3-4天）。

AlphaGeometry合成數據生成過程

AlphaGeometry不僅找到了每個圖表中的所有證明，還逆向追溯，確定為了得出這些證明需要增加哪些圖形構造。

研究人員將這個過程稱為「符號演繹與追溯」。

AlphaGeometry生成合成數據的可視化

在這龐大的數據集中經過篩選，剔除重複的樣本，最終獲得了1億個涵蓋不同難度級別的獨特訓練樣本的數據集。

其中，還包含了900萬個附加構造的樣本。

AlphaGeometry的語言模型通過分析這些構造，如何幫助完成證明的眾多案例，能夠在處理奧林匹克級幾何題時，提供有效建議，設計出新的幾何構造。

對生成的合成數據的分析

IMO金牌得主盛讚，AI開創數學推理先河

AlphaGeometry針對IMO賽題給出的解答，都通過了計算機驗證。

谷歌DeepMind將成果與先前的AI方法，以及奧林匹克競賽中的人類選手表現進行了比較。

AlphaGeometry證明步與IMO參與者在不同問題上的平均得分

值得一提的是，他們還請來數學教練及IMO金牌得主Evan Chen評審了AlphaGeometry的部分解答。

AlphaGeometry的輸出結果令人稱讚，它不僅可以經得起驗證，而且表述清晰。以前的AI在解決證明類競賽題目時，其解答有時候不夠可靠（輸出結果時對時錯，需要人類進行核查）。AlphaGeometry不會出現這樣的問題：它的解答具備可由機器驗證的結構。
即使如此，它的輸出也便於人類理解。原本可以設想的是，一款計算機程序通過暴力破解座標系統來解決幾何題目，那將是一連串枯燥的代數運算。但AlphaGeometry並非如此，它採用的是學生們所學的傳統幾何規則，包括角度和相似三角形的知識。