AI搶攻人類奧賽金牌,DeepMind數學模型做對25道IMO幾何題,GPT-4慘敗得0分

avatar
36氪
01-18

【導讀】今天,谷歌DeepMind的AlphaGeometry模型登上了Nature!30道IMO幾何題中,它能做出25道,已經接近人類金牌選手的水平!而GPT-4,卻一道題都沒做出來,直接掛了零蛋。

谷歌DeepMind的AI智能體,又破紀錄了! 

這個名叫AlphaGeometry的AI系統,能做出國際數學奧林匹克(IMO)的30道幾何題中的25道,這個表現,已經接近了人類的奧數金牌得主。 

從此,AI在數學領域的推理能力再次實現史詩級升級,超越此前的最高水平。 

這一研究已經登上Nature。 

論文地址:https://www.nature.com/articles/s41586-023-06747-5 

下面這道IMO大賽幾何真題,曾經難倒了一大批參賽選手,而如今,AI卻能把做出來了! 

更特別的是,這個模型是靠合成數據訓練出來的,而非通常使用的真實數據。 

訓練過程是這樣的:先初始生成了十億個隨機幾何圖形,全面分析每個圖形中點和線的所有關係。 

隨後,AlphaGeometry找出了每個圖形中所有的證明,並反向追溯出為得到這些證明所需添加的額外幾何元素(如果有的話)。 

就這樣,AlphaGeometry結合了神經語言模型和符號演繹引擎的優勢,已經形成了一個神經符號系統。 

兩個系統中一個提供快速提供直覺式的想法,另一個負責更謹慎理性的決策。一個大膽假設,一個小心求證,不斷改進方案,為複雜的幾何定理找到證明。 

而合成數據的思路,也為大模型語料不足的問題,提供了嶄新的出路。

網友驚呼:這簡直就是創造了歷史!

OpenAI研究科學家,德撲AI之父Noam Brown表示,「祝賀GoogleDeepMind團隊取得這個成績!看到AI在高等數學方面取得了如此大的進步,令人興奮」。

真題實測

話不多說,我們直接上真題。 

已知等腰三角形ABC中,AB和AC的邊長相等,求證:∠ABC=∠BCA。 

等腰三角形的底角相等,這是學過初中數學的人都知道的常識(等腰定理1),可是要怎麼證明? 

AlphaGeometry的做法是,通過運行符號推理引擎,來啟動證明搜索。 

這個引擎會從定理前提中不知疲倦地推導出新語句,直到定理被證明,或新語句被窮盡。 

但如果符號引擎無法找到證明,語言模型就會構造一個輔助點,在符號引擎重試之前增加證明狀態。 

如是循環,一直到找到解決方案為止。 

比如,在第一個輔助構造「D作為BC的中點」之後,環路終止了。 

隨後就開始證明過程,證明由另外兩個步驟組成,這兩個步驟都利用了中點的特性:「BD = DC」,「B,D,C是共線的」。 

此後不斷循環,直至證明∠ABC=∠BCA。 

與此同時,2015年IMO的P3,也被AlphaGeometry輕鬆搞定。 

如果要做對這道題,需要構建三個輔助點。 

在這兩種解決方案中,研究者將語言模型的輸出(藍色)和符號引擎輸出交錯排列,反映出了執行順序。(具體證明過程見論文) 

甚至,AlphaGeometry還在IMO 2004 P1中,發現了未被使用的前提。 

由於提取最小前提所需的回溯算法,AlphaGeometry識別了一個對證明工作來說不必要的前提:O不必是BC的中點,P、B、C 就是共線。 

其中,右上是原始定理圖,底部是廣義定理圖,其中O從其中點位置釋放出來,而P仍然停留在直線BC上。 

原始問題要求P介於B和C之間,這是廣義定理和解決方案無法保證的條件。但AlphaGeometry就解決了這一點。 

此外,在做2008年IMO P6的證明題中,AlphaGeometry卻失敗了。這是所有30個問題集中最難的一個,人類平均得分僅為0.28/7。 

值得一提的是,北大韋神曾連續兩屆以滿分拿下了IMO 2008、IMO 2009的金牌。 

為什麼考AI要用奧數題

怎麼評價一個AI系統的數學和邏輯推理能力夠不夠強? 

那自然是給它上最難的數學題,比如IMO的原題。 

畢竟,能參加國際數學奧林匹克競賽的,都是全世界數學最優秀的高中生,可以說代表了全人類的最高水平。 

所以這一次測試,也可以看作AI和人類的對決! 

專家們從2000年至2022年間的IMO競賽題中,選出了30道,組成了IMO-AG-30基準測試集,然後在限定的比賽時間內,讓「選手」們展開對決。 

對決結果是,谷歌DeepMind的AlphaGeometry,已經接近了IMO金牌選手的水平。 

人類金牌選手平均能解出25.9道題,而AlphaGeometry能解出25道,可以說已經無限逼近人類。 

而此前的SOTA AI系統「吳氏方法」,僅能解出10道題。 

除了吳氏方法,在AlphaGeometry與其他最先進的方法比較中,30道IMO試題,GPT-4一道也不會做,直接得了0分! 

要知道,以前的AI智能體在處理複雜的數學問題時,時常受困於推理能力不足,以及訓練數據的缺乏。 

但AlphaGeometry的不同之處在於,它結合了結合了神經語言模型的預測力,和基於規則的推理引擎,讓這兩個系統協同作業,從而尋找解決方案。 

研究者還開發了一種方法,可以生成大量的合成訓練數據——高達1億個獨特樣本。 

這樣,就可以在有效解決數據不足的問題,在不依賴人類示範的情況下訓練AlphaGeometry。 

通過AlphaGeometry,我們可以看出AI在邏輯推理、發現和驗證新知識方面的能力,在不斷增強。 

今天,AI已經可以做出奧林匹克級別的幾何題,再過一段時間,可能就會出現更高級、更通用的AI系統,直至某天出現AGI。 

現在,谷歌DeepMind已經把AlphaGeometry的代碼和模型開源,希望它們能和其他合成數據生成和訓練的工具一起,為數學、科學和AI領域帶來新的機遇。 

項目地址:https://github.com/google-deepmind/alphageometry 

幾何證明雙重buff:大模型+符號推理引擎

具體來說,AlphaGeometry是由2個主要組件構成的神經符號系統(neuro-symbolic system): 

1. 神經語言模型 

2. 符號推理引擎 

這個AI系統便是通過以上兩個部分協同工作,實現複雜的幾何定理證明。 

谷歌DeepMind團隊在此引用了「思考:快與慢」這本書中的理念。 

「這有點像我們的『直覺思維』和『邏輯思維』:一個系統提供快速,基於直覺的想法,而另一個系統則進行更為縝密、基於邏輯的決策」。 

這裡,神經語言模型就是「系統1」,擅長髮現數據中的普遍模式和關係,能夠迅速預見到可能有幫助的幾何構造。 

然而,它們往往不擅長嚴密的推理,也不能解釋自己的決策過程。 

符號推理引擎則不同,可以看作是「系統2」。 

它們基於形式邏輯(formal logic),按照明確的規則得出結論,這些結論既合乎邏輯又能解釋清楚。 

不過,符號推理引擎在解決大型、複雜問題,可能會顯得「緩慢」且不夠靈活。 

AlphaGeometry在解決一個簡單問題時的過程:首先,給定問題及其定理假設(左圖),AlphaGeometry(中圖)利用其符號引擎對圖形進行邏輯推理,從而推導出新的結論,直至找到答案或無法進一步推導。如果答案未找到,AlphaGeometry的語言模型就會引入一個潛在有助於解題的新圖形元素(以藍色表示),為符號引擎提供新的推理途徑。這個過程會不斷重複,直到找到問題的解決方案(右圖)。在這個示例中,僅需加入一個新的圖形元素。 

AlphaGeometry語言模型的作用就在於,指引符號推理引擎尋找解決幾何問題的可能路徑。 

一般來說,IMO級別的幾何題往往基於圖表,需要在圖表中添加新的幾何元素,比如點、線或圓,才能找到解答。 

AlphaGeometry的語言模型能夠預測,在無限可能中哪些新元素最有助於解題。這些提示有助於補全信息的空缺,使得符號引擎能夠對圖表做出更多推斷,並逐步逼近正確答案。 

舉個栗子,AlphaGeometry解決了2015年國際數學奧林匹克競賽第三題(如下),右邊是解題過程的精華部分。 

整個解題的過程,共計109步邏輯推理。 

圖中的藍色部分表示新增加的圖形元素 

此外,谷歌團隊還讓AlphaGeometry去解決IMO 2005的P3,共用了110步完成。 

完整解題步驟:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphageometry-an-olympiad-level-ai-system-for-geometry%20/AlphaGeometry%20solution.pdf 

1億個合成數據,從0訓練AI

AlphaGeometry解決數學的能力如此強悍,而更讓人震驚的是:僅用合成數據從0開始完成訓練。 

正如谷歌DeepMind所言,因為缺乏訓練數據,AI系統一直難以解決棘手的幾何問題。 

對此,研究人員採用了「合成數據」的技術,模擬知識積累過程,無需任何人類演示教學,從0基礎開始訓練AlphaGeometry。 

如下圖所示,便是通過合成數據生成的隨機圖形的部分示例。 

谷歌使用了10萬個CPU,最初生成了10億個幾何對象的隨機圖,並對每個圖表中的點和線條之間的所有關係進行了全面的推導(運行符號演算和回溯過程用了3-4天)。 

AlphaGeometry合成數據生成過程 

AlphaGeometry不僅找到了每個圖表中的所有證明,還逆向追溯,確定為了得出這些證明需要增加哪些圖形構造。 

研究人員將這個過程稱為「符號演繹與追溯」。 

AlphaGeometry生成合成數據的可視化 

在這龐大的數據集中經過篩選,剔除重複的樣本,最終獲得了1億個涵蓋不同難度級別的獨特訓練樣本的數據集。 

其中,還包含了900萬個附加構造的樣本。 

AlphaGeometry的語言模型通過分析這些構造,如何幫助完成證明的眾多案例,能夠在處理奧林匹克級幾何題時,提供有效建議,設計出新的幾何構造。 

對生成的合成數據的分析 

IMO金牌得主盛讚,AI開創數學推理先河

AlphaGeometry針對IMO賽題給出的解答,都通過了計算機驗證。 

谷歌DeepMind將成果與先前的AI方法,以及奧林匹克競賽中的人類選手表現進行了比較。 

AlphaGeometry證明步與IMO參與者在不同問題上的平均得分 

值得一提的是,他們還請來數學教練及IMO金牌得主Evan Chen評審了AlphaGeometry的部分解答。 

AlphaGeometry的輸出結果令人稱讚,它不僅可以經得起驗證,而且表述清晰。以前的AI在解決證明類競賽題目時,其解答有時候不夠可靠(輸出結果時對時錯,需要人類進行核查)。AlphaGeometry不會出現這樣的問題:它的解答具備可由機器驗證的結構。 

即使如此,它的輸出也便於人類理解。原本可以設想的是,一款計算機程序通過暴力破解座標系統來解決幾何題目,那將是一連串枯燥的代數運算。但AlphaGeometry並非如此,它採用的是學生們所學的傳統幾何規則,包括角度和相似三角形的知識。 

每場IMO競賽中,共有6道題目,通常只有2道與幾何有關。 

因此,AlphaGeometry只能在大約三分之一的奧賽題目中發揮作用。 

儘管如此,它在幾何領域的能力,已足以讓它成為「世界上首個通過2000年和2015年國際數學奧林匹克銅牌標準的AI模型」。 

在幾何題解決方面,AlphaGeometry已經接近IMO金牌選手的水平。 

谷歌DeepMind稱自己的野心不止於此,還希望推動下一代AI系統在推理方面的發展。 

從0開始,利用大規模合成數據對AI系統進行訓練,這種方法有望影響未來AI系統在數學和其他領域的新知識發現範式。 

其實,在構造出AlphaGeometry系統之前,谷歌DeepMind和Google Research在AI數學推理上,做了大量的奠基性工作。 

此前,谷歌DeepMind就曾推出FunSearch,打破了LLM首次在數學領域未解之謎上取得發現的紀錄。 

而谷歌DeepMind的長期目標,就是打造能跨越不同數學領域、具備解決複雜問題、能夠進行高級推理的AI系統,直到實現AGI。 

網友:AGI 奇點臨近

AlphaGeometry誕生,堪比AlphaFold、AlphaCode等「阿爾法家族」面世在AI領域掀起的巨震。 

與此同時,「合成數據」的重要性和潛力也愈加凸顯。 

Google DeepMind聯合創始人兼首席AGI科學家Shane Legg稱,「我還依稀記得1990年Christchurch的New Zealand IMO訓練營裡試圖解決瘋狂的幾何難題,現在看到人工智能在這方面變得如此出色,我有點震驚! AGI越來越近了」。 

昨天,UCLA博士生Pan Lu關於數學推理基準MathVista研究被ICLR 2024接收為Oral論文。 

在看到谷歌最新研究後,他表示,「2021年,我們探索了幾何學的早期研究:我們的InterGPS,一個神經符號求解器,第一次達到了人類的平均水平。現在,AlphaGeometry標誌著歷史性的突破:獲得了奧林匹克級別的技能!」 

有網友表示,這簡直就是一個大事件。數學推理可以延伸到物理學,物理學也可以延伸到化學和生物學。未來幾年,人工智能可能會主導研究。奇點正在逼近。 

大多數在職的數學家都無法做到這一點,尤其是在規定的時間內。僅用合成數據進行訓練,表明數學沒有數據瓶頸。因為我們可以輕鬆地生成無限高質量的合成數據。 

英偉達機器學習科學家Shengyang Sun好奇地問,「這些合成問題會在IMO 2024出現嗎」? 

CMU機器學習博士Jing Yu Koh表示,「2024年是合成數據年!我非常喜歡幾何領域,因為你有辦法將其與現實世界相結合,以確保合成數據的有效性」。 

參考資料: 

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/ 

https://www.nature.com/articles/s41586-023-06747-5 

本文來自微信公眾號“新智元”(ID:AI_era),作者:新智元,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
2
收藏
評論