創歷史,GPT-5全球頂尖大賽奪冠,人類屈居第二,北交大團隊國內第一

智東西9月18日消息,今天凌晨,OpenAI和谷歌前後腳宣佈,自家模型在全球知名編程競賽ICPC 2025(第49屆國際大學生程序設計競賽)總決賽獲得金牌級別的表現。

OpenAI推理系統答對了全部12道題目,並且一次性答對11道題,最難的題目提交了9次後成功,與人類團隊相比可排第一Gemini 2.5 Deep Think高級版本在677分鐘內解出10道題,與人類團隊相比可位列第二

如果將AI列入ICPC的總排名中,前三名應該是OpenAI推理系統、聖彼得堡國立大學、谷歌Gemini 2.5 Deep Think高級版本

ICPC的要求是參賽者在5個小時內解出12道複雜算法問題,解題方案是否完美、解題耗時都會影響積分。

最終139支隊伍中獲得金牌的為前四名,分別為聖彼得堡國立大學、東京大學、北京交通大學、清華大學,解出題目最多的是聖彼得堡國立大學,共11道。

ICPC拿下金牌的人類團隊

這是繼2個月前,OpenAI推理系統、谷歌Gemini 2.5 Deep Think在國際數學奧林匹克競賽(IMO)之後,又一次在頂尖國際競賽中證明了自己的實力。

谷歌Gemini 2.5 Deep Think高級版本參加ICPC總決賽的代碼已經在GitHub開源。

GitHub地址:

https://github.com/google-deepmind/gemini_icpc2025

01.

OpenAI拿下滿分

谷歌錯兩道

ICPC是全球公認的歷史最悠久、規模最大、最負盛名的大學級算法編程競賽,每年來自近3000所大學和超過103個國家的參與者競相解決現實世界的編程問題。

OpenAI和谷歌都參與並獲得金牌級別表現,OpenAI推理系統解答了12道題,谷歌Gemini 2.5 Deep Think高級版本答出10道題,最好的人類團隊答出11道題

1、OpenAI:拿下滿分,11道題一次就做對

OpenAI推理系統獲得滿分。

OpenAI提到並沒有專門為ICPC訓練模型,其採用通用推理模型組合的方式參賽。

比賽中,GPT-5與一款實驗性推理模型共同生成解題方案,由該實驗性推理模型負責篩選待提交的方案。最終,GPT-5正確解答了11道題目,而最後一道也是難度最高的一道題目由這款實驗性推理模型解決。

其模型一次性答對了11道題,最難的問題在第9次提交時成功了。

2、谷歌:答對10道題,45分鐘解出8道題

Gemini 2.5 Deep Think高級版本按照ICPC規則在遠程在線環境中進行現場比賽,比人類參賽者晚10分鐘開始。Gemini總共花費677分鐘,解決了12個問題中的10個,其中8個花費45分鐘,另外2個問題花費3個小時。

下圖是2025年ICPC總決賽中解決每個問題所用的時間,Gemini所花的時間以藍色顯示,最快的大學生團隊的時間以灰色顯示。

Gemini在3道題目上的解題時間都超過了人類

ICPC總決賽中解決每個問題所用的時間

此外,谷歌DeepMind還提到一道困住所有人類團隊的難題,被Gemini在半小時內成功解答。

問題C要求團隊設計一套解決方案,通過相互連接的管道網絡將液體輸送至一組儲液罐,目標是找到一種管道配置,以最快速度將所有儲液罐注滿。

該問題存在無限多種可能的配置,因為每條管道均可處於開啟、關閉甚至部分開啟的狀態,這使得尋找最優配置的難度極大。

問題C簡介

Gemini找到了有效的解決方案:它首先假設每個水庫都有一個“優先級值”,代表每個水庫與其他水庫相比應該獲得的優先程度。

當給定一組優先級值時,可以使用動態規劃算法找到管道的最佳配置。

Gemini發現,通過應用極小極大定理(Minimax Theorem),原問題可轉化為尋找能使最終流量受到最大約束的優先級數值。

藉助優先級數值與最優流量之間的關聯,Gemini在類似碗狀的凸性解空間中,通過嵌套三分搜索(Nested Ternary Searches)快速找到最優優先級數值,最終解決了C題。

目前訂閱Google AI Ultra的Gemini用戶已經可以在Gemini App中使用輕量級版本的Gemini 2.5 Deep Think。

02.

ICPC金牌水平

展現大模型抽象推理能力

谷歌DeepMind的博客中提到,Gemini的表現得益於其在預訓練、訓練後、強化學習技術、多步驟推理和平行思維方面的技術創新。

例如,在強化學習過程中,研究人員訓練Gemini為編程人員面臨的一些最困難的問題進行推理和生成代碼,從結果反饋中學習並改進其方法。為了解決一個問題,多個Gemini Agent會各自提出自己的解決方案,使用終端執行代碼和測試,然後根據所有嘗試迭代解決方案。

谷歌DeepMind的內部研究表明,Gemini 2.5 Deep Think高級版本也能在2023年和2024年ICPC世界總決賽中取得金牌級別的表現,表現不亞於全球前20名競技開發者

在ICPC上獲得金牌水平對軟件開發具有直接的實際影響,如果將比賽中最好的AI和人類解決方案結合起來,所有12個問題都會得到徹底和正確的解決。這表明AI有潛力提供獨特思路,為人類專家提供補充。

除了數學和編程外,Gemini 2.5 Deep Think高級版本還展示了在抽象推理方面的能力。

這是因為,ICPC的問題需要模型理解複雜的問題、設計多步驟的邏輯計劃、完美實施,這一過程與許多科學和工程領域所需的技能相同,包括設計新藥或微芯片等領域。

OpenAI的研究人員在X上發佈帖子稱,他們採用同一組模型參加IMO和IOI競賽,展示了模型性能以及通用型。

03.

結語:大模型複雜

抽象問題解決能力提升

從國際數學奧林匹克競賽(IMO)到此次的編程競賽,OpenAI以及谷歌的模型在解決更具挑戰的數學、推理難題上迸發出巨大潛力。ICPC全球執行董事Bill Poucher博士稱,ICPC一直致力於在解決問題方面設定最高標準,Gemini在這一領域取得的成績,標誌著定義下一代所需AI工具和學術標準的關鍵時刻。

這些在競爭性編程和數學推理方面的突破共同證明了大模型在抽象推理問題解決方面的性能飛躍,或能與人類專家結合,解決更加複雜的難題。

本文來自微信公眾號“智東西”(ID:zhidxcom),作者:程茜,編輯:李水青,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論