谷歌最近推出的Gemini 2.5 Pro在程式設計排行榜上躍居榜首,在著名的WebDev Arena中擊敗了Claude——這是一個類似於LLM競技場的非宗派排名網站,但專注于衡量人工智慧模型在程式設計方面的表現。這一成就是在谷歌致力於將其旗艦人工智慧模型定位為程式設計和推理任務領導者的背景下實現的。
今年早些時候釋出的Gemini 2.5 Pro在多個類別中排名第一,包括程式設計、風格控制和創意寫作。該模型的海量上下文視窗——一百萬個代幣,很快將擴充套件到兩百萬個——使其能夠處理大型程式碼庫和複雜專案,即使是最接近的競爭對手也會被這些專案難住。作為參考,像ChatGPT和Claude 3.7 Sonnet這樣強大的模型只能處理多達12.8萬個代幣。
Gemini還擁有所有人工智慧模型中最高的"智商"。TrackingAI透過使用Mensa挪威分部的口頭問題,進行了標準化的門薩測試,建立了一種比較人工智慧模型的標準方法。
Gemini 2.5 Pro在這些測試中得分高於競爭對手,即使使用的是訓練資料中未公開的定製問題。
在離線測試中,智商得分為115,新版Gemini屬於"聰明人"行列,而普通人類智力得分在85到114分之間。但是,人工智慧擁有智商的概念需要進一步解釋。人工智慧系統沒有像人類那樣的智商,因此不如將這個基準視為推理基準效能的比喻。
在專門為人工智慧設計的基準測試中,Gemini 2.5 Pro在2025年AIME數學測試中得分86.7%,在GPQA科學評估中得分84.0%。在一個名為人類最後考試(HLE)的更新、更難的基準測試中,該模型得分18.8%,超過了OpenAI的o3 mini(14%)和Claude 3.7 Sonnet(8.9%),在效能提升方面令人矚目。
Gemini 2.5 Pro的新版本現已免費提供(有速率限制)給所有Gemini使用者。谷歌此前將此版本描述為2.5 Pro的"實驗版本",是其"思考模型"系列的一部分,旨在透過推理來生成響應,而不僅僅是生成文字。
儘管並非在每個基準測試中都獲勝,但Gemini憑藉其多功能性引起了開發者的注意。該模型可以從單個提示中建立複雜的應用程式,構建互動式網頁應用、無盡跑者遊戲和視覺模擬,而無需詳細的指令。
我們測試了該模型,要求它修復一段損壞的HTML5程式碼。它生成了近1000行程式碼,在程式碼質量和對全套指令的理解方面,結果超過了之前的領先者Claude 3.7 Sonnet。
對於從事開發工作的人員來說,Gemini 2.5 Pro的輸入成本為每百萬代幣2.50美元,輸出成本為每百萬代幣15.00美元,定位為比一些競爭對手更便宜的選擇,同時仍提供令人印象深刻的功能。
在高階版中,該人工智慧模型可處理多達3萬行程式碼,適合企業級專案。其多模態能力——可處理文字、程式碼、音訊、影象和影片——增加了其他以程式設計為重點的模型無法匹敵的靈活性。





