METR更新AI代理能力基準,Gemini 3.1Pro可靠性超越所有前沿模型登頂
ME News 消息,4 月 16 日(UTC+8),據 動察 Beating 監測,AI 安全評估機構 METR 更新「時間地平線」(Time Horizon)基準,新增谷歌 Gemini 3.1 Pro 的測試數據。該基準追蹤前沿 AI 代理獨立完成編程任務的能力上限,自今年 2 月上線以來已成為衡量 AI 代理能力增長的重要參考。 測量方式是讓人類軟件工程專家(平均約 5 年經驗)和 AI 代理完成同一組超過一百項軟件任務,用人類耗時衡量任務難度。核心指標有兩個:50% 時間地平線(AI 有一半概率完成的最高任務難度)和 80% 時間地平線(AI 有八成概率完成的最高任務難度)。 Gemini 3.1 Pro 在兩個指標上的排名出現反轉。50% 時間地平線排第二,僅次於大幅領先的 Claude Opus 4.6: 1. Claude Opus 4.6:約 12.0 小時 2. Gemini 3.1 Pro:約 6.4 小時 3. GPT-5.2:約 5.9 小時 4. GPT-5.4:約 5.7 小時 但在更嚴格的 80% 時間地平線上,Gemini 3.1 Pro 反超登頂: 1. Gemini 3.1 Pro:約 1.5 小時 2. Claude Opus 4.6:約 1.2 小時 3. GPT-5.2:約 1.1 小時 Claude Opus 4.6 能挑戰更難的任務但成功率波動大,Gemini 3.1 Pro 天花板低一些但在能力範圍內更穩定。對需要可預測結果的生產場景,後者可能更實用。 相比上一代 Gemini 3 Pro(50% 時間地平線約 3.7 小時),Gemini 3.1 Pro 提升約 71%。從更長的時間線看,METR 的數據顯示前沿模型的時間地平線從 2019 年 GPT-2 的幾秒鐘增長到如今的十餘小時,約每 4.3 個月翻一番,METR 稱「沒有看到指數增長放緩的跡象」。 需注意,METR 的任務覆蓋軟件工程、機器學習和網絡安全,且均為定義清晰、可自動評分的獨立任務。METR 在後續研究中發現,當評分方式從算法判定改為人類整體評判時,AI 表現顯著下降。12 小時的時間地平線不等於 AI 能替代人類半天的實際工作。 (來源:ME)
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享




