METR更新AI代理能力基準，Gemini 3.1Pro可靠性超越所有前沿模型登頂

ME News 消息，4 月 16 日（UTC+8），據動察 Beating 監測，AI 安全評估機構 METR 更新「時間地平線」（Time Horizon）基準，新增谷歌 Gemini 3.1 Pro 的測試數據。該基準追蹤前沿 AI 代理獨立完成編程任務的能力上限，自今年 2 月上線以來已成為衡量 AI 代理能力增長的重要參考。測量方式是讓人類軟件工程專家（平均約 5 年經驗）和 AI 代理完成同一組超過一百項軟件任務，用人類耗時衡量任務難度。核心指標有兩個：50% 時間地平線（AI 有一半概率完成的最高任務難度）和 80% 時間地平線（AI 有八成概率完成的最高任務難度）。 Gemini 3.1 Pro 在兩個指標上的排名出現反轉。50% 時間地平線排第二，僅次於大幅領先的 Claude Opus 4.6： 1. Claude Opus 4.6：約 12.0 小時 2. Gemini 3.1 Pro：約 6.4 小時 3. GPT-5.2：約 5.9 小時 4. GPT-5.4：約 5.7 小時但在更嚴格的 80% 時間地平線上，Gemini 3.1 Pro 反超登頂： 1. Gemini 3.1 Pro：約 1.5 小時 2. Claude Opus 4.6：約 1.2 小時 3. GPT-5.2：約 1.1 小時 Claude Opus 4.6 能挑戰更難的任務但成功率波動大，Gemini 3.1 Pro 天花板低一些但在能力範圍內更穩定。對需要可預測結果的生產場景，後者可能更實用。相比上一代 Gemini 3 Pro（50% 時間地平線約 3.7 小時），Gemini 3.1 Pro 提升約 71%。從更長的時間線看，METR 的數據顯示前沿模型的時間地平線從 2019 年 GPT-2 的幾秒鐘增長到如今的十餘小時，約每 4.3 個月翻一番，METR 稱「沒有看到指數增長放緩的跡象」。需注意，METR 的任務覆蓋軟件工程、機器學習和網絡安全，且均為定義清晰、可自動評分的獨立任務。METR 在後續研究中發現，當評分方式從算法判定改為人類整體評判時，AI 表現顯著下降。12 小時的時間地平線不等於 AI 能替代人類半天的實際工作。（來源：ME）

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論