METR更新AI代理能力基准，Gemini 3.1Pro可靠性超越所有前沿模型登顶

ME News 消息，4 月 16 日（UTC+8），据动察 Beating 监测，AI 安全评估机构 METR 更新「时间地平线」（Time Horizon）基准，新增谷歌 Gemini 3.1 Pro 的测试数据。该基准追踪前沿 AI 代理独立完成编程任务的能力上限，自今年 2 月上线以来已成为衡量 AI 代理能力增长的重要参考。测量方式是让人类软件工程专家（平均约 5 年经验）和 AI 代理完成同一组超过一百项软件任务，用人类耗时衡量任务难度。核心指标有两个：50% 时间地平线（AI 有一半概率完成的最高任务难度）和 80% 时间地平线（AI 有八成概率完成的最高任务难度）。 Gemini 3.1 Pro 在两个指标上的排名出现反转。50% 时间地平线排第二，仅次于大幅领先的 Claude Opus 4.6： 1. Claude Opus 4.6：约 12.0 小时 2. Gemini 3.1 Pro：约 6.4 小时 3. GPT-5.2：约 5.9 小时 4. GPT-5.4：约 5.7 小时但在更严格的 80% 时间地平线上，Gemini 3.1 Pro 反超登顶： 1. Gemini 3.1 Pro：约 1.5 小时 2. Claude Opus 4.6：约 1.2 小时 3. GPT-5.2：约 1.1 小时 Claude Opus 4.6 能挑战更难的任务但成功率波动大，Gemini 3.1 Pro 天花板低一些但在能力范围内更稳定。对需要可预测结果的生产场景，后者可能更实用。相比上一代 Gemini 3 Pro（50% 时间地平线约 3.7 小时），Gemini 3.1 Pro 提升约 71%。从更长的时间线看，METR 的数据显示前沿模型的时间地平线从 2019 年 GPT-2 的几秒钟增长到如今的十余小时，约每 4.3 个月翻一番，METR 称「没有看到指数增长放缓的迹象」。需注意，METR 的任务覆盖软件工程、机器学习和网络安全，且均为定义清晰、可自动评分的独立任务。METR 在后续研究中发现，当评分方式从算法判定改为人类整体评判时，AI 表现显著下降。12 小时的时间地平线不等于 AI 能替代人类半天的实际工作。（来源：ME）

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢