METR更新AI代理能力基准,Gemini 3.1Pro可靠性超越所有前沿模型登顶

ME News 消息,4 月 16 日(UTC+8),据 动察 Beating 监测,AI 安全评估机构 METR 更新「时间地平线」(Time Horizon)基准,新增谷歌 Gemini 3.1 Pro 的测试数据。该基准追踪前沿 AI 代理独立完成编程任务的能力上限,自今年 2 月上线以来已成为衡量 AI 代理能力增长的重要参考。 测量方式是让人类软件工程专家(平均约 5 年经验)和 AI 代理完成同一组超过一百项软件任务,用人类耗时衡量任务难度。核心指标有两个:50% 时间地平线(AI 有一半概率完成的最高任务难度)和 80% 时间地平线(AI 有八成概率完成的最高任务难度)。 Gemini 3.1 Pro 在两个指标上的排名出现反转。50% 时间地平线排第二,仅次于大幅领先的 Claude Opus 4.6: 1. Claude Opus 4.6:约 12.0 小时 2. Gemini 3.1 Pro:约 6.4 小时 3. GPT-5.2:约 5.9 小时 4. GPT-5.4:约 5.7 小时 但在更严格的 80% 时间地平线上,Gemini 3.1 Pro 反超登顶: 1. Gemini 3.1 Pro:约 1.5 小时 2. Claude Opus 4.6:约 1.2 小时 3. GPT-5.2:约 1.1 小时 Claude Opus 4.6 能挑战更难的任务但成功率波动大,Gemini 3.1 Pro 天花板低一些但在能力范围内更稳定。对需要可预测结果的生产场景,后者可能更实用。 相比上一代 Gemini 3 Pro(50% 时间地平线约 3.7 小时),Gemini 3.1 Pro 提升约 71%。从更长的时间线看,METR 的数据显示前沿模型的时间地平线从 2019 年 GPT-2 的几秒钟增长到如今的十余小时,约每 4.3 个月翻一番,METR 称「没有看到指数增长放缓的迹象」。 需注意,METR 的任务覆盖软件工程、机器学习和网络安全,且均为定义清晰、可自动评分的独立任务。METR 在后续研究中发现,当评分方式从算法判定改为人类整体评判时,AI 表现显著下降。12 小时的时间地平线不等于 AI 能替代人类半天的实际工作。 (来源:ME)

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论