Claude Opus 4.7 来了：Anthropic 最新产品表现出色，但它只是一台象征性的吞噬机器

本文为机器翻译

展示原文

Anthropic今天发布了Claude Opus 4.7 ，称其为该公司迄今为止性能最强的Opus型号。我们对其进行了测试，结果与宣传相符。

“我们最新的 Claude Opus 4.7 现已正式上市。”该公司在官方公告中表示，“用户反馈称，他们现在可以放心地将以前需要密切监督的最复杂的编码工作交给 Opus 4.7 来完成。”

在用户抱怨 Opus 4.6 效能下降数周之后，这款新机型应运而生。 GitHub、Reddit 和X等平台上的开发者们记录了他们所谓的「 AI 缩水」现象——他们感觉自己付费购买的车型效能悄悄下降。正如我们昨天报导的那样，Anthropic 当时已经在准备 4.7 版本，同时他们也掌握著一个更强大的版本，但无法公开发布：Claude Mythos。

今天早上公告发布后，那些之前对 Opus 4.6 性能下降抱怨最多的 X 用户迅速以讽刺的口吻回应：有人开玩笑说，Opus 4.7 感觉就像“早期的 Opus 4.6”——也就是大家真正喜欢的版本，在他们认为 Anthropic 悄悄降低了模型权重之前。当然，Anthropic 一直否认为了控制运算需求而降低模型权重。

基准测试结果也印证了 Anthropic 的说法。在衡量程式设计技能的基准测试 SWE-bench Multilingual 中，Opus 4.7 的得分为 80.5%，而 4.6 的得分为 77.8%。

在 GDPVal-AA（一项针对金融和法律领域具有经济价值的知识工作的第三方评估）上，4.7 的 Elo 得分为 1,753，而 GPT-5.4 的 Elo 得分为 1,674，明显领先于最接近的竞争对手。

在 OfficeQA Pro 的文档推理测试中，模型表现最为显著：4.7 版本的准确率达到 80.6%，而 4.6 版本仅为 57.1%，GPT-5.4 和Gemini 3.1 Pro 则分别以 51.1% 和 42.9% 的准确率位居第二。在 Vending-Bench 2 测试中，模型的长期一致性表现特别突出。 Vending-Bench 2 是一项基准测试，用于衡量模型在类似经营自动贩卖机等长期情境和推理任务中的表现。测试结果显示，4.7 版本的模型最终的货币余额为 10,937 美元，而 4.6 版本仅为 8,018 美元——这可以作为模型在长时间自主运行中保持有效行为能力的指标。

网路安全是Anthropic公司刻意有所保留的领域。 Opus 4.7发布时配备了自动化安全措施，能够侦测并阻止违禁或高风险的网路安全请求。 Anthropic公司证实，他们在训练期间「尝试逐步降低」了4.7版本的网路安全能力。

安全专业人员可以申请加入新的网路安全验证计划，以存取这些功能。这是该公司对最终需要在 Mythos 级模型上大规模部署的安全措施进行的测试。

Opus 4.7 是目前公开可用的最强大的模型。 Anthropic 的真正前沿模型 Mythos Preview 仍仅限经过审核的安全公司使用。正如英国人工智慧安全研究所上周评估的那样，Mythos 是第一个完成「The Last Ones」任务的人工智慧系统。「The Last Ones」是一个包含 32 个步骤的企业网路攻击模拟，通常需要人类红队花费 20 个小时才能完成。

Opus 4.7 并非如此。但它是 Anthropic 公司面向公众推出的原型车，该公司将利用它来了解这些安全防护措施在实际应用中的效果如何，然后再敢于发布更恐怖的作品。

在词法分析方面，Opus 4.7 使用了更新的词法分析器，根据内容类型，可以将相同的输入映射到大约 1.0 倍到 1.35 倍的词法单元。此模型在高工作量等级下也能进行更深入的推理，尤其是在代理工作流程的后期轮调中。 Anthropic 发布了一份迁移指南，供计划从 4.6 版本升级的开发者参考。

我们进行了自己的测试——测试内容与我们评估每个主要版本时使用的内容相同，都是基于相同的游戏建立提示。 Opus 4.7 的表现是我们迄今为止在所有版本中取得的最佳成绩。它拥有最精美的画面、最具挑战性的难度曲线、最佳的游戏机制以及最具创意的胜负画面。关卡似乎是程式生成的，而且没有一个关卡让人感觉难以通关——这种平衡性一直是其他版本难以企及的。

你可以在这里测试游戏。

这并非零次测试。 Opus 4.6 在未进行任何修复的情况下通过了相同的测试。 Opus 4.7 则需要进行一轮错误修复。这或许只是运气不好——单次迭代的样本量确实很小——但仍然值得注意。更让我们感到惊讶的是模型在这一轮修复中的表现：它主动发现了其他错误，而无需任何引导。而 Opus 4.6 通常需要等待指示才能发现问题。

小米 MiMo v2 Pro是目前为止效果最好的机型，但与 Opus 不同的是，它只需一次迭代就能达到理想效果。有人可能会说它的画面更精美，而且还有配乐，这算是一个优势，但经过一轮 bug 修复后，其游戏逻辑和物理效果就逊色于 Opus 了。

此外，小米的这款产品以远低于 Anthropic 的价格就能达到这样的效果，这对于严肃的项目来说可能是一个值得考虑的重要因素。

乍一看，逻辑推理过程的呈现方式也有所不同。与 4.6 版本将推理过程单独放在一个思考框中（这意味著它不属于最终答案的一部分）不同，Opus 4.7 将推理过程直接显示在主要文本输出中。推理过程清晰可见，可追溯，而非隐藏在使用者介面抽象层之后，这对于重视透明度的使用者来说是一个优势。 Anthropic 是否会保留这种行为，还是最终将其折叠回隐藏的模组中，目前尚不清楚。

代币的使用情况前所未见。在我们的测试中，首次出现单次会话就耗尽所有代币配额的情况。观察模型运行过程，我们发现它先是完成了一个完整的草稿，然后似乎又从头开始编写了整个游戏，并命名为“重写 Emerge 并修复错误和进行改进”，随后又进行了第二次编写，命名为“创建重写的 Emerge 并修复错误和进行改进”。

这意味著，如果你从事高强度编程，你将被迫要么升级套餐，要么支付高额 API 令牌费用，要么等待 Anthropic 重置你的使用配额。或者，你也可以选择价格较低的类似方案。

Opus 4.6 从未这样做过。然而，这与 Anthropic 在迁移指南中的警告一致：需要更多的输出标记，尤其是在高难度、高投入的代理任务中。

Opus 4.7 现已在Claude.ai 、Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上线。定价与 4.6 版本相同：每百万个输入令牌 5 美元，每百万个输出令牌 25 美元。开发者可透过字串 claude-opus-4-7 存取该版本。