Claude Opus 4.7 來了：Anthropic 最新產品表現出色，但它只是一台象徵性的吞噬機器

本文為機器翻譯

展示原文

Anthropic今天發布了Claude Opus 4.7 ，稱其為該公司迄今為止性能最強的Opus型號。我們對其進行了測試，結果與宣傳相符。

“我們最新的 Claude Opus 4.7 現已正式上市。”該公司在官方公告中表示，“用戶反饋稱，他們現在可以放心地將以前需要密切監督的最複雜的編碼工作交給 Opus 4.7 來完成。”

在用戶抱怨 Opus 4.6 效能下降數週之後，這款新機型應運而生。 GitHub、Reddit 和X等平台上的開發者們記錄了他們所謂的「 AI 縮水」現象——他們感覺自己付費購買的車型效能悄悄下降。正如我們昨天報導的那樣，Anthropic 當時已經在準備 4.7 版本，同時他們也掌握著一個更強大的版本，但無法公開發布：Claude Mythos。

今天早上公告發布後，那些之前對 Opus 4.6 性能下降抱怨最多的 X 用戶迅速以諷刺的口吻回應：有人開玩笑說，Opus 4.7 感覺就像“早期的 Opus 4.6”——也就是大家真正喜歡的版本，在他們認為 Anthropic 悄悄降低了模型權重之前。當然，Anthropic 一直否認為了控制運算需求而降低模型權重。

基準測試結果也印證了 Anthropic 的說法。在衡量程式設計技能的基準測試 SWE-bench Multilingual 中，Opus 4.7 的得分為 80.5%，而 4.6 的得分為 77.8%。

在 GDPVal-AA（一項針對金融和法律領域具有經濟價值的知識工作的第三方評估）上，4.7 的 Elo 得分為 1,753，而 GPT-5.4 的 Elo 得分為 1,674，明顯領先於最接近的競爭對手。

在 OfficeQA Pro 的文檔推理測試中，模型表現最為顯著：4.7 版本的準確率達到 80.6%，而 4.6 版本僅為 57.1%，GPT-5.4 和Gemini 3.1 Pro 則分別以 51.1% 和 42.9% 的準確率位居第二。在 Vending-Bench 2 測試中，模型的長期一致性表現特別突出。 Vending-Bench 2 是一項基準測試，用於衡量模型在類似經營自動販賣機等長期情境和推理任務中的表現。測試結果顯示，4.7 版本的模型最終的貨幣餘額為 10,937 美元，而 4.6 版本僅為 8,018 美元——這可以作為模型在長時間自主運行中保持有效行為能力的指標。

網路安全是Anthropic公司刻意有所保留的領域。 Opus 4.7發佈時配備了自動化安全措施，能夠偵測並阻止違禁或高風險的網路安全請求。 Anthropic公司證實，他們在訓練期間「嘗試逐步降低」了4.7版本的網路安全能力。

安全專業人員可以申請加入新的網路安全驗證計劃，以存取這些功能。這是該公司對最終需要在 Mythos 級模型上大規模部署的安全措施進行的測試。

Opus 4.7 是目前公開可用的最強大的模型。 Anthropic 的真正前沿模型 Mythos Preview 仍僅限經過審核的安全公司使用。正如英國人工智慧安全研究所上週評估的那樣，Mythos 是第一個完成「The Last Ones」任務的人工智慧系統。「The Last Ones」是一個包含 32 個步驟的企業網路攻擊模擬，通常需要人類紅隊花費 20 個小時才能完成。

Opus 4.7 並非如此。但它是 Anthropic 公司面向公眾推出的原型車，該公司將利用它來了解這些安全防護措施在實際應用中的效果如何，然後再敢於發布更恐怖的作品。

在詞法分析方面，Opus 4.7 使用了更新的詞法分析器，根據內容類型，可以將相同的輸入映射到大約 1.0 倍到 1.35 倍的詞法單元。此模型在高工作量等級下也能進行更深入的推理，尤其是在代理工作流程的後期輪調中。 Anthropic 發布了一份遷移指南，供計劃從 4.6 版本升級的開發者參考。

我們進行了自己的測試——測試內容與我們評估每個主要版本時使用的內容相同，都是基於相同的遊戲建立提示。 Opus 4.7 的表現是我們迄今為止在所有版本中取得的最佳成績。它擁有最精美的畫面、最具挑戰性的難度曲線、最佳的遊戲機制以及最具創意的勝負畫面。關卡似乎是程式生成的，而且沒有一個關卡讓人感覺難以通關——這種平衡性一直是其他版本難以企及的。

你可以在這裡測試遊戲。

這並非零次測試。 Opus 4.6 在未進行任何修復的情況下通過了相同的測試。 Opus 4.7 則需要進行一輪錯誤修復。這或許只是運氣不好——單次迭代的樣本量確實很小——但仍然值得注意。更讓我們感到驚訝的是模型在這一輪修復中的表現：它主動發現了其他錯誤，而無需任何引導。而 Opus 4.6 通常需要等待指示才能發現問題。

小米 MiMo v2 Pro是目前為止效果最好的機型，但與 Opus 不同的是，它只需一次迭代就能達到理想效果。有人可能會說它的畫面更精美，而且還有配樂，這算是一個優勢，但經過一輪 bug 修復後，其遊戲邏輯和物理效果就遜色於 Opus 了。

此外，小米的這款產品以遠低於 Anthropic 的價格就能達到這樣的效果，這對於嚴肅的項目來說可能是一個值得考慮的重要因素。

乍一看，邏輯推理過程的呈現方式也有所不同。與 4.6 版本將推理過程單獨放在一個思考框中（這意味著它不屬於最終答案的一部分）不同，Opus 4.7 將推理過程直接顯示在主要文本輸出中。推理過程清晰可見，可追溯，而非隱藏在使用者介面抽象層之後，這對於重視透明度的使用者來說是一個優勢。 Anthropic 是否會保留這種行為，還是最終將其折疊回隱藏的模組中，目前尚不清楚。

代幣的使用情況前所未見。在我們的測試中，首次出現單次會話就耗盡所有代幣配額的情況。觀察模型運行過程，我們發現它先是完成了一個完整的草稿，然後似乎又從頭開始編寫了整個遊戲，並命名為“重寫 Emerge 並修復錯誤和進行改進”，隨後又進行了第二次編寫，命名為“創建重寫的 Emerge 並修復錯誤和進行改進”。

這意味著，如果你從事高強度編程，你將被迫要么升級套餐，要么支付高額 API 令牌費用，要么等待 Anthropic 重置你的使用配額。或者，你也可以選擇價格較低的類似方案。

Opus 4.6 從未這樣做過。然而，這與 Anthropic 在遷移指南中的警告一致：需要更多的輸出標記，尤其是在高難度、高投入的代理任務中。

Opus 4.7 現已在Claude.ai 、Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上線。定價與 4.6 版本相同：每百萬個輸入令牌 5 美元，每百萬個輸出令牌 25 美元。開發者可透過字串 claude-opus-4-7 存取該版本。