크립토 오프로드 (Let Winners Run)的想法

04-17

本文為機器翻譯

展示原文

比起 Opus 4.7，我對 Mythos 更感興趣。在社區對 Opus 4.7 的快速發佈興奮不已之際，Anthropic 悄然公佈了 Mythos 的驚人性能指標。從 Opus 4.6 到 4.7 的升級總體來說較為穩定。基於 SWE-bench Pro 的測試結果，其性能提升了約 11 個百分點，從 53.4% 提升至 64.3%；基於 Terminal-Bench 的測試結果，其性能提升了約 4 個百分點，從 65.4% 提升至 69.4%。作為一次代際升級，各項性能指標的提升幅度較為均衡，但各測試指標的提升幅度僅為個位數到幾十個百分點，因此可以稱之為“穩步提升”。另一方面，從 Opus 4.7 到 Mythos Preview 的飛躍則完全是另一個層面。 SWE-bench Pro 的得分從 64.3% 躍升 13.5 個百分點至 77.8%，Terminal-Bench 的得分也從 69.4% 上升 12.6 個百分點至 82.0%。SWE-bench Verified 的得分從之前的 87.6% 攀升至 93.9%。高分範圍的進一步提升意義非凡，不僅僅體現在數值上，因為該領域的難度呈指數級增長。在 Humanity's Last Exam 測試中，“使用工具”基準測試也取得了所有模型中最高的得分，從 54.7% 上升 10 個百分點至 64.7%。與此同時，Cybersecurity 基準測試的得分在 4.6% 至 4.7% 之間略有下降，隨後 Mythos 的得分飆升 10 個百分點至 83.1%。然而，Mythos 目前仍處於預覽階段，並且由於某些基準測試（例如規模化工具使用、財務分析和多語言問答）的測量數據尚不可用，因此其作為通用模型的完整性仍需驗證。但是，僅從已測量的範圍來看，如果 Opus 4.7 是 4.6 的增量式演進，那麼 Mythos 似乎就是我們真正期待的下一代模型。期待 Mythos…… #AI #Opus4.7 #Mythos #Anthropic #Claude