本文為機器翻譯
展示原文

比起 Opus 4.7,我對 Mythos 更感興趣。 在社區對 Opus 4.7 的快速發佈興奮不已之際,Anthropic 悄然公佈了 Mythos 的驚人性能指標。 從 Opus 4.6 到 4.7 的升級總體來說較為穩定。基於 SWE-bench Pro 的測試結果,其性能提升了約 11 個百分點,從 53.4% 提升至 64.3%;基於 Terminal-Bench 的測試結果,其性能提升了約 4 個百分點,從 65.4% 提升至 69.4%。作為一次代際升級,各項性能指標的提升幅度較為均衡,但各測試指標的提升幅度僅為個位數到幾十個百分點,因此可以稱之為“穩步提升”。 另一方面,從 Opus 4.7 到 Mythos Preview 的飛躍則完全是另一個層面。 SWE-bench Pro 的得分從 64.3% 躍升 13.5 個百分點至 77.8%,Terminal-Bench 的得分也從 69.4% 上升 12.6 個百分點至 82.0%。SWE-bench Verified 的得分從之前的 87.6% 攀升至 93.9%。高分範圍的進一步提升意義非凡,不僅僅體現在數值上,因為該領域的難度呈指數級增長。在 Humanity's Last Exam 測試中,“使用工具”基準測試也取得了所有模型中最高的得分,從 54.7% 上升 10 個百分點至 64.7%。與此同時,Cybersecurity 基準測試的得分在 4.6% 至 4.7% 之間略有下降,隨後 Mythos 的得分飆升 10 個百分點至 83.1%。 然而,Mythos 目前仍處於預覽階段,並且由於某些基準測試(例如規模化工具使用、財務分析和多語言問答)的測量數據尚不可用,因此其作為通用模型的完整性仍需驗證。但是,僅從已測量的範圍來看,如果 Opus 4.7 是 4.6 的增量式演進,那麼 Mythos 似乎就是我們真正期待的下一代模型。 期待 Mythos…… #AI #Opus4.7 #Mythos #Anthropic #Claude

相关赛道:
Telegram
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論