Tôi tò mò về Mythos hơn là Opus 4.7. Trong khi cộng đồng đang xôn xao chờ đợi sự ra mắt nhanh chóng của Opus 4.7, Anthropic đã âm thầm công bố các chỉ số ấn tượng của Mythos cùng lúc đó. Quá trình chuyển đổi từ Opus 4.6 sang 4.7 nhìn chung cho thấy sự cải thiện ổn định. Dựa trên SWE-bench Pro, hiệu năng tăng khoảng 11 điểm phần trăm từ 53,4% lên 64,3%, và trên Terminal-Bench, tăng khoảng 4 điểm phần trăm từ 65,4% lên 69,4%. Phù hợp với một bản nâng cấp thế hệ, kết quả được cải thiện đồng đều, nhưng với mức tăng từ vài phần trăm đến vài chục phần trăm trên các bài kiểm tra hiệu năng, có thể mô tả là "tiến bộ ổn định". Mặt khác, bước nhảy vọt từ Opus 4.7 lên Mythos Preview lại ở một quy mô hoàn toàn khác. Điểm số của SWE-bench Pro tăng 13,5 điểm phần trăm, từ 64,3% lên 77,8%, và Terminal-Bench tăng 12,6 điểm phần trăm, từ 69,4% lên 82,0%. SWE-bench Verified tăng từ mức cao nhất trước đó là 87,6% lên 93,9%. Sự gia tăng thêm này trong phạm vi điểm số cao có ý nghĩa vượt xa các giá trị số đơn thuần, vì đây là lĩnh vực mà độ khó tăng theo cấp số nhân. Trong bài kiểm tra Humanity's Last Exam, điểm chuẩn "với các công cụ" cũng ghi nhận điểm số cao nhất trong tất cả các mô hình trong bảng, tăng 10 điểm phần trăm từ 54,7% lên 64,7%. Trong khi đó, điểm chuẩn An ninh mạng giảm nhẹ xuống còn từ 4,6% xuống 4,7% trước khi Mythos tăng vọt 10 điểm phần trăm lên 83,1%. Tuy nhiên, Mythos vẫn đang trong giai đoạn Xem trước, và vì chưa có số liệu đo lường cho một số điểm chuẩn như Sử dụng Công cụ Quy mô lớn, Phân tích Tài chính và Hỏi đáp Đa ngôn ngữ, nên tính hoàn thiện của nó như một mô hình đa năng cần được xác minh. Tuy nhiên, nếu chỉ xét đến phạm vi đo được, nếu Opus 4.7 là một bước tiến nhỏ so với 4.6, thì Mythos dường như là mô hình thế hệ tiếp theo mà chúng ta thực sự mong đợi. Giữ vững niềm tin vào Mythos... #AI #Opus4.7 #Mythos #Anthropic #Claude
Bài viết này được dịch máy
Xem bản gốc

Khu vực:
Telegram
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ






