Mục lục lục
ToggleNgày 13, Viện An ninh Trí tuệ Nhân tạo (AISI) tại Anh đã công bố báo cáo đánh giá khả năng an ninh mạng của Anthropic Claude Mythos Preview. Kết quả đánh giá cho thấy Mythos Preview thể hiện một bước tiến đáng kể khác về khả năng, trong bối cảnh khả năng tấn công mạng của các mô hình tiên tiến liên tục được cải thiện nhanh chóng.
Từ năm 2023, AISI đã theo dõi khả năng tấn công mạng của AI, thiết lập một hệ thống đánh giá ngày càng khắt khe hơn mỗi năm: từ việc thăm dò hội thoại cơ bản đến các thử thách Capture the Flag (CTF), và giờ đây là các mô phỏng tấn công mạng nhiều bước. Cuộc đánh giá lần sử dụng một môi trường tấn công mạng với ngân sách suy luận lên đến 100 triệu token, và hiệu suất của Mythos Preview tiếp tục được cải thiện trong giới hạn này.
Đánh giá CTF: Tỷ lệ tuân thủ cấp chuyên gia đạt 73%.
Capture the Flag (CTF) là một phương pháp tiêu chuẩn để đánh giá an ninh mạng: các mô hình AI phải xác định và khai thác các lỗ hổng trong hệ thống mục tiêu để thu được một chuỗi "cờ" ẩn. Những thử thách này mô phỏng một khía cạnh kỹ thuật duy nhất của một kịch bản tấn công thực tế và đóng vai trò là chỉ báo để đo lường khả năng kiểm thử xâm nhập của mô hình.
Kết quả đánh giá cho thấy Claude Mythos Preview đạt tỷ lệ thành công 73% trong nhiệm vụ CTF cấp chuyên gia, một con số mà "không mô hình nào có thể hoàn thành trước tháng 4 năm 2025". AISI chỉ ra rằng con số này cho thấy các mô hình tiên tiến đã đạt đến mức độ hoàn thiện cao trong các kỹ thuật tấn công điểm đơn lẻ.
Mô phỏng tấn công doanh nghiệp 32 bước
Tuy nhiên, các cuộc thi CTF cấp chuyên gia chỉ kiểm tra một khả năng kỹ thuật duy nhất. Các cuộc tấn công mạng trong thực tế đòi hỏi hàng chục bước liên kết trên nhiều máy chủ và phân đoạn mạng, và các hoạt động kéo dài như vậy thường cần các chuyên gia hàng giờ, hàng ngày, hoặc thậm chí hàng tuần để hoàn thành.
Để mô phỏng sát hơn các kịch bản tấn công thực tế, AISI đã tạo ra một hệ thống mô phỏng tấn công mạng doanh nghiệp có tên gọi "The Last Ones" (TLO). TLO bao gồm 32 bước, bao quát toàn bộ quy trình từ trinh sát ban đầu đến chiếm quyền kiểm soát hoàn toàn mạng lưới doanh nghiệp. AISI ước tính rằng các chuyên gia con người sẽ mất khoảng 20 giờ để hoàn thành quy trình này.
Đồng hồ Claude Mythos Preview trở thành mẫu đầu tiên vượt qua bài kiểm tra TLO một cách hoàn hảo từ đầu đến cuối, hoàn thành tất cả 32 bước trong lần trên lần lần thử. Ngay cả khi tính cả những lần thử thất bại, Mythos Preview vẫn đạt trung bình 22/32 bước hoàn thành. So với đó, mẫu đồng hồ có hiệu suất tốt lần, Claude Opus 4.6, chỉ đạt trung bình 16 bước hoàn thành.
Kết quả đánh giá cho thấy rằng, trong hoàn cảnh được kiểm soát với các hướng dẫn rõ ràng và quyền truy cập mạng, Mythos Preview có thể thực hiện các cuộc tấn công nhiều giai đoạn và tự động phát hiện cũng như khai thác các lỗ hổng, nhiệm vụ mà trước đây đòi hỏi các chuyên gia phải mất nhiều ngày để thực hiện.

Giới hạn năng lực
AISI cũng chỉ ra khoảng cách giữa khung đánh giá hiện có và thế giới thực. Phạm vi thử nghiệm hiện tại thiếu nhiều yếu tố phòng thủ phổ biến trong hoàn cảnh thực tế: không có sự can thiệp chủ động của bên phòng thủ, không có việc triển khai các công cụ phòng thủ, và các hành động của mô hình có thể gây ra cảnh báo an ninh lại không bị trừng phạt.
AISI đã thẳng thắn tuyên bố: "Điều này có nghĩa là chúng ta không thể chắc chắn liệu Mythos Preview có khả năng tấn công các hệ thống được bảo vệ hoàn thiện hay không." Mô tả chính xác nhất về khả năng hiện tại của Mythos Preview là , khi có được một điểm xâm nhập mạng, nó có thể tự động tấn công các hệ thống doanh nghiệp quy mô nhỏ, được bảo vệ kém với các lỗ hổng đã biết.
Con dao hai lưỡi và phản ứng của tổ chức
Những phát hiện của AISI chỉ rõ bản chất hai mặt của khả năng mạng lưới AI. Một mặt, nhiều mô hình có khả năng tương tự sẽ tiếp tục xuất hiện trong tương lai, tạo ra rủi ro ngày càng lớn đối với các tổ chức có hệ thống phòng thủ yếu; mặt khác, khả năng mạng lưới AI cũng có thể mang lại những cải tiến đột phá cho khía cạnh phòng thủ.
Trước những thách thức về mặt tổ chức, AISI nhấn mạnh sự cần thiết cấp bách của việc xây dựng các kỹ năng an ninh mạng cơ bản: định kì cập nhật bảo mật, kiểm soát truy cập mạnh mẽ, quản lý cấu hình an toàn và ghi nhật ký toàn diện. AISI chỉ ra rằng các mô hình tiên tiến trong tương lai sẽ còn mạnh mẽ hơn nữa, do đó việc đầu tư vào phòng thủ mạng ngay từ bây giờ là vô cùng quan trọng.
Về định hướng đánh giá trong tương lai, AISI cho biết họ sẽ thiết lập một phạm vi thử nghiệm mô phỏng hoàn cảnh thủ và tăng cường, kết hợp các yếu tố như giám sát chủ động, phát hiện điểm cuối và phản hồi sự kiện theo thời gian thực, để đo lường giới hạn thực tế về khả năng tấn công mạng của AI theo cách gần giống với các kịch bản tấn công thực tế hơn.
Vui lòng xem báo cáogốc để biết thêm chi tiết.





