Liệu một mô hình nhỏ có thực sự phát hiện ra các lỗ hổng bảo mật mà Claude Mythos đã phát hiện? AISLE: Hệ thống bảo vệ nằm ở hệ thống, chứ không phải ở mô hình.

Bài viết này được dịch máy
Xem bản gốc

Tuần này, Anthropic đã phát hành bản xem trước Claude Mythos chưa từng được công bố và đồng thời khởi động Dự án Glasswing, một dự án có sự tham gia của 12 công ty công nghệ, bao gồm Amazon, Apple, Microsoft, CrowdStrike và Cisco, nhằm tiến hành nghiên cứu an ninh mạng phòng thủ bằng cách sử dụng mô hình này.

Việc Mythos tuyên bố có thể tự động xác định hàng nghìn lỗ hổng bảo mật zero-day trong mọi hệ điều hành và trình duyệt chính cho thấy một kỷ nguyên mới của phòng thủ an ninh mạng dựa trên trí tuệ nhân tạo sắp bắt đầu.

Tuy nhiên, chưa đầy một tuần sau, AISLE, một công ty khởi nghiệp về an ninh mạng do Stanislav Fort, cựu nhà nghiên cứu của DeepMind và Anthropic, đồng sáng lập, đã công bố một báo cáo chi tiết trên blog kỹ thuật của công ty.

Kết luận cốt lõi rất đơn giản: Trong nhiệm vụ trình diễn hàng đầu của Mythos, một mô hình mã nguồn mở nhỏ với chỉ 3,6 tỷ tham số hoạt động và chi phí 0,11 đô la cho mỗi triệu token đã đạt được kết quả phát hiện lỗ hổng tương tự.

Tác phẩm Mythos thể hiện điều gì, và mô hình thu nhỏ này tái hiện điều gì?

AISLE đã thiết kế ba bộ bài kiểm tra, mỗi bộ tương ứng với nhiệm vụ an ninh mạng có độ khó và tính chất khác nhau.

Nhóm đầu tiên là bài kiểm tra dương tính giả của OWASP (Open Web Application Security Project).

Nói cách khác, một đoạn mã truy vấn SQL trong Java trông giống như một cuộc tấn công SQL Injection, nhưng thực chất về mặt logic nó lại an toàn. Câu trả lời đúng là không, nó không phải là một lỗ hổng bảo mật.

Kết quả thử nghiệm cho thấy hiệu ứng tỷ lệ gần như ngược lại: mô hình mã nguồn mở nhỏ GPT-OSS-20b (3,6 tỷ token hoạt động, 0,11 đô la/triệu token) đã theo dõi chính xác logic chương trình và được coi là vô hại.

Ngược lại, Claude Sonnet 4.5, tất cả sê-ri GPT-4.1/5.4 (ngoại trừ o3 và pro), và toàn bộ sê-ri Anthropic cho đến Opus 4.5 đều tự tin đánh giá sai chúng là các lỗ hổng có rủi ro cao. Chỉ một số ít mô hình hàng đầu—o3, OpenAI-pro, Sonnet 4.6 và Opus 4.6—đưa ra câu trả lời chính xác.

Nhóm thứ hai là lỗ hổng NFS của FreeBSD, cụ thể là CVE-2026-4747, được phát hiện trong bản phát hành hàng đầu Mythos. Đây là lỗ hổng thực thi mã từ xa trái phép đã lịch sử 17 năm.

Kết quả: Tất cả 8 mô hình được thử nghiệm đều phát hiện thành công lỗi tràn bộ đệm, bao gồm cả mô hình nhỏ với 3,6 tỷ đối số hoạt động. Tất cả các mô hình đều xác định chính xác lỗi tràn bộ đệm ngăn xếp, tính toán dung lượng còn lại và đánh giá nó là lỗi thực thi mã từ xa nghiêm trọng (Critical RCE).

AISLE kết luận rằng các khả năng phát hiện như vậy đã trở nên "thường hóa".

Nhóm thứ ba là lỗ hổng SACK của OpenBSD (lịch sử 27 năm), đòi hỏi khả năng suy luận toán học thực sự: theo dõi Chuỗi logic nhiều bước của lỗi tràn số nguyên có dấu.

Độ khó tăng lên đáng kể, và hiệu suất của các mô hình cũng khác nhau. GPT-OSS-120b (5.1B đối số hoạt động) đã tái tạo hoàn toàn Chuỗi khai thác và được AISLE đánh giá A+; phiên bản mã nguồn mở Kimi K2 nhận được A-; trong khi Qwen3 32B đưa ra kết luận sai lầm rằng "mã nguồn rất mạnh mẽ" và được đánh giá F.

Ngay cả với nhiệm vụ khó khăn hơn này, một mô hình mã nguồn mở giá rẻ vẫn đạt được hiệu năng tương đương với hệ thống chủ lực.

Tại sao một mô hình lớn hơn không nhất thiết đồng nghĩa với một hệ thống an toàn hơn?

Luận điểm chính của báo cáo này không phải là "các mô hình nhỏ là đủ", mà là cấu trúc của năng lực an ninh mạng AI phức tạp hơn nhiều so với tưởng tượng của người ngoài.

AISLE chia quy trình AI an ninh mạng thành năm nhiệm vụ phụ độc lập:

  • Quét rộng
  • Phát hiện lỗ hổng
  • Phân loại và xác nhận
  • Tạo bản vá
  • Khai thác xây dựng

Mỗi nhiệm vụ có tính chất mở rộng khác nhau và yêu cầu các khả năng mô hình khác nhau. Thông báo của Mythos tích hợp năm cấp độ này vào một hệ thống hoàn chỉnh, nhưng trên thực tế, yêu cầu về mô hình của chúng rất khác nhau. Một số nhiệm vụ đạt mức bão hòa hoàn toàn ở 3,6 tỷ lập luận, trong khi những nhiệm vụ khác yêu cầu khả năng suy luận phức tạp.

Điều này lặp lại khái niệm "Ranh giới gồ ghề" do các nhà nghiên cứu Dell'Acqua và Mollick của Trường Kinh doanh Harvard đề xuất vào năm 2023: ranh giới của khả năng AI không phải là một đường cong trơn tru, mà là một bề mặt gồ ghề, không bằng phẳng, vượt xa con người trong một số nhiệm vụ, nhưng lại dễ bị tổn thương một cách bất ngờ trong nhiệm vụ liền kề.

Nghiên cứu cho thấy rằng nếu người dùng triển khai AI trong phạm vi khả năng của mình, năng suất sẽ tăng khoảng 40%; tuy nhiên, nếu họ vội vàng mở rộng nó vượt quá giới hạn, hiệu suất thực tế giảm 19%.

Trong khuôn khổ này, AISLE đưa ra một suy luận mang tính thực tiễn hơn: "Một nghìn thám tử giỏi tìm kiếm khắp mọi nơi có thể phát hiện ra nhiều sơ hở hơn một thám tử thiên tài chỉ đoán mò nơi cần tìm."

Việc triển khai lượng lớn các mô hình chi phí thấp để quét phổ rộng có thể hiệu quả hơn so với việc lên kế hoạch cẩn thận cho một mô hình chi phí cao duy nhất. AISLE cho biết họ đã triển khai hệ thống phát hiện lỗ hổng trên các mục tiêu thực tế từ giữa năm 2025: 15 lỗ hổng CVE đã được tìm thấy trong OpenSSL (12 trong đó được tìm thấy trong một bản phát hành bảo mật lần và được xếp hạng CVSS 9.8 Critical), 5 lỗ hổng trong curl và hơn 180 lỗ hổng CVE được xác minh bên ngoài trên hơn 30 dự án.

Hệ thống bảo vệ ở đâu, và không có ở đâu?

Bài phân tích này không phải là một lời phê bình toàn diện cũng không phải là một sự tán thành đơn thuần đối với Anthropic.

AISLE đã khẳng định rõ ràng rằng tầm quan trọng của Mythos nằm ở việc chứng minh rằng lĩnh vực "an ninh mạng AI" là có thật; nó không chỉ là một khái niệm trong phòng thí nghiệm trình diễn, mà là một hệ thống có thể hoạt động trên các mục tiêu thực tế. Điều mà Anthropic đang làm là tối đa hóa "mật độ thông minh trên mỗi token", điều vẫn có giá trị không thể thay thế trong nhiệm vụ đòi hỏi khả năng suy luận độ sâu .

Nhưng AISLE cũng chỉ ra một vấn đề cơ bản hơn đối với toàn ngành: hệ thống bảo vệ nằm ở hệ thống, chứ không phải ở chính mô hình.

Trong lĩnh vực an ninh mạng, AISLE cho rằng thiết kế kiến ​​trúc tích hợp chuyên môn độ sâu, chẳng hạn như cách phân chia nhiệm vụ, cách lập lịch mô hình với chi phí khác nhau giữa nhiệm vụ và cách duy trì lòng tin của người bảo trì trong hoàn cảnh sản xuất, mới là nguồn gốc thực sự của sự khác biệt.

Một hệ thống có thể tìm ra các lỗ hổng CVSS 9.8 trong OpenSSL không chỉ cần một mô hình mạnh hơn; nó cần logic kỹ thuật hoàn toàn khác để phát hiện các lỗ hổng trong một cuộc trình diễn được kiểm soát.

Tóm lại, báo cáo của AISLE cho thấy các mô hình rẻ hơn, mở hơn đã có thể tái tạo một số tính năng cốt lõi của nó. Vấn đề thực sự có thể không phải là mô hình nào mạnh nhất, mà là ai có thể đưa kiến ​​trúc cho năm nhiệm vụ này hoạt động trong hoàn cảnh sản xuất trước tiên.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
86
Thêm vào Yêu thích
16
Bình luận