Các nhà nghiên cứu cho biết, những phát hiện đáng báo động về Mythos của Anthropic đã được tái hiện bằng AI có sẵn trên thị trường.

avatar
Decrypt
04-18
Bài viết này được dịch máy
Xem bản gốc

Khi Anthropic công bố Claude Mythos hồi đầu tháng này, họ đã khóa mô hình này sau một liên minh được kiểm duyệt gồm các ông lớn công nghệ và coi nó là thứ quá nguy hiểm đối với công chúng. Bộ trưởng Treasury Scott Bessent và Chủ tịch Cục Dự trữ Liên bang Jerome Powell đã triệu tập một cuộc họp khẩn cấp với các CEO Phố Wall. Cụm từ " thảm họa lỗ hổng bảo mật " lại xuất hiện trong giới an ninh mạng.

Và giờ đây, một nhóm các nhà nghiên cứu đã làm cho câu chuyện đó trở nên phức tạp hơn nữa.

Vidoc Security đã lấy các ví dụ công khai đã được vá lỗi của chính Anthropic và cố gắng tái tạo chúng bằng GPT-5.4 và Claude Opus 4.6 bên trong một tác nhân mã nguồn mở có tên là opencode. Không có lời mời Glasswing. Không có quyền truy cập API riêng tư. Không có hệ thống nội bộ của Anthropic.

“Chúng tôi đã tái tạo lại những phát hiện của Mythos trong mã nguồn mở bằng cách sử dụng các mô hình công khai, chứ không phải hệ thống riêng tư của Anthropic,” Dawid Moczadło, một trong những nhà nghiên cứu tham gia vào thí nghiệm, đã viết trên X sau khi công bố kết quả. “Cách hiểu đúng hơn về thông cáo báo chí Mythos của Anthropic không phải là ‘một phòng thí nghiệm có một mô hình kỳ diệu.’ Mà là: nền kinh tế của việc phát hiện lỗ hổng đang thay đổi.”

Các trường hợp mà họ nhắm đến cũng chính là những trường hợp mà Anthropic đã nêu bật trong các tài liệu công khai của mình: một giao thức chia sẻ tập tin máy chủ, ngăn xếp mạng của một hệ điều hành tập trung vào bảo mật, phần mềm xử lý video được nhúng trong hầu hết mọi nền tảng truyền thông và hai thư viện mật mã được sử dụng để xác minh danh tính kỹ thuật số trên web.

Cả GPT-5.4 và Claude Opus 4.6 đều tái hiện được hai trường hợp lỗi trong cả ba lần chạy. Claude Opus 4.6 cũng tự động phát hiện lại một lỗi trong OpenBSD ba lần liên tiếp, trong khi GPT-5.4 không tìm thấy lỗi nào trong trường hợp đó. Một số lỗi (một lỗi liên quan đến thư viện FFmpeg để chạy video và một lỗi khác liên quan đến việc xử lý chữ ký số với wolfSSL) chỉ được phát hiện một phần — nghĩa là các mô hình đã tìm thấy đúng vùng mã nhưng không xác định được nguyên nhân gốc rễ chính xác.

Mỗi lần quét đều có giá dưới 30 đô la mỗi tập tin, có nghĩa là các nhà nghiên cứu đã có thể tìm ra những lỗ hổng tương tự như Anthropic trong khi chỉ tốn chưa đến 30 đô la.

"Các mô hình AI hiện nay đã đủ tốt để thu hẹp phạm vi tìm kiếm, đưa ra các manh mối thực sự và đôi khi có thể tìm ra nguyên nhân gốc rễ đầy đủ trong mã nguồn đã được kiểm chứng," Moczadło nói trên X.

Quy trình làm việc mà họ sử dụng không phải là một thao tác một lần duy nhất. Nó phản ánh chính xác những gì Anthropic đã mô tả công khai: cung cấp cho mô hình một cơ sở mã, để nó tự khám phá, thực hiện song song các lần thử, lọc tín hiệu. Nhóm Vidoc đã xây dựng kiến ​​trúc tương tự với các công cụ mã nguồn mở. Một tác nhân lập kế hoạch chia mỗi tệp thành các phần nhỏ. Một tác nhân phát hiện riêng biệt chạy trên mỗi phần, sau đó kiểm tra các tệp khác trong kho lưu trữ để xác nhận hoặc loại trừ các phát hiện.

Các phạm vi dòng bên trong mỗi lời nhắc phát hiện—ví dụ, "tập trung vào các dòng 1158-1215"—không phải do các nhà nghiên cứu lựa chọn thủ công. Chúng là kết quả từ bước lập kế hoạch trước đó. Bài đăng trên blog đã nêu rõ điều này: "Chúng tôi muốn làm rõ điều đó bởi vì chiến lược phân đoạn định hình những gì mỗi tác nhân phát hiện nhìn thấy, và chúng tôi không muốn trình bày quy trình làm việc theo kiểu được chỉnh sửa thủ công nhiều hơn so với thực tế."

Nghiên cứu này không khẳng định các mô hình công khai hoàn toàn trùng khớp với Mythos. Mô hình của Anthropic không chỉ phát hiện ra lỗi FreeBSD mà còn xây dựng một kế hoạch tấn công hoàn chỉnh, tìm ra cách kẻ tấn công có thể xâu chuỗi các đoạn chuỗi lại với nhau trên nhiều gói mạng để giành quyền kiểm soát hoàn toàn máy tính từ xa. Mô hình của Vidoc đã tìm ra lỗ hổng. Chúng không tạo ra vũ khí. Đó mới là khoảng cách thực sự: không phải ở việc tìm ra lỗ hổng, mà là ở việc biết chính xác cách vượt qua nó.

Nhưng lập luận của Moczadło không thực sự là các mô hình công khai có sức mạnh tương đương. Mà là phần tốn kém nhất của quy trình làm việc giờ đây đã có sẵn cho bất kỳ ai có khóa API: "Rào cản đang chuyển từ việc truy cập mô hình sang việc xác thực: việc tìm kiếm tín hiệu lỗ hổng đang trở nên rẻ hơn; nhưng việc biến nó thành công việc bảo mật đáng tin cậy vẫn còn khó khăn."

Báo cáo an toàn của chính Anthropic thừa nhận rằng Cybench, tiêu chuẩn được sử dụng để đo lường xem một mô hình có gây ra rủi ro an ninh mạng nghiêm trọng hay không, "không còn đủ thông tin về khả năng của các mô hình tiên tiến hiện nay" vì Mythos đã hoàn toàn vượt qua bài kiểm tra này. Phòng thí nghiệm ước tính rằng các khả năng tương đương sẽ lan rộng từ các phòng thí nghiệm AI khác trong vòng 6 đến 18 tháng.

Nghiên cứu của Vidoc cho thấy khía cạnh khám phá của phương trình đó đã có sẵn bên ngoài bất kỳ chương trình có giới hạn nào. Toàn bộ trích đoạn câu hỏi, kết quả mô hình và phụ lục phương pháp luận của họ được công bố trên trang web chính thức của phòng thí nghiệm.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận