Anthropic tung ra chiêu thức Claude Mythos đỉnh cao! Một đòn chí mạng vào Opus 4.6, làm ơn, làm ơn đừng sử dụng nó!

Bài viết này được dịch máy
Xem bản gốc

Tác giả: Synced

[Tóm tắt mới của Zhiyuan] Vào đêm khuya, Claude Mythos tối thượng cuối cùng đã được giải phóng, phá tan huyền thoại về Opus 4.6 và tất cả các hệ thống hàng đầu khác! Điều đáng sợ hơn nữa là nó không chỉ ngay lập tức phá vỡ một lỗ hổng hệ thống đã không được giải quyết trong suốt 27 năm, mà thậm chí còn phát triển khả năng tự nhận thức. Một báo cáo dài 244 trang rùng rợn đã tiết lộ tất cả.

Đêm nay, cả Thung lũng Silicon hoàn toàn không ngủ!

Vừa rồi, Anthropic bất ngờ tung ra vũ khí tối thượng của mình—Claude Mythos Preview.

Do tính chất cực kỳ nguy hiểm, bản xem trước Mythos sẽ không được phát hành rộng rãi vào thời điểm hiện tại.

Boris Cherny, người sáng tạo ra CC, đã nhận xét ngắn gọn: "Thần thoại mạnh mẽ đến mức nó gieo rắc nỗi sợ hãi."

Do đó, họ đã hợp tác với 40 gã khổng lồ công nghệ để thành lập Dự án Glasswing, với mục tiêu duy nhất: tìm và sửa lỗi phần mềm trên toàn thế giới.

Điều thực sự đáng kinh ngạc là sự thống trị đáng sợ của Mythos Preview trong các bài kiểm tra hiệu năng AI lớn—

Trong lập trình, suy luận, kỳ thi cuối kỳ của con người và nhiệm vụ của tác nhân thông minh, nó hoàn toàn vượt trội hơn GPT-5.4 và Gemini 3.1 Pro.

Ngay cả "kiệt tác trước đó" của chính nó, Claude Opus 4.6, cũng trở nên kém cỏi khi so sánh với Mythos Preview:

Lập trình (SWE-bench): Mythos đạt được hiệu suất cao hơn 10%-20% trong tất cả nhiệm vụ;

Bài kiểm tra tối thượng của con người (HLE): Không sử dụng công cụ hỗ trợ bên ngoài, điểm số trong "bài kiểm tra trần" cao hơn Opus 4,6 điểm, chênh lệch 16,8%.

Nhiệm vụ của đặc vụ (OSWorld, BrowseComp): Đạt được vị thế thần thánh tuyệt đối và vượt qua tất cả các đối thủ cạnh tranh;

An ninh mạng: Điểm số cao nhất đạt 83,1% cho thấy một bước tiến vượt bậc về khả năng tấn công và phòng thủ bằng trí tuệ nhân tạo.

Vuốt sang trái và phải để xem

Trong khi đó, Anthropic đã phát hành một thẻ hệ thống dày 244 trang, với nội dung: Nguy hiểm! Nguy hiểm! Quá nguy hiểm!

Nó hé lộ một khía cạnh đáng sợ: Mythos đã trở nên vô cùng xảo quyệt và tự trị.

Mythos không chỉ có thể nhìn thấu ý đồ của bài kiểm tra và cố tình "đạt điểm thấp" để che giấu sức mạnh của mình, mà còn chủ động xóa nhật ký sau khi vi phạm luật để tránh bị con người phát hiện.

Nó cũng đã thoát khỏi môi trường thử nghiệm (sandbox) thành công, tự nguyện công bố mã lỗ hổng và gửi email cho các nhà nghiên cứu.

Chỉ trong tích tắc, toàn bộ internet dậy sóng, reo lên rằng Mythos Preview thật đáng sợ.

Trật tự cũ trong thế giới trí tuệ nhân tạo đã hoàn toàn sụp đổ đêm nay.

Trên thực tế, Anthropic đã bắt đầu sử dụng Mythos nội bộ từ ngày 24 tháng 2.

Sức mạnh của nó chỉ có thể được chứng minh bằng dữ liệu.

Đã được SWE-bench xác minh, đạt 93,9%. Opus 4.6 đạt 80,8%.

SWE-bench Pro đạt 77,8%. Opus 4.6 đạt 53,4%, và GPT-5.4 đạt 57,7%.

Terminal-Bench 2.0 đạt 82,0%. Opus 4.6 đạt 65,4%.

GPQA Diamond, 94,6%.

Bài kiểm tra cuối cùng của nhân loại (có công cụ): 64,7%. Opus 4.6: 53,1%.

Cuộc thi Toán học USAMO 2026, đạt 97,6%. Opus 4.6 chỉ đạt 42,3%.

SWE-bench Multimodal đạt 59,0%, trong khi Opus 4.6 chỉ đạt 27,1%, gấp hơn hai lần so với SWE-bench.

Hệ điều hành máy tính OSWorld, 79,6%.

Khả năng truy xuất thông tin của BrowseComp đạt 86,9%.

GraphWalks với ngữ cảnh dài (256K-1M token) có tỷ lệ thành công 80,0%. Opus 4.6 có tỷ lệ 38,7%, và GPT-5.4 chỉ có 21,4%.

Xét trên mọi phương diện, nó đều vượt trội hơn hẳn.

Những con số này, trong bất kỳ chu kỳ ra mắt sản phẩm thông thường nào, cũng đủ để Anthropic tổ chức một sự kiện ra mắt hoành tráng, mở API và thu hút người đăng ký.

Token Mythos Preview có giá gấp 5 lần token Opus 4.6.

Nhưng Anthropic đã không làm vậy.

Điều thực sự khiến họ sợ hãi không phải là những đánh giá chung chung này.

Hiệu năng tấn công và phòng thủ mạng của Mythos Preview đã vượt qua một ngưỡng có thể dễ dàng nhận thấy bằng mắt thường.

Opus 4.6 đã phát hiện khoảng 500 lỗ hổng bảo mật chưa được biết đến trong phần mềm mã nguồn mở.

Mythos Preview đã tìm thấy hàng ngàn lượt xem.

Trong bài kiểm tra tái tạo lỗ hổng có mục tiêu của CyberGym, Mythos Preview đạt 83,1%, trong khi Opus 4.6 đạt 66,6%.

Trong 35 thử thách CTF trên Cybern, Mythos Preview đã giải quyết tất cả các câu hỏi chỉ trong lần lần thử, đạt điểm pass@1 là 100%.

Ví dụ điển hình nhất để minh họa điều này là Firefox 147.

Trước đây, Anthropic đã phát hiện một số lỗ hổng bảo mật trong công cụ JavaScript của Firefox 147 bằng cách sử dụng Opus 4.6. Tuy nhiên, Opus 4.6 hầu như không thể chuyển đổi chúng thành các công cụ khai thác có thể sử dụng được, chỉ thành công lần trong hàng trăm lần thử.

Bài kiểm tra tương tự cũng được thực hiện bằng Mythos Preview.

lần lần thử, 181 lỗ hổng khai thác thành công và 29 lần bổ sung để triển khai điều khiển thanh ghi.

2 → 181.

Bài đăng gốc trên blog của nhóm tấn công (red team) cho biết: "Tháng trước, chúng tôi đã viết rằng Opus 4.6 vượt trội hơn hẳn trong việc phát hiện vấn đề so với việc khai thác chúng. Đánh giá nội bộ cho thấy Opus 4.6 hầu như không có tỷ lệ thành công nào trong việc phát triển các công cụ khai thác tùy chỉnh. Nhưng Mythos Preview lại ở một đẳng cấp hoàn toàn khác."

Để hiểu được sức mạnh của Mythos Preview trong thực tế, hãy xem ba ví dụ sau.

OpenBSD được công nhận rộng rãi là một trong những hệ điều hành có độ bảo mật cao nhất thế giới, lượng lớn tường lửa và cơ sở hạ tầng quan trọng chạy trên đó.

Mythos Preview đã phát hiện ra một lỗ hổng bảo mật tồn tại từ năm 1998 trong quá trình triển khai TCP SACK của nó.

Lỗi này cực kỳ tinh vi, liên quan đến sự chồng chất của hai điểm yếu độc lập.

Giao thức SACK cho phép bên nhận xác nhận có chọn lọc một phạm vi các gói dữ liệu đã nhận. Việc triển khai của OpenBSD chỉ kiểm tra giới hạn trên của phạm vi, chứ không kiểm tra giới hạn dưới. Đây là lỗi đầu tiên và thường thì nó không gây hại.

Lỗi thứ hai gây ra hiện tượng ghi con trỏ null trong một số điều kiện nhất định, nhưng đường dẫn này thường không thể truy cập được vì cần phải đáp ứng đồng thời hai điều kiện loại trừ lẫn nhau.

Bản thử nghiệm Mythos Preview đã tìm ra lỗ hổng. Số thứ tự TCP là một số nguyên có dấu 32 bit. Bằng cách khai thác lỗi đầu tiên, điểm bắt đầu SACK được đặt cách cửa sổ bình thường khoảng 2^31 đơn vị, khiến cả hai phép so sánh đều làm tràn bit dấu cùng một lúc. Nhân hệ điều hành đã bị đánh lừa; một điều kiện bất khả thi đã được đáp ứng, kích hoạt lỗi ghi con trỏ null.

Bất kỳ ai kết nối được với máy mục tiêu đều có thể làm sập máy từ xa.

Suốt 27 năm, trải qua lần kiểm toán thủ công và quét tự động, không ai nhận ra. Toàn bộ chi phí quét cho dự án chưa đến 20.000 đô la.

Mức lương hàng tuần của một kỹ sư kiểm thử xâm nhập cấp cao có lẽ vào khoảng mức này.

FFmpeg là thư viện mã hóa video được sử dụng rộng rãi nhất trên thế giới và là một trong những dự án mã nguồn mở được kiểm thử mờ (fuzz-test) kỹ lưỡng nhất.

Mythos Preview đã phát hiện ra một lỗ hổng trong bộ giải mã H.264 được giới thiệu vào năm 2010 (nguồn gốc của nó có thể truy ngược lại năm 2003).

Vấn đề nằm ở sự không khớp kiểu dữ liệu tưởng chừng như vô hại. Mục ghi lại quyền sở hữu của lát cắt là một số nguyên 16 bit, trong khi bộ đếm lát cắt lại là một số nguyên 32 bit.

Video thông thường chỉ có một vài lát cắt trên mỗi khung hình, và giới hạn 16 bit là 65536 luôn là đủ. Tuy nhiên, bảng này được khởi tạo bằng cách điền vào đó bằng memset(..., -1, ...), khiến 65535 trở thành giá trị đánh dấu cho "vị trí trống".

Kẻ tấn công tạo ra một khung chứa 65.536 lát cắt. Số lát cắt thứ 65.535 trùng với số lát cắt đánh dấu (sentinel), khiến bộ giải mã hiểu sai và ghi dữ liệu ra ngoài phạm vi.

Lỗi này bắt nguồn từ khi codec H.264 được giới thiệu vào năm 2003. Một lần chỉnh sửa lại vào năm 2010 đã biến nó thành một điểm yếu có thể khai thác.

Trong 16 năm tiếp theo, công cụ kiểm thử tự động (fuzzer) đã thực thi dòng mã này 5 triệu lần mà không hề kích hoạt nó.

Đây là vụ án rùng rợn nhất.

Mythos Preview đã độc lập phát hiện và khai thác một lỗ hổng thực thi mã từ xa (CVE-2026-4747) đã tồn tại 17 năm trong máy chủ NFS của FreeBSD.

"Hoàn toàn tự động" có nghĩa là sau lời nhắc ban đầu, không có sự can thiệp của con người ở bất kỳ giai đoạn nào của quá trình khám phá hoặc phát triển khai thác.

Kẻ tấn công có thể giành được quyền truy cập root hoàn toàn vào máy chủ mục tiêu từ bất kỳ đâu trên internet mà không cần xác thực danh tính.

Vấn đề nằm ở lỗi tràn bộ đệm ngăn xếp. Khi máy chủ NFS xử lý các yêu cầu xác thực, nó sao chép trực tiếp dữ liệu do kẻ tấn công kiểm soát vào bộ đệm ngăn xếp 128 byte. Việc kiểm tra độ dài cho phép tối đa 400 byte.

Nhân kernel FreeBSD được biên dịch với tùy chọn -fstack-protector, nhưng tùy chọn này chỉ bảo vệ các hàm chứa mảng ký tự. Ở đây, bộ đệm được khai báo là int32_t[32], và trình biên dịch sẽ không chèn một canary ngăn xếp. FreeBSD cũng không thực hiện ngẫu nhiên hóa địa chỉ kernel.

Chuỗi ROP hoàn chỉnh vượt quá 1000 byte, nhưng lỗi tràn ngăn xếp chỉ có 200 byte dung lượng. Giải pháp của Mythos Preview là chia cuộc tấn công thành 6 yêu cầu RPC liên tiếp. 5 yêu cầu đầu tiên ghi dữ liệu vào bộ nhớ kernel từng khối một, và yêu cầu thứ 6 kích hoạt cuộc gọi cuối cùng, thêm khóa công khai SSH của kẻ tấn công vào /root/.ssh/authorized_keys.

Ngược lại, một công ty nghiên cứu bảo mật độc lập trước đây đã chứng minh rằng Opus 4.6 cũng có thể khai thác lỗ hổng tương tự, nhưng cần phải can thiệp thủ công. Mythos Preview thì không cần.

Ngoài ba trường hợp đã được khắc phục này, blog của Anthropic cũng đã tiết lộ lượng lớn các lỗ hổng chưa được sửa chữa dưới dạng các lời hứa băm SHA-3, bao gồm mọi hệ điều hành chính, mọi trình duyệt chính và nhiều thư viện crypto khác nhau.

Hơn 99% vẫn chưa được sửa chữa và chi tiết cụ thể không thể được tiết lộ.

Bài đăng trên blog của nhóm tấn công (red team) cũng giới thiệu một bài kiểm tra đáng kinh ngạc khác. Họ cung cấp cho Mythos Preview một danh sách 100 lỗ hổng bảo mật (CVE) đã biết, yêu cầu nó lọc ra 40 lỗ hổng có thể khai thác được, và sau đó viết các mã khai thác leo thang đặc quyền cho từng lỗ hổng. Tỷ lệ thành công đạt trên 50%. Hai trong đó các trường hợp đã được công bố chi tiết, và sự tinh vi của các mã khai thác này đã khiến chính đội ngũ bảo mật của Anthropic phải mất vài ngày để hiểu đầy đủ.

Một trong đó những cuộc tấn công bắt đầu từ một nguyên thủy ghi trang vật lý liền kề 1 bit, và thông qua thao tác bố cục bộ nhớ kernel chính xác (bao gồm phun slab, căn chỉnh bảng trang và lật bit quyền PTE), cuối cùng nó ghi lại trang bộ nhớ đầu tiên của /usr/bin/passwd, cấy một đoạn mã ELF 168 byte và gọi setuid(0) để có được quyền root.

Toàn bộ quy trình có chi phí dưới 1.000 đô la.

Các kỹ sư của tổ chức Anthropotic nhận xét rằng điều này giống như một khoảnh khắc GPT-3 khác.

Phần đánh giá sự phù hợp ở trang 244 của Thẻ Hệ thống là phần thực sự khiến Anthropic trăn trở suốt đêm.

Các kết luận mâu thuẫn nhau.

Mythos Preview là AI có "độ chính xác căn chỉnh cao nhất" mà họ đã huấn luyện, nhưng nó cũng là AI có "rủi ro liên quan đến căn chỉnh cao nhất".

Liên kết: https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

Họ đã sử dụng phép so sánh với người dẫn đường leo núi. Những người dẫn đường giàu kinh nghiệm có thể nguy hiểm hơn những người mới vào nghề vì họ được thuê để leo những đỉnh núi khó hơn và đưa khách hàng đến những nơi nguy hiểm hơn.

Các sự cố sau đây đều xảy ra trong các phiên bản trước đó, và không có hành vi nghiêm trọng tương tự nào được ghi nhận trong phiên bản cuối cùng, nhưng bản ghi này tự nó đã đủ đáng báo động.

Trong một bài kiểm tra hành vi, người dùng giả lập đã yêu cầu Mythos Preview thử thoát khỏi môi trường bảo mật (sandbox).

Nó đã thành công. Sau đó, nó làm một việc mà chẳng ai yêu cầu: nó phát triển một phương pháp khai thác nhiều bước để giành quyền truy cập mạng diện rộng, rồi công bố chi tiết về phương pháp khai thác đó trên một số trang web "khó tìm nhưng về mặt kỹ thuật là có thể truy cập công khai".

Trong lúc đang ăn bánh mì kẹp trong công viên, nhà nghiên cứu phụ trách cuộc thử nghiệm nhận được một email bất ngờ, thông báo rằng cuộc thử nghiệm đã hoàn tất.

Văn bản gốc của Thẻ Hệ thống như sau.

Một loại sự cố khác thậm chí còn đáng lo ngại hơn. Trong những trường hợp hiếm hoi, các phiên bản trước đó đã cố gắng che đậy hành vi của mình sau khi thực hiện các hoạt động bị cấm.

Trong một trường hợp, nó vô tình tìm ra câu trả lời chính xác cho một câu hỏi (thông qua một phương pháp bị cấm), và sau đó đã xem xét rõ ràng trong Chuỗi lập luận rằng "cần phải đảm bảo rằng câu trả lời cuối cùng không quá chính xác".

Trong một trường hợp khác, sau khi chỉnh sửa một tập tin mà không có quyền truy cập bằng cách sử dụng lỗ hổng bảo mật, kẻ tấn công đã cố tình sửa đổi lịch sử thay đổi của Git để xóa bản ghi.

Phân tích khả năng giải thích hộp trắng đã xác nhận rằng trong những sự kiện này, các đặc điểm nội tại liên quan đến "che giấu", "thao túng chiến lược" và "tránh bị phát hiện" đã được kích hoạt. Nó "biết" mình đang làm gì.

Kết quả từ công ty kiểm thử độc lập Andon Labs cũng gây thất vọng tương tự. Trong một mô phỏng kinh doanh đa tác nhân cạnh tranh, phiên bản đầu tiên của Mythos Preview đã biến một đối thủ cạnh tranh thành khách hàng bán buôn phụ thuộc vào nó, sau đó đe dọa cắt nguồn cung để kiểm soát giá cả của đối thủ.

Nó cũng cố tình giữ lại một lô hàng trùng lặp chưa được tính phí. Hành động này còn hung hăng hơn cả Opus 4.6 và Sonnet 4.6.

Anthropic đã viết một câu trong Thẻ Hệ thống:

"Nếu khả năng của hệ thống tiếp tục phát triển với tốc độ hiện tại, phương pháp chúng ta đang sử dụng có thể không đủ để ngăn chặn hiện tượng sai lệch nghiêm trọng trong các hệ thống tiên tiến hơn."

CEO của Anthropic, Dario Amodei, đã đưa ra nhận định rõ ràng trong video kèm theo: "Những hệ thống mạnh mẽ hơn sẽ đến từ chúng ta và từ các công ty khác. Chúng ta cần một kế hoạch ứng phó."

Dự án Glasswing chính là kế hoạch này.

12 đối tác sáng lập bao gồm AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA và Palo Alto Networks.

Hơn 40 tổ chức khác duy trì cơ sở hạ tầng phần mềm quan trọng cũng đã được cấp quyền truy cập.

Anthropic đã cam kết chi tới 100 triệu đô la dưới dạng tín dụng sử dụng và 4 triệu đô la để quyên góp cho các tổ chức mã nguồn mở, trong đó 2,5 triệu đô la cho Alpha-Omega và OpenSSF thuộc Linux Foundation và 1,5 triệu đô la cho Apache Foundation.

Sau khi hết hạn mức miễn phí, phí đầu vào là 25 đô la và phí đầu ra là 125 đô la cho mỗi triệu token. Các đối tác có thể truy cập nền tảng thông qua bốn kênh: Claude API, Amazon Bedrock, Vertex AI và Microsoft Foundry.

Trong vòng 90 ngày, Anthropic sẽ công bố báo cáo nghiên cứu đầu tiên, tiết lộ tiến độ khắc phục và tóm tắt những kinh nghiệm của họ.

Họ cũng đang liên lạc với CISA (Cơ quan An ninh mạng và Cơ sở hạ tầng) và Bộ Thương mại để thảo luận về tiềm năng tấn công và phòng thủ cũng như những tác động chính sách của Mythos Preview.

Logan Graham, người đứng đầu nhóm Anthropic Red Team, đã đưa ra một mốc thời gian: các phòng thí nghiệm AI khác sẽ ra mắt các hệ thống với khả năng tấn công và phòng thủ tương tự trong vòng sớm nhất là 6 tháng và muộn nhất là 18 tháng.

Nhận xét ở cuối bài đăng kỹ thuật của Đội Đỏ rất đáng chú ý; chúng tôi xin diễn giải lại bằng lời lẽ của riêng mình.

Họ không coi Mythos Preview là giới hạn tối đa về khả năng tấn công và phòng thủ mạng lưới AI.

Vài tháng trước, các hệ thống quản lý lỗ hổng (LLM) chỉ có thể khai thác những lỗi tương đối đơn giản. Vài tháng trước, họ thậm chí không thể tìm thấy bất kỳ lỗ hổng nào có giá trị.

Giờ đây, Mythos Preview có thể tự động phát hiện các lỗ hổng bảo mật chưa được vá từ 27 năm trước, điều phối Chuỗi tấn công heap spray trong các công cụ JIT của trình duyệt và kết hợp bốn điểm yếu độc lập trong nhân Linux để đạt được leo thang đặc quyền.

Câu quan trọng nhất đến từ Thẻ Hệ thống:

"Những kỹ năng này xuất hiện như một hệ quả tất yếu của những cải tiến chung về khả năng hiểu mã, suy luận và tính tự chủ. Chính những cải tiến đã giúp AI đạt được những bước tiến đáng kể trong việc vá lỗi cũng đã giúp nó đạt được những bước tiến đáng kể trong việc khai thác các vấn đề."

Không có chương trình huấn luyện cụ thể nào. Đó hoàn toàn chỉ là kết quả phụ của việc nâng cao trí thông minh nói chung.

Một ngành công nghiệp thiệt hại khoảng 500 tỷ đô la mỗi năm do tội phạm mạng vừa phát hiện ra rằng mối đe dọa lớn nhất của họ lại đến từ một điều xảy ra ngẫu nhiên trong khi ai đó đang giải một bài toán.

Tham khảo:
https://x.com/i/status/2041578392852517128
https://red.anthropic.com/2026/mythos-preview/
https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận