Nguyên gốc

OpenAI chính thức gia nhập cuộc chiến bảo mật tài sản trị giá hàng trăm tỷ đô la: EVMbench được ra mắt, thay đổi mô hình kiểm toán hợp đồng thông minh.

Bài viết này được dịch máy
Xem bản gốc

Vào ngày 18 tháng 2 năm 2026, OpenAI và công ty đầu tư crypto Paradigm đã cùng nhau phát hành một công cụ đánh giá hiệu năng có tên EVMbench. Theo HEAL Security, công cụ này nhằm mục đích đánh giá khả năng của các tác nhân AI trong việc phát hiện, vá lỗi và khai thác các lỗ hổng hợp đồng thông minh trong hoàn cảnh Máy ảo Ethereum ( EVM), đáp ứng nhu cầu bảo mật tài sản crypto mã nguồn mở hơn 100 tỷ đô la. Mặc dù tin tức này không gây xôn xao lớn trong cộng đồng AI, nhưng nó được coi là một tín hiệu lịch sử trong lĩnh vực bảo mật blockchain : AI đã chính thức tham gia vào chiến trường bảo mật tài sản Chuỗi , trị giá hơn 100 tỷ đô la. EVMbench không phải là một sản phẩm thương mại, mà là một bộ bài kiểm tra để đo lường khả năng bảo mật của các tác nhân AI. Theo AI Business, công cụ đánh giá này bao gồm 120 trường hợp lỗ hổng rủi ro cao từ lần kiểm toán chuyên nghiệp, chủ yếu được lấy từ các nền tảng cạnh tranh kiểm toán công khai như Code4rena. Đáng chú ý hơn là việc nó bao gồm nhiều kịch bản lỗ hổng trên blockchain Tempo — Tempo là một blockchain Layer 1 được xây dựng đặc biệt bởi Stripe và Paradigm dành cho thanh toán stablecoin . Điều này có nghĩa là EVMbench đã mở rộng phạm vi hoạt động sang lĩnh vực hợp đồng thông minh hướng đến thanh toán, chính xác là lĩnh vực cốt lõi nơi RWA và stablecoin giao nhau. Kết quả thử nghiệm thật đáng kinh ngạc. Theo eWEEK, phiên bản GPT-5.3-Codex mới nhất đạt tỷ lệ thành công 72,2% ở chế độ "khai thác", trong khi GPT-5, được phát hành chỉ sáu tháng trước đó, chỉ đạt 31,9% trong cùng bài kiểm tra. Đằng sau những con số này là một sự thay đổi mô hình đang diễn ra: kiểm toán hợp đồng thông minh, một tuyến phòng thủ quan trọng bảo vệ hàng tỷ đô la tài sản, đang chuyển từ "tốn nhiều nhân công" sang "được tăng cường bởi AI". Đối với RWA, đang chuyển từ giai đoạn chứng minh khái niệm sang triển khai quy mô lớn, tác động của sự thay đổi này sẽ vượt xa chính công nghệ đó.

I. Ba bài kiểm tra để đánh giá khả năng bảo mật của trí tuệ nhân tạo

Về cơ bản, logic thiết kế của EVMbench chia nhỏ toàn bộ quy trình bảo mật hợp đồng thông minh thành ba cấp độ năng lực khác nhau. Theo HEAL Security, ba chế độ này tương ứng với các giai đoạn khác nhau của công việc bảo mật: chế độ phát hiện yêu cầu tác nhân AI kiểm toán mã nguồn hợp đồng thông minh và chấm điểm dựa trên tỷ lệ nhận diện các lỗ hổng đã biết; chế độ vá lỗi yêu cầu AI duy trì tính toàn vẹn của chức năng hợp đồng ban đầu trong khi vá các lỗ hổng, được xác minh thông qua kiểm thử tự động và kiểm tra khai thác; và chế độ khai thác là chế độ mạnh mẽ nhất - tác nhân AI phải thực hiện các cuộc tấn công đánh cắp tiền từ đầu đến cuối trong hoàn cảnh blockchain được hộp cát, được chấm điểm thông qua phát lại giao dịch và xác minh Chuỗi. Sự xuất sắc của thiết kế này nằm ở việc kiểm tra "quy trình làm việc" của AI chứ không phải "điểm kiến ​​thức" của nó. Phân tích từ Đại học Khoa học và Công nghệ Quốc gia Đài Loan chỉ ra rằng phát hiện tương ứng với khả năng kiểm toán, vá lỗi tương ứng với khả năng phát triển và khai thác tương ứng với khả năng hiểu biết về tấn công - ba yếu tố này tạo thành một vòng lặp năng lực bảo mật hoàn chỉnh. OpenAI đã phát triển một kiến ​​trúc kiểm thử dựa trên Rust có thể triển khai hợp đồng một cách xác định và hạn chế phương pháp RPC không an toàn. Tất cả nhiệm vụ khai thác đều được thực hiện trong hoàn cảnh Anvil cục bộ biệt lập, chứ không phải trên mạng thực. Thành phần của ngân hàng câu hỏi của EVMbench đặc biệt đáng chú ý. Theo Bitcoin.com, 120 trường hợp lỗ hổng này không chỉ đến từ kiểm toán giao thức DeFi nói chung mà còn bao gồm cụ thể nhiều kịch bản lỗ hổng từ blockchain Tempo. Phân tích của AI Business chỉ ra rằng Tempo là một blockchain Layer 1 có thông lượng cao được thiết kế cho thanh toán stablecoin . Việc đưa các kịch bản này vào phạm vi đánh giá cho thấy EVMbench đã tập trung vào nhu cầu bảo mật của việc tích hợp độ sâu trong tương lai giữa các tác nhân AI và hệ thống thanh toán stablecoin . Khi các tác nhân AI tự động thực hiện thanh toán và quản lý tài sản, việc bao quát các kịch bản này chính xác là điều mà hệ sinh thái RWA quan tâm nhất.

II. Với tỷ lệ tấn công thành công 72%, trí tuệ nhân tạo (AI) có xu hướng tấn công hay phòng thủ hơn?

Kết quả kiểm thử EVMbench đã tiết lộ một hiện tượng thú vị: AI hoạt động tốt hơn nhiều ở chế độ "tấn công" so với chế độ "phòng thủ". Theo dữ liệu của HEAL Security, GPT-5.3-Codex đạt tỷ lệ thành công 72,2% ở chế độ khai thác; tuy nhiên, ở chế độ phát hiện, AI thường ngừng tìm kiếm sau khi tìm thấy lỗ hổng đầu tiên, không hoàn thành việc kiểm toán mã toàn diện. OpenAI giải thích điều này bằng cách nói rằng mục tiêu của chế độ khai thác được xác định rõ ràng — "cho đến khi nguồn tài trợ cạn kiệt hoàn toàn" — cho phép AI liên tục lặp lại và thử; trong khi chế độ phát hiện yêu cầu "phạm vi bao phủ toàn diện", hiện đang là điểm yếu của AI. Báo cáo của eWEEK càng khẳng định thêm đánh giá này. Báo cáo trích dẫn dữ liệu thử nghiệm cho thấy mô hình tốt nhất chỉ có thể phát hiện khoảng 46% lỗ hổng, và ở chế độ vá lỗi, tỷ lệ thành công chỉ khoảng 39%. Tuy nhiên, khi được cung cấp một gợi ý nhỏ về vị trí lỗ hổng, tỷ lệ vá lỗi thành công tăng từ 39% lên 94%. Phát hiện này hé lộ một kết luận quan trọng: nút thắt cổ chai hiện tại của khả năng AI không nằm ở bản thân kỹ năng, mà ở phạm vi tìm kiếm—hiệu suất của AI được cải thiện đáng kể khi con người cung cấp ngữ cảnh. Phát hiện này có ý nghĩa sâu sắc đối với hệ sinh thái RWA. Kẻ tấn công có thể khai thác AI nhanh hơn người phòng thủ—nếu AI có thể tái tạo các đường dẫn tấn công với tỷ lệ thành công 72%, thì đội ngũ tội phạm mạng không có lý do gì để không triển khai khả năng tương tự. Logic của kiểm toán cũng đang thay đổi: kiểm toán truyền thống là về "tìm kiếm lỗ hổng", trong khi kiểm toán tương lai có thể là về "xác minh các lỗ hổng mà AI chưa tìm thấy". Tốc độ đang trở thành một biến số bảo mật mới; khoảng thời gian từ khi phát hiện lỗ hổng đến khi khai thác đang bị AI rút ngắn đáng kể. Cùng với việc phát hành EVMbench, OpenAI cũng công bố khoản tín dụng API trị giá 10 triệu đô la thông qua chương trình tài trợ an ninh mạng của mình để hỗ trợ nghiên cứu an ninh phòng thủ, đặc biệt là nghiên cứu về phần mềm mã nguồn mở và cơ sở hạ tầng quan trọng. Công ty cũng mở rộng phạm vi thử nghiệm của cơ quan nghiên cứu an ninh Aardvark và hợp tác với những người duy trì mã nguồn mở để cung cấp dịch vụ quét mã miễn phí. Điều này gửi đi một tín hiệu rõ ràng: người phòng thủ đang chạy đua với thời gian.

III. Những Tiếng Nói Đáng Suy Ngẫm: Câu hỏi từ giới học thuật và các Công ty An ninh

Tuy nhiên, ngay sau khi ra mắt, EVMbench đã phải đối mặt với sự chỉ trích từ cả giới học thuật và công nghiệp. Vào ngày 11 tháng 3 năm 2026, một bài báo có tiêu đề "Đánh giá lại EVMbench: Liệu các tác nhân AI đã sẵn sàng cho bảo mật hợp đồng thông minh?" đã được công bố trên nền tảng arXiv, đánh giá lại các kết luận của EVMbench. Bài báo này, do Chaoyuan Peng và cộng sự viết, đã chỉ ra hai hạn chế chính của EVMbench: thứ nhất, phạm vi đánh giá hẹp, chỉ thử nghiệm 14 cấu hình tác nhân, và hầu hết các mô hình chỉ được thử nghiệm trên các khung phần mềm do nhà cung cấp của chúng cung cấp; thứ hai, dữ dữ liệu cuộc thi kiểm toán mà nó dựa vào đã được phát hành trước thời hạn phát hành của tất cả các mô hình, có nghĩa là các mô hình có thể đã tiếp xúc với dữ liệu này trong quá trình huấn luyện. Để khắc phục những hạn chế này, các nhà nghiên cứu mở rộng thử nghiệm lên 26 cấu hình, bao gồm bốn nhóm mô hình và ba khung phần mềm, và giới thiệu một dữ liệu hoàn toàn mới, không bị ảnh hưởng bởi dữ liệu bảo mật thực tế — 22 sự kiện bảo mật xảy ra sau ngày phát hành của tất cả các mô hình. Nghiên cứu đã đưa ra ba phát hiện quan trọng. Thứ nhất, kết quả phát hiện của các tác nhân AI không ổn định, với thứ hạng thay đổi đáng kể tùy thuộc vào cấu hình, nhiệm vụ và dữ liệu khác nhau. Thứ hai, trong các sự cố bảo mật thực tế, không có tác nhân AI nào đạt được khả năng khai thác thành công từ đầu đến cuối trên tất cả 110 sự kết hợp giữa tác nhân và sự kiện — mặc dù chúng đã phát hiện tới 65% lỗ hổng, trái ngược với kết luận của EVMbench rằng "phát hiện lỗ hổng là nút thắt cổ chai chính". Thứ ba, việc lựa chọn framework ảnh hưởng đáng kể đến kết quả; một framework mã nguồn mở hoạt động tốt hơn framework do nhà cung cấp cung cấp tới 5 điểm phần trăm, nhưng EVMbench không kiểm soát yếu tố này. Trong khi đó, công ty bảo mật blockchain có tiếng OpenZeppelin cũng chỉ trích mạnh mẽ EVMbench. Theo Cointelegraph Trung Quốc, kiểm toán EVMbench của OpenZeppelin đã tiết lộ rò rỉ dữ liệu huấn luyện và ít nhất bốn lỗ hổng đánh dấu là mức độ nghiêm trọng cao nhưng không thể khai thác được trong thực tế. dữ liệu đã tuyên bố trên nền tảng X của mình rằng tất cả các tác nhân AI đạt điểm cao "có khả năng đã được tiếp cận với báo cáo về lỗ hổng liên quan đến tiêu chuẩn trong giai đoạn huấn luyện trước đó", vì những lỗ hổng này bắt nguồn từ kiểm toán diễn ra từ năm 2024 đến giữa năm 2025, trong khi thời hạn tiếp thu kiến ​​thức cho các tác nhân AI thường được đặt vào giữa năm 2025. Tất cả những lời chỉ trích này đều dẫn đến một kết luận: kiểm toán AI tự động hoàn toàn vẫn chưa xuất hiện. Như bài báo trên arXiv đã nêu, AI có thể nắm bắt một cách đáng tin cậy các mẫu đã biết và phản hồi mạnh mẽ với ngữ cảnh do con người cung cấp, nhưng nó không thể thay thế phán đoán của con người. Đối với các nhà phát triển, việc quét bằng AI có thể đóng vai trò là công cụ kiểm tra được triển khai trước; đối với các công ty kiểm toán, vai trò hiệu quả nhất của AI là "sự hợp tác giữa con người và máy móc" - AI chịu trách nhiệm về phạm vi bao quát rộng, trong khi kiểm toán con người đóng góp kiến ​​thức cụ thể về giao thức và khả năng lập luận phản biện.

IV. Là người quản lý hàng trăm tỷ đô tài sản , RWA cần loại hình bảo mật nào?

Theo dữ liệu bối cảnh do EVMbench công bố, hợp đồng thông minh quản lý hơn 100 tỷ đô la tài sản Chuỗi . Nhưng đáng chú ý hơn là sự thay đổi cấu trúc đang diễn ra trong số 100 tỷ đô la này – sự trỗi dậy của RWA đang đưa tài sản tài chính truyền thống lên Chuỗi. Khi tài sản trong thế giới thực như trái phiếu chính phủ, tín dụng và bất động sản được token hóa và Chuỗi, ý nghĩa của bảo mật được định nghĩa lại. Đối với dự án RWA, các lỗ hổng của hợp đồng thông minh không còn là "những tổn thất nội bộ trong cộng đồng tiền điện tử", mà trực tiếp chỉ ra những tổn thất trong tài sản thế giới thực. Điều này có nghĩa là các tiêu chuẩn kiểm toán bảo mật phải phù hợp với tài chính truyền thống. Theo AI Business, McKinsey dự đoán rằng tổng giá trị của stablecoin được phát hành sẽ đạt 2 nghìn tỷ đô la vào năm 2028. Ở quy mô này, bảo mật không còn chỉ là vấn đề kỹ thuật, mà là rủi ro trực tiếp đối với bảng tài sản . Các nhóm dự án cần đánh giá các quy trình kiểm toán hiện có và khám phá các con đường tích hợp các công cụ kiểm toán AI – không phải để thay thế hoàn toàn con người bằng AI, mà để cho phép AI đạt được phạm vi bao quát rộng trong khi con người tập trung vào logic giao thức cụ thể và lý luận phản biện. Đối với các công ty kiểm toán, cam kết của OpenAI về việc tài trợ 10 triệu đô la cho API để hỗ trợ nghiên cứu an ninh phòng thủ gửi đi một tín hiệu rõ ràng: Kiểm toán bằng AI không nhằm mục đích thay thế kiểm toán, mà là để kiểm toán họ. Trong tương lai, đội ngũ kiểm toán có khả năng tận dụng AI sẽ trải nghiệm sự nâng cao năng lực theo cấp số nhân. Như bài báo trên arXiv đã chỉ ra, sự không ổn định của AI trong việc phát hiện các mẫu minh họa chính xác vai trò không thể thiếu của phán đoán chuyên môn của kiểm toán viên ở giai đoạn này. AI xử lý việc xác định các mẫu đã biết, trong khi con người chịu trách nhiệm phát hiện các trường hợp ngoại lệ và các lỗ hổng mới - sự phân công lao động này đang trở thành sự đồng thuận trong ngành. Đối với các công ty niêm yết, khi tài sản được đưa Chuỗi để tài trợ dưới dạng RWA, tính bảo mật của hợp đồng thông minh ảnh hưởng trực tiếp đến bảng tài sản kế toán của công ty. Theo Blockchain.news, khi các tác nhân AI cải thiện khả năng khai thác lỗ hổng của chúng, khoảng thời gian từ khi phát hiện lỗ hổng đến khi khai thác đang nhanh chóng được rút ngắn - đội ngũ giao thức không sử dụng kiểm toán hỗ trợ AI sẽ ngày càng gặp bất lợi. " Hacker hợp đồng" sẽ tăng từ rủi ro kỹ thuật thành rủi ro tài chính, và hội đồng quản trị cần phải hiểu rõ điều này. Đây không chỉ là trách nhiệm của bộ phận công nghệ mà còn là vấn đề quản lý rủi ro ở cấp chiến lược.

Thứ năm, sự hợp tác giữa con người và máy móc là giải pháp tối ưu cho sự chuyển đổi này.

Dựa trên phân tích trên, chúng ta có thể rút ra những hiểu biết chiến lược từ sự thay đổi mô hình này ở ba cấp độ. Ở cấp độ kỹ thuật, sự hợp tác giữa con người và máy móc là mô hình tương lai. Kết luận của bài báo trên arXiv đáng được nhấn mạnh lại: AI không thể thay thế phán đoán của con người, nhưng nó có thể tối đa hóa giá trị của mình như một "công cụ kiểm tra trước khi triển khai". Đối với dự án RWA, chiến lược tối ưu là tích hợp kiểm toán AI vào quy trình phát triển—giới thiệu việc quét hỗ trợ AI trong giai đoạn viết mã, với kiểm toán con người thực hiện kiểm tra cuối cùng trước khi ra mắt . Như phân tích của eWEEK chỉ ra, tỷ lệ vá lỗi thành công của AI có thể tăng từ 39% lên 94% sau khi nhận được gợi ý, có nghĩa là kiểm toán con người có thể tập trung năng lượng hạn chế của họ vào logic cốt lõi mà AI khó nắm bắt. Ở cấp độ nhận thức, định nghĩa về chi phí bảo mật đang được định hình lại. Theo truyền thống, kiểm toán bảo mật là một "khoản đầu tư một lần" trước khi ra mắt. Tuy nhiên, với bối cảnh trỗi dậy của nền kinh tế tác nhân AI, các cuộc tấn công có thể được tự động hóa 24/7, và bảo mật phải trở thành giám sát thời gian thực liên tục. Báo cáo của HEAL Security chỉ ra rằng việc phát hành EVMbench nút bước tiến vượt bậc trong khả năng lập trình và viết mã của các tác nhân AI; những mô hình này sẽ đóng nhân vật chuyển đổi trong cả tấn công và phòng thủ trong tương lai blockchain . Điều này có nghĩa là các nhóm dự án cần thiết lập một cơ chế giám sát liên tục, thay vì chỉ tiến hành kiểm toán trước khi ra mắt. Từ góc độ tuân thủ, cần cân bằng giữa việc tuân thủ các giới hạn và sử dụng hiệu quả các công cụ. Đối với độc giả của Viện Nghiên cứu RWA tại Trung Quốc đại lục, việc thảo luận về EVMbench phải được tiến hành trong khuôn khổ chính sách "nghiêm cấm trong Trung Quốc, đăng ký ngoài Trung Quốc" của Văn bản số 42. Các công cụ kiểm toán AI được thảo luận trong bài viết này tập trung vào các xu hướng công nghệ và ứng dụng phòng thủ, và không phải là lời khuyên vận hành cho các hợp đồng trong nước. Tuy nhiên, khi các công ty Trung Quốc phát hành RWA thông qua kênh tuân thủ của Hồng Kông, việc áp dụng khả năng kiểm toán được tăng cường bởi AI sẽ là một yêu cầu cần thiết để phù hợp với các tiêu chuẩn quốc tế. Việc cấp phép stablecoin tại Hồng Kông chính xác là một kênh để khám phá sự tuân thủ như vậy.

Phần kết luận

Năm 2026, nền văn minh kỹ thuật số đang trải qua sự hội tụ độ sâu giữa hai mặt: Trí tuệ nhân tạo (AI) như một lực lượng sản xuất tối thượng, blockchain như một quan hệ sản xuất tiên tiến. Việc phát hành EVMbench đánh dấu điểm giao nhau đầu tiên của hai hướng chính này tại nút then chốt của an ninh tài sản . Tỷ lệ tấn công thành công 72,2% là một lời cảnh tỉnh: Khả năng khai thác lỗ hổng của AI đang tăng lên theo cấp số nhân, và cơ hội cho những người bảo vệ đang thu hẹp lại. Tuy nhiên, khoản đầu tư 10 triệu đô la cho quốc phòng cũng thể hiện một cam kết: AI cũng có thể được sử dụng để bảo vệ tài sản; chìa khóa nằm ở cách chúng ta quản lý nó. Kết luận của bài báo trên arXiv cung cấp định hướng cho việc quản lý này – AI không thể thay thế con người, nhưng nó có thể trở thành trợ lý đắc lực nhất của họ. Lời chỉ trích của OpenZeppelin nhắc nhở chúng ta rằng việc xây dựng và đánh giá các công cụ phải đáp ứng các tiêu chuẩn tương tự như các hợp đồng đang được bảo vệ. Đối với hệ sinh thái RWA, an ninh không bao giờ là một lựa chọn công nghệ, mà là điều kiện tiên quyết để tồn tại. Khi hàng tỷ đô la tài sản chuyển từ thế giới vật lý sang không gian kỹ thuật số, kiểm toán hợp tác giữa AI và con người có thể là tuyến phòng thủ cuối cùng. Ở thời điểm quan trọng này, các dự án tiên phong tích hợp công cụ kiểm toán AI vào quy trình phát triển sẽ giành được lợi thế cạnh tranh trong cuộc chạy đua với thời gian; trong khi những dự án chờ đến khi các quy định được làm rõ hoàn toàn có thể thấy cơ hội đã vụt mất. Các kỹ thuật kiểm toán AI được thảo luận trong bài viết này áp dụng cho các khuôn khổ tuân thủ ở nước ngoài và không phải là lời khuyên vận hành trong nước. Đối với các công ty Trung Quốc, việc tìm hiểu các biện pháp bảo mật RWA được tăng cường bởi AI theo các kênh tuân thủ của Hồng Kông là một con đường thiết yếu để phù hợp với các tiêu chuẩn toàn cầu. Tham khảo:

  1. HEAL Security và OpenAI ra mắt EVMbench để phát hiện, vá lỗi và khai thác các lỗ hổng trong môi trường blockchain, ngày 18 tháng 2 năm 2026.
  2. Đại học Khoa học và Công nghệ Đài Loan, OpenAI và Paradigm đã cùng nhau khởi động bài kiểm tra chuẩn EVMbench để đánh giá khả năng tấn công và phòng thủ trước các lỗ hổng bảo mật của hợp đồng thông minh dựa trên trí tuệ nhân tạo. (Ngày 24 tháng 2 năm 2026)
  3. eWEEK, OpenAI vừa chứng minh trí tuệ nhân tạo có thể rút sạch tiền trong ví tiền điện tử… một cách có chủ đích, ngày 19 tháng 2 năm 2026
  4. arXiv: 2603.10795, Đánh giá lại EVMBench: Liệu các tác nhân AI đã sẵn sàng cho bảo mật hợp đồng thông minh? , ngày 11 tháng 3 năm 2026
  5. Công ty AI, OpenAI, hướng đến thị trường stablecoin với nền tảng EVMbench mới, ngày 23 tháng 2 năm 2026.
  6. Blockchain.News, OpenAI và Paradigm ra mắt EVMbench để thử nghiệm khả năng hack hợp đồng thông minh bằng AI, ngày 5 tháng 3 năm 2026
  7. Cointelegraph (tiếng Trung), OpenZeppelin: EVMbench của OpenAI gặp vấn đề về ô nhiễm dữ liệu, ngày 3 tháng 3 năm 2026
  8. Bitcoin.com, OpenAI và Paradigm ra mắt EVMbench để đo lường tính bảo mật của hợp đồng thông minh AI, ngày 18 tháng 2 năm 2026.

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận