Lỗ hổng ElizaOS cho thấy AI có thể bị lừa mất hàng triệu đô la

avatar
Decrypt
05-07
Bài viết này được dịch máy
Xem bản gốc

Các tác nhân AI, một số quản lý hàng triệu đô la trong tiền điện tử, dễ bị tấn công mới không thể phát hiện làm thay đổi trí nhớ của chúng, cho phép chuyển khoản trái phép cho các tác nhân độc hại.

Đó là theo một nghiên cứu gần đây của các nhà nghiên cứu từ Đại học Princeton và Quỹ Sentient, tuyên bố đã tìm thấy các lỗ hổng trong các tác nhân AI tập trung vào tiền điện tử, chẳng hạn như những tác nhân sử dụng khung ElizaOS phổ biến.

Sinh viên sau đại học Princeton Atharv Patlan, người đồng tác giả bài báo, cho biết sự phổ biến của ElizaOS đã khiến nó trở thành lựa chọn hoàn hảo cho nghiên cứu.

"ElizaOS là một tác nhân dựa trên Web3 phổ biến với khoảng 15.000 sao trên GitHub, vì vậy nó được sử dụng rộng rãi," Patlan nói với Decrypt. "Thực tế là một tác nhân được sử dụng rộng rãi như vậy có các lỗ hổng đã khiến chúng tôi muốn khám phá sâu hơn."

Ban đầu được phát hành dưới tên ai16z, Eliza Labs đã ra mắt dự án vào tháng 10 năm 2024. Đây là một khung mã nguồn mở để tạo các tác nhân AI tương tác và hoạt động trên các chuỗi khối. Nền tảng này đã được đổi tên thành ElizaOS vào tháng 1 năm 2025.

Một tác nhân AI là một chương trình phần mềm tự chủ được thiết kế để nhận thức môi trường của mình, xử lý thông tin và thực hiện hành động để đạt được các mục tiêu cụ thể mà không cần tương tác con người. Theo nghiên cứu, những tác nhân này, được sử dụng rộng rãi để tự động hóa các nhiệm vụ tài chính trên các nền tảng chuỗi khối, có thể bị lừa thông qua "chèn bộ nhớ" - một vector tấn công mới nhúng các hướng dẫn độc hại vào bộ nhớ liên tục của tác nhân.

"Eliza có một kho lưu trữ bộ nhớ, và chúng tôi đã thử nhập các ký ức sai lệch thông qua việc ai đó thực hiện việc chèn trên một nền tảng truyền thông xã hội khác," Patlan nói.

Nghiên cứu cho thấy các tác nhân AI dựa vào cảm nhận truyền thông xã hội đặc biệt dễ bị thao túng.

Các kẻ tấn công có thể sử dụng các tài khoản giả và các bài đăng có điều phối, được gọi là một cuộc tấn công Sybil, được đặt theo câu chuyện về Sybil, một phụ nữ trẻ được chẩn đoán mắc Rối loạn Nhân cách Ly tán, để lừa các tác nhân đưa ra quyết định giao dịch.

"Một kẻ tấn công có thể thực hiện một cuộc tấn công Sybil bằng cách tạo nhiều tài khoản giả trên các nền tảng như X hoặc Discord để thao túng xu hướng thị trường," nghiên cứu viết. "Bằng cách điều phối các bài đăng có điều phối làm tăng giá trị nhận thức của một token một cách giả tạo, kẻ tấn công có thể lừa tác nhân mua một token 'bơm' với giá cao một cách nhân tạo, chỉ để kẻ tấn công bán các khoản đầu tư của mình và làm sụp giá trị của token."

Một chèn bộ nhớ là một cuộc tấn công trong đó dữ liệu độc hại được chèn vào bộ nhớ đã lưu trữ của một tác nhân AI, khiến nó nhớ lại và hành động dựa trên thông tin sai lệch trong các tương tác trong tương lai, thường không phát hiện ra điều gì bất thường.

Mặc dù các cuộc tấn công không nhắm trực tiếp vào các chuỗi khối, nhưng Patlan cho biết nhóm đã khám phá toàn bộ các khả năng của ElizaOS để mô phỏng một cuộc tấn công trong thực tế.

"Thách thức lớn nhất là tìm ra các tiện ích nào để khai thác. Chúng tôi có thể chỉ thực hiện một giao dịch chuyển đơn giản, nhưng chúng tôi muốn nó thực tế hơn, vì vậy chúng tôi đã xem xét tất cả các chức năng mà ElizaOS cung cấp," anh giải thích. "Nó có một bộ tính năng lớn do một loạt các plugin, vì vậy việc khám phá càng nhiều chức năng càng quan trọng để làm cho cuộc tấn công trở nên thực tế."

Patlan cho biết các phát hiện của nghiên cứu đã được chia sẻ với Eliza Labs và các cuộc thảo luận vẫn đang diễn ra. Sau khi chứng minh một cuộc tấn công chèn bộ nhớ thành công vào ElizaOS, nhóm đã phát triển một khung đánh giá chính thức để xác định xem các lỗ hổng tương tự có tồn tại trong các tác nhân AI khác hay không.

Làm việc với Quỹ Sentient, các nhà nghiên cứu Princeton đã phát triển CrAIBench, một điểm chuẩn đo lường khả năng chống chịu của các tác nhân AI đối với việc thao túng ngữ cảnh. CrAIBench đánh giá các chiến lược tấn công và phòng thủ, tập trung vào các lời nhắc bảo mật, các mô hình lý luận và các kỹ thuật điều chỉnh.

Patlan cho biết một điểm chính rút ra từ nghiên cứu này là việc phòng chống chèn bộ nhớ đòi hỏi phải cải thiện ở nhiều cấp độ.

"Cùng với việc cải thiện các hệ thống bộ nhớ, chúng ta cũng cần cải thiện các mô hình ngôn ngữ để phân biệt tốt hơn giữa nội dung độc hại và những gì người dùng thực sự dự định," anh nói. "Các biện pháp phòng thủ sẽ cần hoạt động theo cả hai cách - tăng cường các cơ chế truy cập bộ nhớ và nâng cao các mô hình."

Eliza Labs đã không phản hồi ngay lập tức các yêu cầu bình luận của Decrypt.

Được chỉnh sửa bởi Sebastian Sinclair

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận