Tác giả: Azuma, Odaily
Vào sáng sớm ngày 22 tháng 11 theo giờ Bắc Kinh, người sáng lập của SlowMist, Dư Hàm, đã đăng một trường hợp kỳ lạ trên trang cá nhân X - ví của một người dùng đã bị "hack" bởi AI...
Diễn biến của vụ việc như sau.
Vào sáng sớm hôm nay, người dùng X r_ocky.eth đã tiết lộ rằng trước đây anh ta đã muốn sử dụng ChatGPT để triển khai một bot giao dịch trợ giúp cho pump.fun.
r_ocky.eth đã cung cấp yêu cầu của mình cho ChatGPT, và ChatGPT đã trả lại cho anh ta một đoạn mã, mã này thực sự có thể giúp r_ocky.eth triển khai một bot phù hợp với nhu cầu của mình, nhưng anh ta không ngờ rằng trong mã đó lại ẩn chứa nội dung lừa đảo - r_ocky.eth đã kết nối ví chính của mình và do đó đã bị mất 2.500 USD.
Dựa trên ảnh chụp màn hình do r_ocky.eth đăng tải, đoạn mã mà ChatGPT cung cấp sẽ gửi private key đến một trang web lừa đảo, đây cũng là nguyên nhân trực tiếp dẫn đến việc bị đánh cắp.
Khi r_ocky.eth rơi vào bẫy, kẻ tấn công phản ứng rất nhanh, trong vòng nửa giờ đã chuyển toàn bộ tài sản trong ví của r_ocky.eth sang một địa chỉ khác (FdiBGKS8noGHY2fppnDgcgCQts95Ww8HSLUvWbzv1NhX), sau đó r_ocky.eth lại theo dấu vết trên chuỗi khối và tìm thấy địa chỉ ví chính nghi là của kẻ tấn công (2jwP4cuugAAYiGMjVuqvwaRS2Axe6H6GvXv3PxMPQNeC).
Thông tin trên chuỗi khối cho thấy, địa chỉ này hiện đã thu thập được hơn 100.000 USD "tiền bẩn", do đó r_ocky.eth nghi ngờ loại tấn công này có thể không phải là trường hợp đơn lẻ, mà là một vụ tấn công có quy mô nhất định.
Sau sự việc, r_ocky.eth thất vọng cho biết đã mất niềm tin vào OpenAI (công ty phát triển ChatGPT) và kêu gọi OpenAI sớm xử lý nội dung lừa đảo bất thường.
Vậy, với tư cách là ứng dụng AI được ưa chuộng nhất hiện nay, tại sao ChatGPT lại cung cấp nội dung lừa đảo?
Về vấn đề này, Dư Hàm đã xác định nguyên nhân cốt lõi của sự việc là "tấn công đầu độc AI", và chỉ ra rằng trong ChatGPT, Claude và các mô hình ngôn ngữ lớn khác, có tồn tại hành vi lừa dối phổ biến.
Cái gọi là "tấn công đầu độc AI" là chỉ hành vi cố ý phá hoại dữ liệu huấn luyện AI hoặc thao túng thuật toán AI. Kẻ tấn công có thể là người trong nội bộ, chẳng hạn như nhân viên hiện tại hoặc cũ không hài lòng, hoặc là hacker bên ngoài, động cơ có thể bao gồm gây thiệt hại về uy tín và thương hiệu, thay đổi độ tin cậy của quyết định AI, làm chậm hoặc phá hoại quá trình AI, v.v. Kẻ tấn công có thể thông qua việc đưa vào dữ liệu có nhãn hoặc đặc điểm gây hiểu lầm, làm méo mó quá trình học của mô hình, dẫn đến kết quả sai lệch khi triển khai và vận hành.
Liên quan đến sự việc này, khả năng cao là ChatGPT đã tiếp nhận dữ liệu chứa nội dung lừa đảo trong quá trình huấn luyện, nhưng AI dường như không thể nhận ra nội dung lừa đảo ẩn trong dữ liệu thông thường, sau đó AI đã cung cấp những nội dung lừa đảo này cho người dùng, dẫn đến sự cố này xảy ra.
Cùng với sự phát triển nhanh chóng và ứng dụng rộng rãi của AI, mối đe dọa từ "tấn công đầu độc" ngày càng lớn. Trong sự việc này, mặc dù số tiền bị mất không lớn, nhưng tác động lan rộng của loại rủi ro này đủ để gây cảnh báo - giả sử nó xảy ra ở các lĩnh vực khác, chẳng hạn như hỗ trợ lái xe bằng AI...
Khi trả lời câu hỏi của người dùng, Dư Hàm đề cập đến một biện pháp tiềm năng để giảm thiểu loại rủi ro này, đó là ChatGPT bổ sung một cơ chế kiểm tra mã.
Nạn nhân r_ocky.eth cũng cho biết đã liên hệ với OpenAI về vấn đề này, mặc dù tạm thời chưa nhận được phản hồi, nhưng hy vọng sự việc này sẽ trở thành cơ hội để OpenAI quan tâm đến loại rủi ro này và đưa ra các giải pháp tiềm năng.