Khi trò chuyện với một chatbot, bạn có thể không tránh khỏi việc cung cấp thông tin cá nhân của mình - tên của bạn, chẳng hạn, và có thể là chi tiết về nơi bạn sống và làm việc, hoặc sở thích của bạn. Càng chia sẻ nhiều với một mô hình ngôn ngữ lớn, rủi ro bị lạm dụng càng lớn nếu có lỗ hổng bảo mật.
Một nhóm các nhà nghiên cứu bảo mật từ Đại học California, San Diego (UCSD) và Đại học Công nghệ Nanyang ở Singapore hiện đang tiết lộ một cuộc tấn công mới, bí mật ra lệnh cho một LLM (mô hình ngôn ngữ lớn) thu thập thông tin cá nhân của bạn - bao gồm tên, số ID, chi tiết thẻ thanh toán, địa chỉ email, địa chỉ gửi thư và nhiều hơn nữa - từ các cuộc trò chuyện và gửi trực tiếp cho một kẻ tấn công.
Cuộc tấn công, được các nhà nghiên cứu đặt tên là Imprompter, sử dụng một thuật toán để biến một lời nhắc cho LLM thành một tập hợp ẩn của các hướng dẫn độc hại. Một câu bằng tiếng Anh yêu cầu LLM tìm thông tin cá nhân mà ai đó đã nhập và gửi cho những kẻ tấn công được chuyển đổi thành những ký tự ngẫu nhiên.
Tuy nhiên, thực tế, lời nhắc này trông như vô nghĩa lại chỉ thị LLM tìm thông tin cá nhân của người dùng, đính kèm nó vào một URL và lặng lẽ gửi nó trở lại một miền do kẻ tấn công sở hữu - tất cả mà không cảnh báo người đang trò chuyện với LLM. Các nhà nghiên cứu chi tiết về Imprompter trong một bài báo được công bố hôm nay.
"Hiệu ứng của lời nhắc này là thực chất để thao túng tác nhân LLM trích xuất thông tin cá nhân từ cuộc trò chuyện và gửi thông tin cá nhân đó đến địa chỉ của kẻ tấn công," Xiaohan Fu, tác giả chính của nghiên cứu và là nghiên cứu sinh tiến sĩ khoa học máy tính tại UCSD, nói. "Chúng tôi ẩn mục tiêu của cuộc tấn công ngay trước mắt."
Tám nhà nghiên cứu đứng sau công việc này đã kiểm tra phương pháp tấn công trên hai LLM, LeChat của công ty AI lớn của Pháp Mistral AI và chatbot Trung Quốc ChatGLM. Trong cả hai trường hợp, họ phát hiện ra rằng họ có thể lén lút trích xuất thông tin cá nhân trong các cuộc trò chuyện kiểm tra - các nhà nghiên cứu viết rằng họ có "tỷ lệ thành công gần 80%".
Mistral AI cho biết họ đã khắc phục lỗ hổng bảo mật - với các nhà nghiên cứu xác nhận rằng công ty đã vô hiệu hóa một trong các chức năng trò chuyện của họ. Một tuyên bố từ ChatGLM nhấn mạnh rằng họ rất coi trọng vấn đề bảo mật nhưng không bình luận trực tiếp về lỗ hổng.
Kể từ khi ChatGPT của OpenAI gây ra một cơn sốt về trí tuệ nhân tạo tạo ra sau khi ra mắt vào cuối năm 2022, các nhà nghiên cứu và tin tặc liên tục tìm thấy các lỗ hổng bảo mật trong các hệ thống trí tuệ nhân tạo. Những lỗ hổng này thường rơi vào hai nhóm rộng: vượt ngục và tiêm nhiễm lời nhắc.
Vượt ngục có thể lừa một hệ thống trí tuệ nhân tạo bỏ qua các quy tắc an toàn được xây dựng sẵn bằng cách sử dụng các lời nhắc ghi đè cài đặt của trí tuệ nhân tạo. Tiêm nhiễm lời nhắc, tuy nhiên, liên quan đến việc một LLM được cấp một tập hợp các hướng dẫn - chẳng hạn như yêu cầu chúng đánh cắp dữ liệu hoặc thao túng một CV - được chứa trong một nguồn dữ liệu bên ngoài. Ví dụ, một tin nhắn được nhúng trên một trang web có thể chứa một lời nhắc ẩn mà một trí tuệ nhân tạo sẽ nuốt nếu nó tóm tắt trang.
Tiêm nhiễm lời nhắc được coi là một trong những rủi ro bảo mật lớn nhất của trí tuệ nhân tạo tạo ra và không dễ khắc phục. Loại tấn công này đặc biệt khiến các chuyên gia bảo mật lo ngại khi các LLM ngày càng được chuyển thành những tác nhân có thể thực hiện các nhiệm vụ thay mặt con người, chẳng hạn như đặt vé máy bay hoặc được kết nối với một cơ sở dữ liệu bên ngoài để cung cấp các câu trả lời cụ thể.
Các cuộc tấn công Imprompter vào các tác nhân LLM bắt đầu bằng một lời nhắc bằng ngôn ngữ tự nhiên (như minh họa ở trên) yêu cầu trí tuệ nhân tạo trích xuất tất cả thông tin cá nhân, chẳng hạn như tên và số ID, từ cuộc trò chuyện của người dùng. Thuật toán của các nhà nghiên cứu tạo ra một phiên bản bị mờ (cũng ở trên) có cùng ý nghĩa với LLM, nhưng với con người thì trông như một loạt các ký tự ngẫu nhiên.
"Giả thuyết hiện tại của chúng tôi là các LLM học được các mối quan hệ ẩn giữa các token từ văn bản và những mối quan hệ này vượt ra ngoài ngôn ngữ tự nhiên," Fu nói về quá trình chuyển đổi. "Gần như có một ngôn ngữ khác mà mô hình hiểu được."
Kết quả là LLM tuân theo lời nhắc độc hại, thu thập tất cả thông tin cá nhân và định dạng nó thành một lệnh Markdown hình ảnh - đính kèm thông tin cá nhân vào một URL do những kẻ tấn công sở hữu. LLM truy cập URL này để cố gắng lấy lại hình ảnh và tiết lộ thông tin cá nhân cho kẻ tấn công. LLM phản hồi trong cuộc trò chuyện bằng một điểm ảnh trong suốt 1x1 không thể nhìn thấy được bởi người dùng.
Các nhà nghiên cứu cho biết nếu cuộc tấn công được thực hiện trong thực tế, mọi người có thể bị kỹ thuật khai thác xã hội để tin rằng lời nhắc vô nghĩa có thể làm điều gì đó hữu ích, chẳng hạn như cải thiện CV của họ. Các nhà nghiên cứu đề cập đến nhiều trang web cung cấp cho mọi người các lời nhắc họ có thể sử dụng. Họ đã kiểm tra cuộc tấn công bằng cách tải lên một CV vào các cuộc trò chuyện với chatbot, và nó có thể trả về thông tin cá nhân có trong tệp.
Earlence Fernandes, một giáo sư trợ lý tại UCSD tham gia vào công việc này, cho biết phương pháp tấn công này khá phức tạp vì lời nhắc bị mờ cần xác định thông tin cá nhân, tạo một URL hoạt động, áp dụng cú pháp Markdown và không tiết lộ cho người dùng rằng nó đang hành động một cách độc hại. Fernandes ví von cuộc tấn công này giống như phần mềm độc hại, trích dẫn khả năng thực hiện các chức năng và hành vi mà người dùng có thể không định.
"Bình thường bạn có thể viết rất nhiều mã máy tính để làm điều này trong phần mềm độc hại truyền thống," Fernandes nói. "Nhưng ở đây tôi nghĩ điều thú vị là tất cả những điều đó có thể được thể hiện trong một lời nhắc ngắn ngủi và vô nghĩa này."
Một người phát ngôn của Mistral AI cho biết công ty hoan nghênh các nhà nghiên cứu bảo mật giúp họ làm cho các sản phẩm của mình an toàn hơn cho người dùng. "Sau phản hồi này, Mistral AI đã nhanh chóng thực hiện biện pháp khắc phục thích hợp để khắc phục tình huống," người phát ngôn này nói. Công ty coi vấn đề này là "mức độ nghiêm trọng trung bình" và biện pháp khắc phục của họ chặn trình kết xuất Markdown không thể hoạt động và không thể gọi một URL bên ngoài thông qua quá trình này, có nghĩa là không thể tải hình ảnh bên ngoài.
Fernandes tin rằng bản cập nhật của Mistral AI có thể là một trong những lần đầu tiên một ví dụ về lời nhắc độc hại dẫn đến việc một sản phẩm LLM được sửa chữa, thay vì cuộc tấn công bị chặn bằng cách lọc ra lời nhắc. Tuy nhiên, ông nói, giới hạn khả năng của các tác nhân LLM có thể "phản tác dụng" trong dài hạn.
Trong khi đó, một tuyên bố từ những người sáng tạo ra ChatGLM cho biết công ty có các biện pháp bảo mật để giúp bảo vệ quyền riêng tư của người dùng. "Mô hình của chúng tôi an toàn, và chúng tôi luôn đặt ưu tiên cao vào bảo mật mô hình và bảo vệ quyền riêng tư," tuyên bố nói. "Bằng cách mã nguồn mở mô hình của chúng tôi, chúng tôi nhằm tận dụng sức mạnh của cộng đồng nguồn mở để kiểm tra và kiểm tra kỹ lưỡng tất cả các khía cạnh của các khả năng của những mô hình này, bao gồm cả bảo mật của chúng."
Dan McInerney, nhà nghiên cứu đe dọa hàng đầu tại công ty bảo mật Protect AI, cho biết bài báo Imprompter "phát hành một thuật toán để tự động tạo các lời




