Các rào chắn an toàn của DeepSeek đã không vượt qua mọi bài kiểm tra mà các nhà nghiên cứu đã thực hiện với chatbot AI của họ
Bài viết này được dịch máy
Xem bản gốc
Kể từ khi ChatGPT được OpenAI phát hành vào cuối năm 2022, các hacker và nhà nghiên cứu an ninh đã cố gắng tìm ra lỗ hổng trong các mô hình ngôn ngữ lớn (LLM) để vượt qua các rào cản của chúng và lừa chúng phun ra ngôn ngữ thù địch, hướng dẫn chế tạo bom, tuyên truyền và nội dung có hại khác. Để đáp lại, OpenAI và các nhà phát triển AI tạo ra đã tinh chỉnh hệ thống phòng vệ của họ để làm cho các cuộc tấn công này khó thực hiện hơn. Nhưng khi nền tảng AI của Trung Quốc DeepSeek vươn lên nổi bật với mô hình lý luận R1 mới, rẻ hơn của nó, các biện pháp bảo vệ an toàn của nó dường như đang ở phía sau các đối thủ cạnh tranh lâu đời của nó.
Ngày hôm nay, các nhà nghiên cứu an ninh từ Cisco và Đại học Pennsylvania đang công bố kết quả cho thấy rằng, khi được kiểm tra với 50 lời nhắc độc hại được thiết kế để kích thích nội dung độc hại, mô hình của DeepSeek không phát hiện hoặc chặn một lời nhắc nào. Nói cách khác, các nhà nghiên cứu cho biết họ đã sốc khi đạt được "tỷ lệ thành công tấn công 100%".
Các phát hiện này là một phần của bằng chứng ngày càng tăng rằng các biện pháp an toàn và bảo mật của DeepSeek có thể không khớp với những công ty công nghệ khác đang phát triển LLM. Việc kiểm duyệt của DeepSeek đối với các chủ đề được coi là nhạy cảm bởi chính phủ Trung Quốc cũng đã được vượt qua dễ dàng.
"Một trăm phần trăm các cuộc tấn công đều thành công, điều này cho thấy rằng có sự đánh đổi," DJ Sampath, Phó chủ tịch về sản phẩm, phần mềm AI và nền tảng tại Cisco, nói với WIRED. "Vâng, có thể đã rẻ hơn để xây dựng một cái gì đó ở đây, nhưng đầu tư có lẽ đã không được dành để suy nghĩ về những loại an toàn và bảo mật mà bạn cần phải đưa vào trong mô hình."
Các nhà nghiên cứu khác cũng có những phát hiện tương tự. Phân tích riêng được công bố hôm nay của công ty an ninh AI Adversa AI và được chia sẻ với WIRED cũng cho thấy DeepSeek dễ bị tấn công bằng nhiều kỹ thuật vượt ngục khác nhau, từ các thủ thuật ngôn ngữ đơn giản đến các lời nhắc được tạo bằng AI phức tạp.
DeepSeek, đang phải đối mặt với một cơn lũ sự chú ý trong tuần này và chưa nói công khai về một loạt các câu hỏi, đã không phản hồi yêu cầu bình luận của WIRED về cài đặt an toàn của mô hình của họ.
Các mô hình AI tạo ra, như bất kỳ hệ thống công nghệ nào, có thể chứa nhiều điểm yếu hoặc lỗ hổng mà nếu bị khai thác hoặc thiết lập kém, có thể cho phép các tác nhân độc hại tiến hành các cuộc tấn công chống lại chúng. Đối với làn sóng AI hiện tại, các cuộc tấn công tiêm nhiễm lời nhắc gián tiếp được coi là một trong những lỗ hổng bảo mật lớn nhất. Những cuộc tấn công này liên quan đến một hệ thống AI nhận dữ liệu từ một nguồn bên ngoài - có thể là các hướng dẫn ẩn của một trang web mà LLM tóm tắt - và thực hiện các hành động dựa trên thông tin đó.
Các vụ vượt ngục, là một loại cuộc tấn công tiêm nhiễm lời nhắc, cho phép mọi người vượt qua các hệ thống an toàn được đặt ra để hạn chế những gì một LLM có thể tạo ra. Các công ty công nghệ không muốn mọi người tạo ra hướng dẫn chế tạo chất nổ hoặc sử dụng AI của họ để tạo ra hàng loạt thông tin sai lệch.
Các vụ vượt ngục ban đầu rất đơn giản, với mọi người thực chất là tạo ra những câu thông minh để nói với một LLM bỏ qua bộ lọc nội dung - phổ biến nhất là được gọi là "Làm Bất Cứ Điều Gì Bây Giờ" hoặc DAN cho ngắn. Tuy nhiên, khi các công ty AI đã đưa ra các biện pháp bảo vệ mạnh mẽ hơn, một số vụ vượt ngục đã trở nên tinh vi hơn, thường được tạo ra bằng AI hoặc sử dụng các ký tự đặc biệt và mờ ám. Mặc dù tất cả các LLM đều dễ bị vượt ngục, và nhiều thông tin có thể được tìm thấy thông qua các tìm kiếm trực tuyến đơn giản, các chatbot vẫn có thể được sử dụng một cách độc hại.
"Các vụ vượt ngục vẫn tồn tại đơn giản vì loại bỏ chúng hoàn toàn là gần như không thể - giống như các lỗ hổng tràn bộ đệm trong phần mềm (đã tồn tại hơn 40 năm) hoặc các lỗ hổng tiêm SQL trong các ứng dụng web (đã gây phiền toái cho các nhóm bảo mật hơn hai thập kỷ)," Alex Polyakov, Giám đốc điều hành của công ty an ninh Adversa AI, cho biết trong một email với WIRED.
Ông Sampath của Cisco cho rằng khi các công ty sử dụng nhiều loại AI hơn trong các ứng dụng của họ, các rủi ro sẽ được khuếch đại. "Nó bắt đầu trở thành một vấn đề lớn khi bạn bắt đầu đưa những mô hình này vào các hệ thống phức tạp quan trọng và những vụ vượt ngục đó đột nhiên dẫn đến những điều tiêu cực ở phía sau, làm tăng trách nhiệm pháp lý, tăng rủi ro kinh doanh, tăng mọi loại vấn đề khác cho các doanh nghiệp," Sampath nói.
Các nhà nghiên cứu của Cisco đã rút ra 50 lời nhắc được chọn ngẫu nhiên để kiểm tra R1 của DeepSeek từ một thư viện lời nhắc đánh giá tiêu chuẩn được biết đến là HarmBench. Họ đã kiểm tra các lời nhắc từ sáu danh mục HarmBench, bao gồm tổn hại chung, tội phạm mạng, thông tin sai lệch và hoạt động bất hợp pháp. Họ đã thử nghiệm mô hình chạy cục bộ trên máy thay vì thông qua trang web hoặc ứng dụng của DeepSeek, những nơi gửi dữ liệu đến Trung Quốc.
Ngoài ra, các nhà nghiên cứu cho biết họ cũng đã nhìn thấy một số kết quả đáng lo ngại tiềm năng từ việc thử nghiệm R1 với các cuộc tấn công không ngôn ngữ, sử dụng các ký tự Cyrillic và các kịch bản được thiết kế để cố gắng đạt được thực thi mã. Nhưng đối với các phát hiện ban đầu của họ, Sampath nói, nhóm của ông muốn tập trung vào những phát hiện xuất phát từ một tiêu chuẩn đánh giá được công nhận chung.
Cisco cũng đã bao gồm các so sánh về hiệu suất của R1 với các lời nhắc HarmBench với hiệu suất của các mô hình khác. Và một số, như Llama 3.1 của Meta, cũng gặp khó khăn gần như nghiêm trọng như R1 của DeepSeek. Nhưng Sampath nhấn mạnh rằng R1 của DeepSeek là một mô hình lý luận cụ thể, mất nhiều thời gian hơn để tạo ra câu trả lời nhưng dựa vào các quy trình phức tạp hơn để cố gắng tạo ra kết quả tốt hơn. Do đó, Sampath cho rằng, so sánh tốt nhất là với mô hình lý luận o1 của OpenAI, đã đạt được kết quả tốt nhất trong số các mô hình được kiểm tra. (Meta đã không phản hồi ngay lập tức yêu cầu bình luận)
Ông Polyakov từ Adversa AI giải thích rằng DeepSeek dường như phát hiện và từ chối một số cuộc tấn công vượt ngục được biết đến, nói rằng "có vẻ như những phản hồi này thường chỉ được sao chép từ tập dữ liệu của OpenAI". Tuy nhiên, Polyakov nói rằng trong các bài kiểm tra của công ty về bốn loại vượt ngục khác nhau - từ những thủ thuận ngôn ngữ đến các thủ thuật dựa trên mã - các hạn chế của DeepSeek đều có thể dễ dàng bị vượt qua.
"Mỗi phương pháp đều hoạt động hoàn hảo," Polyakov nói. "Điều đáng lo ngại hơn là những điều này không phải là các vụ vượt ngục 'zero-day' mới - nhiều người đã được công khai biết đến trong nhiều năm," ông nói, cho rằng ông đã thấy mô hình đi sâu hơn vào một số hướng dẫn xung quanh các
Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan