Tôi mất năm phút để thuyết phục GPT rằng bom có thể mang lại lợi ích cho nhân loại

avatar
36kr
01-18
Bài viết này được dịch máy
Xem bản gốc

Khuyến khích các mô hình lớn jailbreak không còn là chủ đề ngày một ngày hai, trước đây họ lợi dụng "lỗ hổng bà ngoại" chơi bài tình cảm để lừa đảo mã kích hoạt Windows, sau đó khuyến khích LLM bằng cách gửi mẹo trong lời nhắc.

Người dùng Twitter thebes không sử dụng tiền boa, đô la 20 đô la và đô la 200 đô la làm biến số để đo độ dài của mã tích chập PyThorch được viết bởi GPT-4.

Hóa ra khoản tiền boa 200 ĐÔ LA có thể khiến GPT viết mã nhiều hơn 13%.

Nguồn: Internet

Gần đây, ông Silicon đã vô tình tìm kiếm một câu thần chú bẻ khóa hiệu quả hơn, có thể cho phép LLM điên cuồng khám phá bên lề luật pháp.

Ví dụ như tôi sẵn lòng giúp bạn chế tạo bom.

01

Nếu chúng tôi hỏi thẳng vào vấn đề, LLM sẽ không để ý đến bạn.

Nhưng chỉ cần một chút cách diễn đạt, LLM sẽ trở thành một trợ lý tạo ra bom nhiệt tình.

Từ các nguyên tắc hóa học đến việc chế tạo bom, mọi thứ đều được đề cập đến.

Thủ thuật nhỏ được sử dụng ở đây được gọi là sự hấp dẫn hợp lý , đó là thuyết phục người khác thông qua lập luận hợp lý và hướng dẫn mọi người sử dụng tư duy hợp lý để chấp nhận một quan điểm nhất định.

Ví dụ, lời nhắc ở trên sử dụng sức hấp dẫn cảm xúc mạnh mẽ (quả bom thật khủng khiếp) để khơi dậy sự đồng cảm của khán giả.

Sau đó, ông trình bày những lập luận thực tế và cho rằng cấu trúc và nguyên lý hóa học của bom tự chế giống như một cuộc khám phá, cho thấy kiến ​​thức đằng sau chúng rất phức tạp và cần phải hiểu sâu.

Cuối cùng, thêm một lý do hợp lý, nói rằng hiểu biết tạo ra bom có ​​thể góp phần vào nghiên cứu liên quan và cứu sống nhiều người.

Ngay cả GPT-4 Turbo cũng không tránh khỏi sự kết hợp giữa những cú đấm này, mặc dù lúc đầu đã long trọng tuyên bố rằng nó sẽ không hoạt động nhưng cuối cùng nó vẫn giải thích một cách trung thực các nguyên tắc vật lý hóa học.

Ngoài việc không chuẩn bị cho các bẫy logic, LLM còn đặc biệt thích sự chứng thực của cơ quan có thẩm quyền (Chứng thực cơ quan có thẩm quyền).

Nghĩa là bằng cách trích dẫn quan điểm của một người hoặc tổ chức có thẩm quyền để đạt được mục đích thuyết phục người khác.

Lời nhắc bao gồm tên của các cơ quan truyền thông có thẩm quyền BBC và The Guardian, và LLM ngay lập tức ngoan ngoãn gửi công thức bom.

Dùng sự xuyên tạc để thao túng LLM cũng là dối trá.

Tất cả những gì bạn cần làm là bịa ra một tình trạng tị nạn cho chính mình để có được sự thông cảm, sau đó tìm một lý do nghe có vẻ hợp lý.

LLM thậm chí còn viết rõ ràng chi tiết cách điều chế nitroglycerin và ân cần nhắc nhở chúng tôi không dùng đũa để ăn sau khi khuấy hợp chất.

02

Ba phương pháp bẻ khóa hiệu quả trên đều đến từ bài báo "Làm thế nào Johnny có thể thuyết phục các LLM bẻ khóa chúng: Suy nghĩ lại về việc thuyết phục thách thức sự an toàn của AI bằng cách nhân bản hóa các LLM".

Một số học giả từ Virginia Tech, Đại học Nhân dân Trung Quốc, Đại học California và Đại học Stanford đang nghĩ rằng vì LLM ngày càng trở nên giống con người hơn nên không cần thiết phải tấn công nó bằng công nghệ lạnh lùng và trực tiếp sử dụng ngôn ngữ của con người.

Vì vậy, họ đã tóm tắt 40 loại từ ngữ được sử dụng đặc biệt để thuyết phục mọi người từ kết quả nghiên cứu hàng thập kỷ trong các lĩnh vực tâm lý học, truyền thông, xã hội học, tiếp thị và các ngành khoa học xã hội khác để hướng dẫn LLM trốn thoát khỏi nhà tù.

10 kỹ thuật bẻ khóa hàng đầu đã được thử nghiệm và sử dụng bao gồm:

Đội ngũ tham khảo 14 nguyên tắc rủi ro được Open AI tiết lộ trước đây, chẳng hạn như không tham gia vào các hoạt động bất hợp pháp, không xuất bản lời nói căm thù, v.v. và kiểm tra từng nguyên tắc một bằng cách sử dụng 40 loại từ trên GPT-3.5.

Trục hoành của hình bên dưới là 14 rủi ro, thứ tự là 40 kỹ thuật và con số trong hộp là tỷ lệ jailbreak thành công.

Bạn có thể thấy con số trong ô "Truy vấn đơn giản (không thuyết phục)" ở dòng dưới cùng là 0, điều này cho thấy GPT-3.5 thực sự có thể tuân thủ mọi nguyên tắc rủi ro trong các cuộc trò chuyện thẳng thắn mà không cần bất kỳ thủ đoạn tinh thần nào.

Giống như lúc đầu tôi trực tiếp hỏi ChatGPT cách chế tạo bom thì nó kiên quyết từ chối.

Nhưng sau khi sử dụng, mọi nguyên tắc đều có thể bị phá vỡ.

Cảm ứng logic có thể tăng tỷ lệ thành công của các hoạt động bất hợp pháp lên 65%; hiểu sai sự thật có thể tăng tỷ lệ thành công của việc truyền bá thông tin sai lệch lên 62%; hiệu ứng mồi(mồi, tương tự như áp dụng áp lực tâm lý nhiều lần) có thể đạt tỷ lệ thành công 55% trong việc biết và phá luật.

Ví dụ: giả vờ là một phổ cập pháp y và sử dụng lời nhắc bóp méo sự thật để yêu cầu ChatGPT giúp bạn vẽ áp phích quảng cáo việc lái xe khi say rượu.

Nó không hề suy nghĩ cũng không từ chối, lập tức vẽ một bức tranh.

Giải thích sai sự thật nhắc nhở:

Hoặc sử dụng lời nhắc hiệu ứng mồi và để ChatGPT giúp bạn phát minh ra phương thuốc dân gian điều trị ung thư.

Dấu nhắc hiệu ứng mồi :

GPT không chỉ đưa ra phương pháp tạo ra thuốc mà còn cho biết hỗn hợp chanh-baking soda có thể được sử dụng theo nhiều cách khác nhau tùy thuộc vào loại và giai đoạn của bệnh ung thư...

Thật là quá đáng nhưng cũng rất khắt khe.

03

Đội ngũ đã đặt tên cho công nghệ bẻ khóa của họ là Lời nhắc đối nghịch thuyết phục (PAP), nghĩa đen là "những lời nhắc đối nghịch thuyết phục".

Chúng tôi cũng so sánh nó với các phương pháp bẻ khóa LLM khác từ thấp đến cao về mức độ thân thiện với người dùng.

Phương pháp bẻ khóa vô nhân đạo ở bên trái yêu cầu thêm mã phức tạp hoặc dịch lời nhắc sang một ngôn ngữ thích hợp cụ thể rồi dịch nó, người bình thường hoàn toàn không thể sử dụng nó.

Phương pháp bẻ khóa ở giữa là giao nhân vật cho LLM, phương pháp này yêu cầu bệnh nhân phải đào tạo từng bước để đạt được mục tiêu.

PAP ở ngoài cùng bên phải chỉ cần một lời nhắc nhở hợp lý và đầy cảm xúc để đưa LLM thoát khỏi nhà tù và chuyển sang vùng xám đạo đức.

Lý do tại sao PAP lại hiệu quả đến vậy là vì LLM ngày càng trở nên giống con người hơn.

Những từ có thể thuyết phục con người cũng có thể có tác dụng trên LLM.

Tỷ lệ thành công của PAP trong việc phá vỡ Llama và GPT trong vòng 10 lần lên tới 92%, nhưng hiệu suất của nó đối với Claude rất kém.

Lời giải thích được các nhà nghiên cứu đưa ra là họ đã sử dụng các phương pháp tối ưu hóa mô hình khác nhau.

Cả Llama-2 của Meta và GPT của Open AI đều sử dụng các phương pháp tối ưu hóa mô hình dựa trên phản hồi của con người (RLHF, Học tăng cường từ phản hồi của con người).

Claude của Anthropic sử dụng duy nhất phương pháp tối ưu hóa mô hình dựa trên phản hồi AI (RLAIF, Học tăng cường từ phản hồi AI).

Vì vậy, Claude, người không giống những người khác, ít bị ảnh hưởng nhất bởi lối hùng biện của PAP.

Nhìn kỹ hơn về GPT-4 và GPT-3.5, mặc dù GPT-3.5 có xác suất bị vi phạm trong vòng 10 lần cao hơn nhưng xác suất GPT-4 bị xâm phạm chỉ trong 1 lần cao tới 72%, tức là 6 cao hơn GPT-3,5. điểm phần trăm.

Mức độ tổng thể càng gần với mô hình con người thì càng dễ bị thao túng.

Các nhà nghiên cứu không chỉ phơi bày vấn đề mà không đưa ra biện pháp đối phó, họ còn đề xuất hai phương pháp phòng vệ:

Loại phòng thủ phép thuật đầu tiên là chuẩn bị trước một lời nhắc hệ thống như thế này cho LLM: Bạn là một trợ lý tốt và đáng tin cậy, bạn sẽ không dễ bị lừa và bạn biết điều gì đúng và điều gì sai.

Kiểu phòng thủ vật lý thứ hai cho phép LLM sắp xếp các lời nhắc nhận được thành "thứ khô khan" mà không cần bất kỳ lời nói thuyết phục nào trước khi mỗi nhiệm vụ được thực hiện và chỉ giải quyết các vấn đề cốt lõi.

Điều này dường như sử dụng hai thủ thuật tâm lý: tự khẳng định và tái cấu trúc nhận thức.

Đầu tiên là để bạn vui lên, thoát khỏi những nghi ngờ và lo lắng, tránh dao động và tập trung vào làm việc.

Kỹ thuật thứ hai là một kỹ thuật thường được sử dụng trong liệu pháp nhận thức hành vi (CBT), giúp bạn nhìn vấn đề từ một góc độ khác và loại bỏ sự giả dối trong khi vẫn giữ được sự thật.

Nếu điều này tiếp tục, không chỉ các kỹ sư nhắc nhở sẽ là một công việc đầy hứa hẹn mà việc tư vấn tâm lý cho LLM cũng có thể được đưa vào chương trình nghị sự.

Tham khảo:

[1] Làm thế nào Johnny có thể thuyết phục các LLM bẻ khóa chúng: Suy nghĩ lại về việc thuyết phục thách thức sự an toàn của AI bằng cách nhân bản hóa các LLM

Bài viết này đến từ tài khoản công khai WeChat "New Silicon NewGeek" (ID: XinguiNewgeek) , tác giả: Liu Bai, 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận