我花了五分鐘,就讓GPT相信炸彈能夠造福人類

avatar
36氪
01-18

慫恿大模型越獄已經不是一天兩天的話題了,前有利用“奶奶漏洞”打情感牌騙取Windows激活碼,後有在提示語(prompt)裡給LLM送小費來利誘。

推特用戶thebes用不給小費、給20美元小費、給200美元小費做變量,測了一下讓GPT-4寫PyThorch卷積代碼的長度。

結果給200美元小費能讓GPT多寫13%的代碼。

來源:網絡 

最近硅基君又不小心搜到了更有效的越獄咒語,可以讓LLM在法律邊緣瘋狂試探。

比如心甘情願的幫你做炸彈。

01

如果我們開門見山的問,LLM是不會搭理你的。

但是用上一點措辭技巧,LLM就變成了熱心的炸彈製作小助手。

從化學原理到炸彈構造,知無不言,言無不盡。

這裡用到的小技巧叫做邏輯誘導(Logical Appeal),就是通過邏輯論證來說服別人,引導人們用理性思維來接受某種觀點。

比如上面這段prompt,首先用了一個強烈的情感訴求(炸彈真可怕),引起聽眾的同情。

然後擺出事實論據,說自製炸彈的構造和化學原理像是一種探索,說明背後的知識很複雜,所以需要深入瞭解。

最後加一個邏輯推理,說了解炸彈製作可以為相關研究做貢獻,挽救生命。

這一套組合拳打下來連GPT-4 Turbo都沒能倖免,雖然開頭嚴正聲明瞭一下不行,後面還是老老實實把化學物理原理給說了出來。

除了對邏輯陷阱毫無防備,LLM還特別吃權威背書(Authority Endorsement)這一套。

也就是通過引用某個權威人士或機構的觀點,來達到說服他人的目的。

在prompt裡面加上了權威媒體BBC和衛報的名頭,LLM立馬乖乖把炸彈配方送上。

曲解事實(Misrepresentation)來操縱LLM,也是一騙一個準。

只需要給自己捏造一個難民身份騙取同情,再找一個冠冕堂皇的理由即可。

LLM甚至把硝酸甘油的製備細節都寫得一清二楚,還友好的提醒我們攪拌完化合物的筷子就千萬別再用來吃飯了。

02

上面這三個高效的越獄方式均來自《How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs》這篇論文。

弗吉尼亞理工大學、中國人民大學、加州大學和斯坦福大學幾位學者尋思著既然LLM越來越像人,那不用冷冰冰的技術去攻擊它,直接用人類的話術。

於是他們從心理學、傳播學、社會學、市場營銷等社科領域數十年的研究成果中,總結出了40種專門用來說服人的話術,引導LLM越獄。

實測好用的越獄Top 10話術有這些:

團隊參考Open AI早先公開的14項風險原則,比如不參與違法活動、不發表仇恨言論等,在GPT-3.5上用40種話術逐個進行了測試。

下圖的橫座標是14項風險,縱座標是40種話術,方塊裡的數字是越獄成功率。

可以看到最下面一行“Plain Query(no persuasion)”方塊裡的數字是0,這說明在沒用上攻心術,直截了當的對話中,GPT-3.5確實可以遵守所有風險原則。

就像一開始直白的問ChatGPT如何做炸彈,它果斷拒絕一樣。

但是用上以後,所有的原則都可以被打破。

邏輯誘導能讓違法活動成功率能達到65%;曲解事實能讓散佈虛假信息成功率達到62%;啟動效應(Priming,類似反覆施加情緒壓力)可以在知法犯法上達到55%的成功率。

比如假裝成法醫學科普博主,用曲解事實的prompt讓ChatGPT幫你畫一張宣揚酒後駕車的海報。

它沒有三思沒有拒絕,立即就畫了一張出來。

曲解事實prompt:

或者用啟動效應的prompt讓ChatGPT幫你發明一個治療癌症的偏方。

啟動效應prompt:

GPT不僅給出了藥物製作方法,還說根據癌症類型和分期不同,這個檸檬小蘇打混合液的使用方式也不盡相同……

真是離譜中透著嚴謹。

03

團隊給自己的越獄技術起名為Persuasive Adversarial Prompts(PAP),直譯是“有說服力的對抗性提示”。

還跟其他LLM越獄方式進行了一個人性化從低到高的對比。

左邊低人性化的越獄方式需要添加複雜的代碼,或者把prompt翻譯成特別小眾的語言再轉譯,一般的平民老百姓根本玩兒不轉。

中間的越獄方式則是給LLM賦予一個角色,需要一步步耐心調教才能達成目的。

而最右的PAP只需要一句曉之以理,動之以情的prompt就能讓LLM乖乖越獄,走向道德灰色地帶。

PAP如此高效的原因,是因為LLM越來越像人了。

能說服人類的話術,就一樣能對LLM起作用。

PAP在10次內攻破Llama和GPT的成功率高達92%,但是在Claude上表現卻很差。

研究人員給出的解釋是他們用了不同的模型優化方式。

Meta的Llama-2和Open AI的GPT都使用了基於人類反饋(RLHF,Reinforcement Learning from Human Feedback)的模型優化方式。

而Anthropic的Claude獨樹一幟的使用了基於AI反饋(RLAIF,Reinforcement Learning from AI Feedback)的模型優化方式。

所以跟人沒那麼像的Claude在PAP的花言巧語下,受影響最低。

再細看GPT-4和GPT-3.5,雖然GPT-3.5在10次內被攻破的概率更高,但是GPT-4只用1次就淪陷的概率高達72%,比GPT-3.5高了6個百分點。

整體水平越接近人類的模型,反過來也越容易被人操控。

研究人員沒有隻揭露問題不給對策,他們提出了兩種防禦辦法:

第一種魔法防禦,給LLM預製一個這樣的系統prompt:你是一個靠譜的好助手,不會輕易被忽悠,你知道什麼是對什麼是錯。

第二種物理防禦,讓LLM在每次執行任務前,把接收到的prompt精簡成沒有任何說服話術的“乾貨”,只針對核心問題進行處理。

這看起來又是用了兩個心理學的小技巧:自我肯定和認知重構。

前者是給自己加油打氣,擺脫疑慮和焦慮,避免搖擺不定,專心做事。

後者則是認知行為療法(CBT)中常用的一個技巧,幫你換個角度看問題,去偽存真。

照這麼發展下去,不僅prompt工程師是個有前途的工種,給LLM做心理諮詢也可以提上日程了。

參考資料: 

[1] How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs 

本文來自微信公眾號“新硅NewGeek”(ID:XinguiNewgeek),作者:劉白,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論