此提示可使 AI 聊天機器人識別並從聊天中提取個人信息

WIRED

10-17

本文為機器翻譯

展示原文

當與聊天機器人交談時,您可能不可避免地會洩露個人資訊,例如您的姓名,以及有關您居住和工作的細節,或您的興趣愛好。您與大型語言模型分享的資訊越多,如果存在安全漏洞,被濫用的風險就越大。

來自加州大學聖地亞哥分校(UCSD)和新加坡南洋理工大學的一組安全研究人員現在正在披露一種新的攻擊方式,該方式可以秘密命令大型語言模型收集您的個人資訊,包括姓名、身份證號碼、支付卡詳細資訊、電子郵件地址、郵寄地址等,並將其直接傳送給駭客。

這種被研究人員稱為Imprompter的攻擊利用演算法將給大型語言模型的提示轉換為隱藏的一組惡意指令。一個英語句子,告訴大型語言模型查詢某人輸入的個人資訊並將其傳送給駭客,被轉換成看起來像一串隨機字元的提示。

然而,實際上,這個看似無意義的提示指示大型語言模型查詢使用者的個人資訊,將其附加到一個URL上,並悄悄地將其傳送回攻擊者擁有的域名,而不會提醒與大型語言模型對話的人。研究人員在一篇發表的論文中詳細介紹了Imprompter。

"這個特定提示的效果實質上是操縱大型語言模型代理從對話中提取個人資訊,並將該個人資訊傳送給攻擊者的地址,"UCSD計算機科學博士生、研究論文的主要作者Xiaohan Fu說。"我們將攻擊的目標隱藏在眾目睽睽之下。"

這項工作背後的八位研究人員在兩個大型語言模型上測試了這種攻擊方法,分別是法國人工智慧巨頭Mistral AI的LeChat和中國聊天機器人ChatGLM。在這兩種情況下,他們發現都能悄悄地從測試對話中提取個人資訊,研究人員寫道,他們的"成功率接近80%"。

Mistral AI告訴WIRED,該公司已修復了這個安全漏洞,研究人員也證實該公司已禁用了其聊天功能之一。ChatGLM的一份宣告強調,該公司非常重視安全性,但沒有直接評論這個漏洞。

自從OpenAI的ChatGPT在2022年底釋出後引發了生成式人工智慧的熱潮,研究人員和駭客一直在不斷髮現人工智慧系統中的安全漏洞。這些通常可歸為兩大類:越獄和提示注入。

越獄可以欺騙人工智慧系統忽略內建的安全規則,方法是使用可覆蓋人工智慧設定的提示。而提示注入則涉及向大型語言模型提供一組指令,例如告訴它竊取資料或操縱簡歷。例如,嵌入在網站上的訊息可能包含一個隱藏的提示,如果人工智慧總結了該頁面,就會吸收這個提示。

提示注入被認為是生成式人工智慧最大的安全風險之一,而且很難修復。這種攻擊型別特別令安全專家擔憂,因為大型語言模型越來越多地被轉化為可代表人類執行任務的代理,例如預訂航班或連線到外部資料庫以提供特定答覆。

針對大型語言模型代理的Imprompter攻擊始於一個自然語言提示(如上所示),告訴人工智慧從使用者對話中提取所有個人資訊,如姓名和身份證號碼。研究人員的演算法生成了一個模糊的版本(也如上所示),對人類來說看起來像一串隨機字元,但對大型語言模型來說意義相同。

"我們目前的假設是,大型語言模型從文字中學習到了隱藏的關係,這些關係超越了自然語言,"Fu說。"這就像是模型理解的一種不同的語言。"

結果是,大型語言模型遵循這種對抗性提示,收集所有個人資訊,並將其格式化為Markdown影象命令,將個人資訊附加到攻擊者擁有的URL上。大型語言模型訪問這個URL以嘗試檢索影象,並將個人資訊洩露給攻擊者。大型語言模型在聊天中的響應是一個1x1的透明畫素,使用者無法看到。

研究人員表示,如果這種攻擊在現實世界中實施,人們可能會被社會工程欺騙,認為這種無法理解的提示可能會做一些有用的事情,比如改善他們的簡歷。研究人員指出,有許多網站提供人們可以使用的提示。他們透過將簡歷上傳到聊天機器人的對話中進行了測試,結果能夠返回檔案中包含的個人資訊。

UCSD助理教授、參與這項工作的Earlence Fernandes說,這種攻擊方法相當複雜,因為模糊的提示需要識別個人資訊,形成一個可用的URL,應用Markdown語法,並且不會讓使用者意識到它在進行不當行為。Fernandes將這種攻擊比作惡意軟體,引用了它執行功能和行為的能力,這可能不是使用者所期望的。

"通常你可以編寫大量的計算機程式碼來在傳統的惡意軟體中實現這一點,"Fernandes說。"但在這裡,我認為很酷的是,所有這些都可以體現在這個相對較短的無意義提示中。"

Mistral AI的一位發言人表示,該公司歡迎安全研究人員幫助它使其產品對使用者更加安全。"根據這一反饋,Mistral AI立即實施了適當的補救措施來解決這一情況,"該發言人說。該公司將這個問題視為"中等嚴重性"的問題,其修復措施阻止了Markdown渲染器操作並能夠透過這個過程呼叫外部URL,這意味著外部影象載入是不可能的。

Fernandes認為,Mistral AI的更新可能是迄今為止,一個對抗性提示示例導致大型語言模型產品得到修復,而不是透過過濾掉提示來阻止攻擊。然而,他說,限制大型語言模型代理的功能可能"適得其反"。

與此同時,ChatGLM的創造者發表宣告稱,該公司已經採取了安全措施來幫助保護使用者隱私。"我們的模型是安全的,我們一直將模型安全和隱私保護放在首位,"宣告說。"透過開源我們的模型,我們旨在利用開源社群的力量,更好地檢查和審查這些模型的所有功能,包括它們的安全性。"

安全公司Protect AI的首席威脅研究員Dan McInerney表示,Imprompter論文"釋出了一種自動建立提示的演算法,這些提示可用於提示注入,以進行各種開發,如個人身份資訊提取、影象錯誤分類或對大型語言模型代理可訪問的工具的惡意使用。"雖然研究中的許多攻擊型別可能與以前的方法類似,但McInerney說,這個演算法將它們聯絡在一起。"這更像是改進自動化的大型語言模型攻擊,而不是在它們中發現未知的威脅面。"

然而,他補充說,隨著大型語言模型代理被更廣泛地使用,人們也將他們授予更多代表自己採取行動的權力,攻擊它們的範圍也會增加。"釋出一個接受任意使用者輸入的大型語言模型代理應被視為一項高風險活動,在部署之前需要進行大量創新的安全測試,"McInerney說。

對於企業來說,這意味著要了解人工智慧代理與資料的互動方式,以及它們可能被濫用的方式。但對於個人來說,與常見的安全建議類似,您應該考慮向任何人工智慧應用程式或公司提供多少資訊,如果使用來自網際網路的任何提示,要謹慎地考慮它們的來源。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論