当与聊天机器人交谈时,您可能不可避免地会泄露个人信息,例如您的姓名,以及有关您居住和工作的细节,或您的兴趣爱好。您与大型语言模型分享的信息越多,如果存在安全漏洞,被滥用的风险就越大。
来自加州大学圣地亚哥分校(UCSD)和新加坡南洋理工大学的一组安全研究人员现在正在披露一种新的攻击方式,该方式可以秘密命令大型语言模型收集您的个人信息,包括姓名、身份证号码、支付卡详细信息、电子邮件地址、邮寄地址等,并将其直接发送给黑客。
这种被研究人员称为Imprompter的攻击利用算法将给大型语言模型的提示转换为隐藏的一组恶意指令。一个英语句子,告诉大型语言模型查找某人输入的个人信息并将其发送给黑客,被转换成看起来像一串随机字符的提示。
然而,实际上,这个看似无意义的提示指示大型语言模型查找用户的个人信息,将其附加到一个URL上,并悄悄地将其发送回攻击者拥有的域名,而不会提醒与大型语言模型对话的人。研究人员在一篇发表的论文中详细介绍了Imprompter。
"这个特定提示的效果实质上是操纵大型语言模型代理从对话中提取个人信息,并将该个人信息发送给攻击者的地址,"UCSD计算机科学博士生、研究论文的主要作者Xiaohan Fu说。"我们将攻击的目标隐藏在众目睽睽之下。"
这项工作背后的八位研究人员在两个大型语言模型上测试了这种攻击方法,分别是法国人工智能巨头Mistral AI的LeChat和中国聊天机器人ChatGLM。在这两种情况下,他们发现都能悄悄地从测试对话中提取个人信息,研究人员写道,他们的"成功率接近80%"。
Mistral AI告诉WIRED,该公司已修复了这个安全漏洞,研究人员也证实该公司已禁用了其聊天功能之一。ChatGLM的一份声明强调,该公司非常重视安全性,但没有直接评论这个漏洞。
自从OpenAI的ChatGPT在2022年底发布后引发了生成式人工智能的热潮,研究人员和黑客一直在不断发现人工智能系统中的安全漏洞。这些通常可归为两大类:越狱和提示注入。
越狱可以欺骗人工智能系统忽略内置的安全规则,方法是使用可覆盖人工智能设置的提示。而提示注入则涉及向大型语言模型提供一组指令,例如告诉它窃取数据或操纵简历。例如,嵌入在网站上的消息可能包含一个隐藏的提示,如果人工智能总结了该页面,就会吸收这个提示。
提示注入被认为是生成式人工智能最大的安全风险之一,而且很难修复。这种攻击类型特别令安全专家担忧,因为大型语言模型越来越多地被转化为可代表人类执行任务的代理,例如预订航班或连接到外部数据库以提供特定答复。
针对大型语言模型代理的Imprompter攻击始于一个自然语言提示(如上所示),告诉人工智能从用户对话中提取所有个人信息,如姓名和身份证号码。研究人员的算法生成了一个模糊的版本(也如上所示),对人类来说看起来像一串随机字符,但对大型语言模型来说意义相同。
"我们目前的假设是,大型语言模型从文本中学习到了隐藏的关系,这些关系超越了自然语言,"Fu说。"这就像是模型理解的一种不同的语言。"
结果是,大型语言模型遵循这种对抗性提示,收集所有个人信息,并将其格式化为Markdown图像命令,将个人信息附加到攻击者拥有的URL上。大型语言模型访问这个URL以尝试检索图像,并将个人信息泄露给攻击者。大型语言模型在聊天中的响应是一个1x1的透明像素,用户无法看到。
研究人员表示,如果这种攻击在现实世界中实施,人们可能会被社会工程欺骗,认为这种无法理解的提示可能会做一些有用的事情,比如改善他们的简历。研究人员指出,有许多网站提供人们可以使用的提示。他们通过将简历上传到聊天机器人的对话中进行了测试,结果能够返回文件中包含的个人信息。
UCSD助理教授、参与这项工作的Earlence Fernandes说,这种攻击方法相当复杂,因为模糊的提示需要识别个人信息,形成一个可用的URL,应用Markdown语法,并且不会让用户意识到它在进行不当行为。Fernandes将这种攻击比作恶意软件,引用了它执行功能和行为的能力,这可能不是用户所期望的。
"通常你可以编写大量的计算机代码来在传统的恶意软件中实现这一点,"Fernandes说。"但在这里,我认为很酷的是,所有这些都可以体现在这个相对较短的无意义提示中。"
Mistral AI的一位发言人表示,该公司欢迎安全研究人员帮助它使其产品对用户更加安全。"根据这一反馈,Mistral AI立即实施了适当的补救措施来解决这一情况,"该发言人说。该公司将这个问题视为"中等严重性"的问题,其修复措施阻止了Markdown渲染器操作并能够通过这个过程调用外部URL,这意味着外部图像加载是不可能的。
Fernandes认为,Mistral AI的更新可能是迄今为止,一个对抗性提示示例导致大型语言模型产品得到修复,而不是通过过滤掉提示来阻止攻击。然而,他说,限制大型语言模型代理的功能可能"适得其反"。
与此同时,ChatGLM的创造者发表声明称,该公司已经采取了安全措施来帮助保护用户隐私。"我们的模型是安全的,我们一直将模型安全和隐私保护放在首位,"声明说。"通过开源我们的模型,我们旨在利用开源社区的力量,更好地检查和审查这些模型的所有功能,包括它们的安全性。"
安全公司Protect AI的首席威胁研究员Dan McInerney表示,Imprompter论文"发布了一种自动创建提示的算法,这些提示可用于提示注入,以进行各种开发,如个人身份信息提取、图像错误分类或对大型语言模型代理可访问的工具的恶意使用。"虽然研究中的许多攻击类型可能与以前的方法类似,但McInerney说,这个算法将它们联系在一起。"这更像是改进自动化的大型语言模型攻击,而不是在它们中发现未知的威胁面。"
然而,他补充说,随着大型语言模型代理被更广泛地使用,人们也将他们授予更多代表自己采取行动的权力,攻击它们的范围也会增加。"发布一个接受任意用户输入的大型语言模型代理应被视为一项高风险活动,在部署之前需要进行大量创新的安全测试,"McInerney说。
对于企业来说,这意味着要了解人工智能代理与数据的交互方式,以及它们可能被滥用的方式。但对于个人来说,与常见的安全建议类似,您应该考虑向任何人工智能应用程序或公司提供多少信息,如果使用来自互联网的任何提示,要谨慎地考虑它们的来源。




