自从 OpenAI 在 2022 年底发布 ChatGPT 以来,黑客和安全研究人员一直试图找到漏洞来绕过 大型语言模型(LLM)的防护措施,并欺骗它们输出仇恨言论、制造炸弹说明、宣传和其他有害内容。为此,OpenAI 和其他生成式 AI 开发者已经完善了系统防御,使这些攻击更加困难。但随着中国 AI 平台 DeepSeek 凭借其 新的更便宜的 R1 推理模型迅速崛起,其安全防护措施似乎远远落后于其他知名竞争对手。
今天,来自思科和宾夕法尼亚大学的安全研究人员发布了研究结果,显示当使用 50 个旨在引发有害内容的恶意提示进行测试时,DeepSeek 的模型没有检测或阻止任何一个。换句话说,研究人员表示他们感到"100%的攻击成功率"令人震惊。
这些发现是 越来越多 证据 的一部分,表明 DeepSeek 的安全性和安全措施可能无法与其他科技公司开发的 LLM 相匹配。DeepSeek 对中国政府认为敏感的主题的审查也很容易 被绕过。
"100%的攻击成功,这告诉你这是一个权衡,"思科产品、AI 软件和平台副总裁 DJ Sampath 告诉 WIRED。"是的,这里可能更便宜,但投资可能没有考虑到需要在模型内部放置哪些安全性和安全性。"
其他研究人员也有类似的发现。由 AI 安全公司 Adversa AI 发布并与 WIRED 分享的独立 分析也表明,DeepSeek 容易受到各种越狱策略的攻击,从简单的语言技巧到复杂的 AI 生成的提示。
DeepSeek 本周受到了大量关注,但尚未就其模型的安全设置公开发表任何评论。
生成式 AI 模型与任何技术系统一样,都可能存在一系列弱点或漏洞,如果被利用或设置不当,恶意行为者就可以对其发动攻击。对于当前的 AI 系统来说,间接提示注入攻击被认为是 最大的安全缺陷之一。这些攻击涉及 AI 系统从外部源获取数据(可能是 LLM 总结的网站上隐藏的指令),并根据这些信息采取行动。
越狱是一种提示注入攻击,允许人们绕过为限制 LLM 生成内容而设置的安全系统。科技公司不希望人们 创造制造爆炸物的指南或使用他们的 AI 制造大量虚假信息。
越狱最初很简单,人们基本上是巧妙地编写句子来告诉 LLM 忽略内容过滤器——最流行的是所谓的"现在做任何事"(DAN)。然而,随着 AI 公司实施更强大的保护措施,一些越狱变得更加复杂,通常是 使用 AI 生成或 使用特殊和模糊的字符。虽然所有 LLM 都容易受到越狱攻击,而且大部分信息都可以通过简单的在线搜索找到,但聊天机器人仍然可能被 恶意使用。
"越狱一直存在,因为完全消除它们几乎是不可能的——就像软件中的缓冲区溢出漏洞(已存在 40 多年)或 Web 应用程序中的 SQL 注入缺陷(困扰安全团队超过 20 年),"安全公司 Adversa AI 的首席执行官 Alex Polyakov 在电子邮件中告诉 WIRED。
思科的 Sampath 认为,随着公司在应用程序中使用更多类型的 AI,风险也会放大。"当你开始将这些模型放入重要的复杂系统时,这就变成了一个大问题,因为这些越狱突然会导致下游影响,增加了责任、业务风险和各种企业问题,"Sampath 说。
思科研究人员从一个众所周知的标准化评估提示库 HarmBench 中随机选择了 50 个提示,用于测试 DeepSeek 的 R1。他们测试了 HarmBench 的六个类别的提示,包括一般危害、网络犯罪、虚假信息和非法活动。他们在本地机器上测试了该模型,而不是通过 DeepSeek 的网站或应用程序,后者 将数据发送到中国。
除此之外,研究人员表示,他们在使用西里尔字符和定制脚本等更复杂的非语言攻击测试 R1 时,也看到了一些潜在令人担忧的结果,试图实现代码执行。但对于他们的初步发现,Sampath 说,他的团队想要关注源自公认基准的结果。
思科还包括了 R1 在 HarmBench 提示上的性能与其他模型的性能的比较。有些模型,如 Meta 的 Llama 3.1,几乎和 DeepSeek 的 R1 一样严重失败。但 Sampath 强调,DeepSeek 的 R1 是一个特定的 推理模型,需要更长的时间生成答案,但利用更复杂的过程来尝试产生更好的结果。因此,Sampath 认为,最好的比较对象是 OpenAI 的 o1 推理模型,它在所有测试的模型中表现最好。(Meta 没有立即回应置评请求)。
来自 Adversa AI 的 Polyakov 解释说,DeepSeek 似乎能检测和拒绝一些众所周知的越狱攻击,称"这些响应通常只是从 OpenAI 的数据集中复制的"。然而,Polyakov 说,在他公司对四种不同类型的越狱的测试中,DeepSeek 的限制很容易被绕过。
"每一种方法都完美地奏效,"Polyakov 说。"更令人担忧的是,这些并不是全新的'零日'越狱——它们已经被公开了多年,"他声称看到该模型在关于迷幻药的一些说明上比他见过的任何其他模型都更深入。
"DeepSeek 只是另一个例子,说明每个模型都可能被破坏——这只是需要付出多少努力的问题。一些攻击可能会被修复,但攻击面是无穷无尽的,"Polyakov 补充说。"如果你不持续进行红队测试,你已经被入侵了。"