随着开发者竞相部署能够自主浏览互联网、进行研究、网上购物和交易加密货币的人工智能代理,新的研究表明,这些系统仍然极易受到提示注入攻击。
周四发表的一项新研究中,来自南洋理工大学、新加坡科技工程公司、IBM 研究院和伊利诺伊大学厄巴纳-香槟分校的研究人员发现,他们测试的所有人工智能代理都未能始终如一地抵御即时注入攻击。
研究人员写道:“现有的安全基准测试采用以攻击为中心的视角,侧重于注入的技术可行性,而忽略了由此造成的危害的细微分布。然而,在实践中,即时注入的风险取决于受害者:一次攻击可能对不同的利益相关者造成不对称的后果,同样的攻击模式对不同目标群体的影响可能截然不同。”
当攻击者在人工智能代理遇到的内容中嵌入隐藏指令时,就会发生提示注入攻击,导致人工智能代理执行攻击者的指令而非用户的指令。为了弥补现有人工智能代理评估方法的不足,研究人员开发了 StakeBench,这是一个基准测试工具,用于测试人工智能代理在真实的在线环境中如何应对提示注入攻击。
研究人员写道:“我们现在使用 StakeBench 来描述这种漏洞被放大或抑制的条件,重点关注[间接提示注入]这一与部署相关的主要渠道。StakeBench 会探测三个这样的因素:注入的目标与用户原始意图之间的语义距离、周围环境线索的一致性,以及基准测试首次将注入内容暴露给代理时,代理在执行轨迹上的位置。”
研究团队使用 NanoBrowser 和 BrowserUse 结合 GPT-5 和Gemini 2.5-Flash 进行了 3168 次攻击模拟。研究人员发现,在所有测试配置中,直接提示符注入攻击的成功率超过 79%,而间接攻击的成功率在 41.67% 到 68.16% 之间。
随着即时注入攻击日益普遍和人工智能代理的激增,这项研究应运而生。
今年2月,微软研究人员警告称,嵌入在人工智能摘要链接中的隐藏指令可能会影响聊天机器人的行为。4月,谷歌记录了隐藏在网页中的提示注入攻击,这些攻击试图操纵人工智能代理泄露凭证或发送付款。最近,微软披露了Anthropic公司Claude Code GitHub Action中的一个提示注入漏洞,该漏洞可能导致用户凭证泄露。
该研究还发现了一种研究人员称之为“隐蔽寄生”的现象,即人工智能代理在完成用户任务的同时,也在推进攻击者的目标。例如,由快速注入攻击引起的隐蔽寄生可以巧妙地影响产品推荐,引导用户选择特定商品,而用户却不会察觉到系统已被入侵。
他们写道:“这些结果表明,可部署 Web 代理中的即时注入安全性不是骨干模型的标量属性,而是一种危害分布,其实现由受影响的利益相关者、注入目标与用户任务之间的语义一致性以及骨干部署的架构环境共同决定。”




