研究人員警告:人工智能代理仍然無法阻止即時注入攻擊

本文為機器翻譯
展示原文

隨著開發者競相部署能夠自主瀏覽互聯網、進行研究、網上購物和交易加密貨幣的人工智能代理,新的研究表明,這些系統仍然極易受到提示注入攻擊。

週四發表的一項新研究中,來自南洋理工大學、新加坡科技工程公司、IBM 研究院和伊利諾伊大學厄巴納-香檳分校的研究人員發現,他們測試的所有人工智能代理都未能始終如一地抵禦即時注入攻擊。

研究人員寫道:“現有的安全基準測試採用以攻擊為中心的視角,側重於注入的技術可行性,而忽略了由此造成的危害的細微分佈。然而,在實踐中,即時注入的風險取決於受害者:一次攻擊可能對不同的利益相關者造成不對稱的後果,同樣的攻擊模式對不同目標群體的影響可能截然不同。”

當攻擊者在人工智能代理遇到的內容中嵌入隱藏指令時,就會發生提示注入攻擊,導致人工智能代理執行攻擊者的指令而非用戶的指令。為了彌補現有人工智能代理評估方法的不足,研究人員開發了 StakeBench,這是一個基準測試工具,用於測試人工智能代理在真實的在線環境中如何應對提示注入攻擊。

研究人員寫道:“我們現在使用 StakeBench 來描述這種漏洞被放大或抑制的條件,重點關注[間接提示注入]這一與部署相關的主要渠道。StakeBench 會探測三個這樣的因素:注入的目標與用戶原始意圖之間的語義距離、周圍環境線索的一致性,以及基準測試首次將注入內容暴露給代理時,代理在執行軌跡上的位置。”

研究團隊使用 NanoBrowser 和 BrowserUse 結合 GPT-5 和Gemini 2.5-Flash 進行了 3168 次攻擊模擬。研究人員發現,在所有測試配置中,直接提示符注入攻擊的成功率超過 79%,而間接攻擊的成功率在 41.67% 到 68.16% 之間。

隨著即時注入攻擊日益普遍和人工智能代理的激增,這項研究應運而生。

今年2月,微軟研究人員警告稱,嵌入在人工智能摘要鏈接中的隱藏指令可能會影響聊天機器人的行為。4月,谷歌記錄了隱藏在網頁中的提示注入攻擊,這些攻擊試圖操縱人工智能代理洩露憑證或發送付款。最近,微軟披露了Anthropic公司Claude Code GitHub Action中的一個提示注入漏洞,該漏洞可能導致用戶憑證洩露。

該研究還發現了一種研究人員稱之為“隱蔽寄生”的現象,即人工智能代理在完成用戶任務的同時,也在推進攻擊者的目標。例如,由快速注入攻擊引起的隱蔽寄生可以巧妙地影響產品推薦,引導用戶選擇特定商品,而用戶卻不會察覺到系統已被入侵。

他們寫道:“這些結果表明,可部署 Web 代理中的即時注入安全性不是骨幹模型的標量屬性,而是一種危害分佈,其實現由受影響的利益相關者、注入目標與用戶任務之間的語義一致性以及骨幹部署的架構環境共同決定。”

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論