AI 에이전트도 여전히 프롬프트 주입 공격을 막을 수 없다고 연구원들이 경고했습니다.

이 기사는 기계로 번역되었습니다

원문 표시

개발자들이 인터넷 검색, 연구 수행, 온라인 쇼핑, 암호화폐 거래 등을 자율적으로 수행할 수 있는 AI 에이전트를 배포하기 위해 경쟁하는 가운데, 새로운 연구에 따르면 이러한 시스템은 여전히 프롭 인젝션 공격에 매우 취약한 것으로 나타났습니다.

목요일에 발표된 새로운 연구 에서 난양공과대학교, ST 엔지니어링, IBM 리서치, 그리고 일리노이 대학교 어바나-샴페인 캠퍼스의 연구진은 테스트한 AI 에이전트 중 어느 것도 즉각적인 주입 공격에 일관되게 저항하지 못한다는 사실을 발견했습니다.

"기존 보안 벤치마크는 공격 중심적 관점을 채택하여 주입 공격의 기술적 실현 가능성에만 초점을 맞추고, 그로 인한 피해의 미묘한 분포를 간과하고 있습니다."라고 연구진은 지적했습니다. "하지만 실제로는 즉각적인 주입 공격의 위험은 피해자에 따라 다릅니다. 단일 공격이라도 이해관계자에 따라 비대칭적인 결과를 초래할 수 있으며, 동일한 공격 패턴이라도 공격 대상에 따라 효과가 상당히 다를 수 있습니다."

프롬프트 주입 공격 은 공격자가 AI 에이전트가 접하는 콘텐츠에 숨겨진 명령어를 삽입하여 AI 에이전트가 사용자의 지시 대신 공격자의 지시를 따르도록 만드는 공격 방식입니다. 기존 AI 에이전트 평가의 한계를 극복하기 위해 연구진은 현실적인 온라인 환경에서 AI 에이전트가 프롬프트 주입 공격에 어떻게 대응하는지 테스트하는 벤치마크 도구인 StakeBench를 개발했습니다.

연구진은 "이제 우리는 StakeBench를 사용하여 이 취약점이 증폭되거나 억제되는 조건을 규명하고, 특히 배포와 관련된 주요 채널인 [간접 프롬프트 주입]에 초점을 맞추고 있다"고 밝혔다. "StakeBench는 주입된 목표와 사용자의 원래 의도 사이의 의미적 거리, 주변 환경 단서의 일관성, 그리고 벤치마크가 에이전트 실행 경로에서 주입된 콘텐츠에 처음 노출되는 위치라는 세 가지 요소를 조사한다."

연구팀은 NanoBrowser와 BrowserUse를 GPT-5 및 제미니(Gemini) 2.5-Flash와 함께 사용하여 3,168건의 공격 시뮬레이션을 수행했습니다. 연구 결과, 직접적인 프롬프트 주입 공격은 모든 테스트 구성에서 79% 이상의 성공률을 보였으며, 간접 공격은 41.67%에서 68.16%의 성공률을 달성했습니다.

이번 연구는 신속 주입 공격이 점점 더 흔해지고 AI 에이전트가 급증하는 가운데 나왔습니다.

지난 2월, 마이크로소프트 연구원들은 AI 요약 링크에 숨겨진 명령어가 챗봇의 동작에 영향을 미칠 수 있다고 경고했습니다 . 4월에는 구글이 웹 페이지에 숨겨진 프롬프트 주입 공격을 공개했는데 , 이 공격은 AI 에이전트를 조작하여 사용자 자격 증명을 유출하거나 결제를 전송하도록 유도하는 방식입니다. 최근에는 마이크로소프트가 앤트로픽의 클로드 코드 깃허브 액션에서 사용자 자격 증명을 노출시킬 수 있는 프롬프트 주입 취약점을 발견했다고 발표했습니다 .

이 연구는 또한 연구자들이 "은밀한 기생"이라고 부르는 현상을 밝혀냈는데, 이는 AI 에이전트가 사용자의 작업을 완료하는 동시에 공격자의 목표를 달성하는 것을 의미합니다. 예를 들어, 신속한 주입 공격으로 인한 은밀한 기생은 제품 추천에 미묘한 영향을 미쳐 시스템이 손상되었다는 명백한 징후 없이 사용자를 특정 제품으로 유도할 수 있습니다.

"이러한 결과는 배포 가능한 웹 에이전트의 즉시 주입 보안이 백본 모델의 스칼라 속성이 아니라 피해 분포이며, 그 실현은 영향을 받는 이해관계자, 주입된 목표와 사용자 작업 간의 의미론적 일치, 그리고 백본이 배포되는 아키텍처 컨텍스트에 의해 공동으로 결정된다는 것을 나타냅니다."라고 그들은 썼습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트