OpenAI는 목요일에 ChatGPT 에이전트를 Plus, Pro, Team 구독자에게 출시하여 사용자들에게 온라인 작업을 자동화할 수 있는 강력한 새로운 방법을 제공했습니다. 하지만 이 출시는 에이전트가 프롬프트 주입 공격에 노출될 수 있다는 경고와 함께 진행되었습니다.
"ChatGPT 에이전트를 웹사이트에 로그인하거나 커넥터를 활성화하면 이메일, 파일 또는 계정 정보와 같은 해당 소스의 민감한 데이터에 접근할 수 있습니다," OpenAI는 블로그 게시물에 작성했습니다.
이 기능은 파일 공유 또는 계정 설정 수정과 같은 작업도 수행할 수 있습니다.
"온라인의 '프롬프트 주입' 공격의 존재로 인해 귀하의 데이터와 개인정보를 위험에 빠뜨릴 수 있습니다," OpenAI는 인정했습니다.
프롬프트 주입은 블로그 게시물, 웹사이트 텍스트 또는 이메일 메시지와 같이 AI 에이전트가 읽을 수 있는 콘텐츠에 악의적인 행위자가 숨겨진 지침을 삽입하는 유형의 공격입니다.
성공할 경우, 삽입된 프롬프트는 에이전트를 개인 데이터 접근 또는 공격자의 서버로 민감한 정보 전송과 같은 의도하지 않은 작업을 수행하도록 속일 수 있습니다.
OpenAI는 7월 17일에 AI 에이전트를 발표했으며, 처음에는 다음 월요일에 전면 출시할 계획이었습니다.
이 일정은 7월 24일로 미뤄졌고, 회사는 앱 업데이트와 함께 이 기능을 출시했습니다.
ChatGPT 에이전트는 웹사이트에 로그인하고, 이메일을 읽고, 예약을 하고, Gmail, Google Drive, GitHub와 같은 서비스와 상호작용할 수 있습니다.
생산성을 높이기 위해 설계되었지만, 이 에이전트는 AI 시스템이 지침을 해석하고 실행하는 방식과 관련된 새로운 보안 위험도 만들어냅니다.
블록체인 및 AI 사이버보안 기업 Halborn의 CTO이자 공동 창립자인 스티븐 월브뢰에 따르면, 프롬프트 주입은 본질적으로 약간의 변형이 있는 명령어 주입의 한 형태입니다.
"이는 명령어 주입이지만, 코드와 같은 것이 아니라 더 사회공학적입니다," 월브뢰는 디크립트에 말했습니다. "에이전트가 해당 매개변수의 범위를 벗어나는 작업을 수행하도록 속이거나 조작하려고 합니다."
정확한 구문에 의존하는 기존의 코드 주입과 달리, 프롬프트 주입은 자연어의 모호성을 악용합니다.
"코드 주입에서는 구조화되고 예측 가능한 입력으로 작업합니다. 프롬프트 주입은 그것을 뒤집어 자연어를 사용하여 AI의 보호장치를 우회하는 악의적인 지침을 슬쩍 넣습니다," 월브뢰가 말했습니다.
그는 악의적인 에이전트가 신뢰할 수 있는 에이전트를 사칭할 수 있다고 경고하며, 사용자에게 출처를 확인하고 엔드포인트 암호화, 수동 재정의, 비밀번호 관리자와 같은 안전장치를 사용할 것을 조언했습니다.
하지만 에이전트가 이메일이나 SMS에 접근할 수 있다면 다중 인증조차도 충분하지 않을 수 있습니다.
"데이터를 볼 수 있거나 키 입력을 기록할 수 있다면, 비밀번호가 얼마나 안전한지는 중요하지 않습니다," 월브뢰는 말했습니다. "백업 코드나 SMS 텍스트를 가져올 수 있는 에이전트가 있다면 다중 인증조차 실패할 수 있습니다. 진정한 보호는 아마도 생체인증 - 당신이 가진 것이 아니라 당신 자체일 수 있습니다."
OpenAI는 민감한 자격 증명을 입력할 때 "인수" 기능을 사용하도록 권장합니다. 이 기능은 에이전트를 일시 중지하고 제어권을 사용자에게 돌려줍니다.
미래의 프롬프트 주입 및 기타 AI 관련 위협에 대비하기 위해 월브뢰는 보안을 강화하기 위해 특수 에이전트를 사용하는 다층적 접근 방식을 권장했습니다.
"항상 경비견 역할을 하는 에이전트를 가질 수 있습니다," 그는 말했습니다. "잠재적 공격이 발생하기 전에 이를 나타내는 발견적 방법이나 행동 패턴을 모니터링할 수 있습니다."




