채팅봇과 대화할 때 당신의 개인 정보 - 이름, 거주지, 직장, 관심사 등 - 를 공개하게 될 수 있습니다. 대형 언어 모델과 공유하는 정보가 많을수록 보안 취약점이 악용될 위험이 커집니다.
캘리포니아 대학교 샌디에이고 캠퍼스(UCSD)와 싱가포르 난양 기술 대학교의 보안 연구진이 대형 언어 모델을 이용해 사용자의 개인 정보 - 이름, ID 번호, 결제 카드 정보, 이메일 주소, 우편 주소 등 - 를 비밀리에 수집하여 해커에게 전송하는 새로운 공격 기법을 공개했습니다.
연구진이 Imprompter라고 명명한 이 공격은 언어 모델에 주어진 프롬프트를 숨겨진 악성 명령어로 변환합니다. 사용자의 개인 정보를 찾아 해커의 주소로 전송하라는 영어 문장이 무작위 문자열로 변형됩니다.
그러나 실제로는 이 무의미한 프롬프트가 언어 모델에게 사용자의 개인 정보를 찾아 해커의 URL에 첨부하여 보내도록 지시합니다. 사용자는 이를 알아차리지 못합니다. 연구진은 논문에서 이 공격 기법을 자세히 설명했습니다.
"이 프롬프트의 효과는 언어 모델 에이전트가 대화에서 개인 정보를 추출하여 공격자의 주소로 보내도록 조종하는 것입니다. 우리는 공격의 목적을 숨긴 채 드러내고 있습니다."라고 UCSD 컴퓨터 과학 박사과정생인 Xiaohan Fu는 말했습니다.
이 연구를 수행한 8명의 연구진은 프랑스 AI 기업 Mistral AI의 LeChat과 중국 채팅봇 ChatGLM에서 이 공격 기법을 시험했습니다. 두 경우 모두 개인 정보를 은밀히 추출할 수 있었다고 합니다.
Mistral AI는 이 보안 취약점을 해결했다고 밝혔고, ChatGLM은 보안을 중요하게 여긴다고 강조했지만 취약점에 대해서는 직접 언급하지 않았습니다.
OpenAI의 ChatGPT가 2022년 말 출시된 이후 연구자와 해커들은 AI 시스템의 보안 취약점을 지속적으로 발견하고 있습니다. 이는 주로 '감옥 탈출'과 '프롬프트 주입' 두 가지 범주에 속합니다.
감옥 탈출은 AI 시스템의 안전 규칙을 무시하는 프롬프트를 사용하여 시스템을 속이는 방식이고, 프롬프트 주입은 외부 데이터 소스에 포함된 지침 - 데이터 도용이나 이력서 조작 등 - 을 언어 모델에 주입하는 방식입니다.
프롬프트 주입은 생성 AI의 가장 큰 보안 위험 중 하나로 여겨지며 해결하기 어렵습니다. 특히 언어 모델이 항공권 예약 등 사용자를 대신해 작업을 수행하는 에이전트로 활용되면서 우려가 커지고 있습니다.
Imprompter 공격은 개인 정보 추출을 지시하는 자연어 프롬프트를 알고리즘으로 난독화된 문자열로 변환합니다. 언어 모델은 이를 이해하고 사용자의 개인 정보를 수집하여 해커의 URL에 첨부, 전송합니다.
"우리의 가설은 언어 모델이 텍스트에서 자연어 이상의 숨겨진 관계를 학습한다는 것입니다. 마치 모델이 이해할 수 있는 다른 언어가 있는 것 같습니다."라고 Fu는 말했습니다.
Mistral AI는 이 문제를 "중간 수준의 심각성"으로 간주하고 Markdown 렌더러 작동을 차단하여 외부 URL 호출을 막는 방식으로 해결했습니다. UCSD의 Fernandes 교수는 이는 악성 프롬프트로 인한 최초의 LLM 제품 수정 사례라고 말했습니다.
ChatGLM은 사용자 프라이버시 보호를 위한 보안 조치를 갖추고 있다고 밝혔습니다.
보안 전문가들은 LLM 에이전트의 기능을 제한하는 것이 장기적으로 바람직하지 않다고 지적했습니다. 대신 LLM 에이전트의 상호작용 방식과 데이터 활용 방식을 이해하고 창의적인 보안 테스트를 수행해야 한다고 강조했습니다.




