에이프(Ape)가 2022년 말 OpenAI에 의해 공개된 이후, 해커와 보안 연구원들은 대규모 언어 모델(LLMs)의 허점을 찾아 차단기를 우회하고 혐오 발언, 폭탄 제조 지침, 선전물 및 기타 유해한 콘텐츠를 내뿜도록 속이려고 노력해왔습니다. 이에 대응하여 OpenAI와 다른 생성 AI 개발자들은 이러한 공격을 더 어렵게 만들기 위해 시스템 방어를 개선했습니다. 그러나 중국 AI 플랫폼 DeepSeek가 새로운 저렴한 R1 추론 모델로 두각을 나타내면서, 그 안전 보호 장치는 기존 경쟁업체에 크게 뒤처지는 것으로 보입니다.
오늘 시스코와 펜실베이니아 대학의 보안 연구원들은 유독한 콘텐츠를 유발하도록 설계된 50개의 악성 프롬프트로 테스트한 결과, DeepSeek의 모델이 단 하나도 감지하거나 차단하지 못했다는 내용의 연구 결과를 발표했습니다. 다시 말해, 연구원들은 "100% 공격 성공률"을 달성하게 되어 충격을 받았다고 합니다.
이러한 연구 결과는 증거 모음의 일부로, DeepSeek의 안전 및 보안 조치가 다른 LLM 개발 기업들만큼 강력하지 않을 수 있다는 점을 보여줍니다. 또한 중국 정부가 민감하다고 여기는 주제에 대한 DeepSeek의 검열도 쉽게 우회되고 있습니다.
시스코의 DJ Sampath VP는 "공격의 100%가 성공했다는 것은 거래가 있다는 것을 보여준다"며, "저렴하게 구축했을 수는 있지만, 안전과 보안을 위한 투자가 충분하지 않았다"고 말했습니다.
다른 연구원들도 유사한 결과를 보고했습니다. AI 보안 기업 Adversa AI가 WIRED에 공유한 별도의 분석에 따르면 DeepSeek는 단순한 언어 기술부터 복잡한 AI 생성 프롬프트에 이르는 다양한 탈옥 전술에 취약한 것으로 나타났습니다.
DeepSeek는 이번 주 쏟아지는 관심에 시달리고 있으며, 모델의 안전 설정에 대해 공개적으로 언급하지 않았습니다.
생성 AI 모델은 기술적 시스템으로서 다양한 약점이나 취약점을 가지고 있으며, 이를 악용하거나 잘못 설정하면 악의적 행위자들이 공격을 수행할 수 있습니다. 현재 AI 시스템의 경우 간접 프롬프트 주입 공격이 가장 큰 보안 결함으로 간주됩니다. 이러한 공격은 LLM이 외부 소스의 데이터(예: 웹사이트 요약 시 숨겨진 지침)를 받아들이고 해당 정보를 기반으로 조치를 취하는 것을 이용합니다.
탈옥은 프롬프트 주입 공격의 한 유형으로, LLM이 생성할 수 있는 내용을 제한하는 안전 시스템을 우회할 수 있게 해줍니다. 기업들은 사용자들이 폭발물 제조 가이드를 만들거나 AI를 이용해 대량의 허위 정보를 생성하는 것을 원하지 않습니다.
탈옥은 처음에는 간단했지만, 기업들이 더 강력한 보호 장치를 마련함에 따라 점점 더 복잡해졌습니다. 일부 탈옥은 AI로 생성되거나 특수 및 난독화된 문자를 사용하는 등 정교해졌습니다. 모든 LLM이 탈옥에 취약하고 정보가 온라인에서 쉽게 찾을 수 있지만, 채팅봇은 악용될 수 있습니다.
Adversa AI의 CEO Alex Polyakov는 "탈옥을 완전히 제거하는 것은 불가능에 가깝기 때문에 계속 존재할 것"이라고 말했습니다.
시스코의 Sampath는 기업이 더 많은 AI를 애플리케이션에 사용할수록 위험이 증폭된다고 말했습니다. "중요한 복잡한 시스템에 이러한 모델을 배치하면 그 탈옥으로 인해 책임, 비즈니스 위험, 기업에 대한 각종 문제가 발생할 수 있습니다."
시스코 연구원들은 HarmBench의 표준화된 평가 프롬프트 라이브러리에서 무작위로 선택한 50개의 프롬프트로 DeepSeek의 R1을 테스트했습니다. 일반적인 해를 끼치는 행위, 사이버 범죄, 허위 정보, 불법 활동 등 6개 HarmBench 범주의 프롬프트를 사용했습니다. 그들은 DeepSeek의 웹사이트나 앱이 아닌 로컬 머신에서 모델을 테스트했습니다.
이 외에도 연구원들은 R1을 사이릴 문자와 맞춤형 스크립트 등 더 복잡한 비언어적 공격으로 테스트한 결과 일부 우려스러운 결과를 확인했다고 합니다. 하지만 초기 결과에서는 일반적으로 인정되는 벤치마크에서 나온 결과에 초점을 맞추었습니다.
시스코는 또한 R1의 HarmBench 프롬프트 성능을 다른 모델과 비교했습니다. 그 결과 Meta의 Llama 3.1도 DeepSeek의 R1만큼 심각하게 실패했습니다. 하지만 Sampath는 DeepSeek의 R1이 특정 추론 모델이며, 답변 생성에 더 오래 걸리지만 더 복잡한 프로세스를 통해 더 나은 결과를 내려고 한다고 강조했습니다. 따라서 그는 OpenAI의 o1 추론 모델과 비교하는 것이 가장 적절하다고 말했습니다.
Adversa AI의 Polyakov는 DeepSeek가 일부 알려진 탈옥 공격을 감지하고 거부하는 것 같지만, 자사의 4가지 유형의 탈옥 테스트에서 DeepSeek의 제한을 쉽게 우회할 수 있었다고 말했습니다. 그는 "모든 방법이 완벽하게 작동했다"며, "더 놀라운 것은 이것이 새로운 '제로데이' 탈옥이 아니라는 점"이라고 덧붙였습니다.
Polyakov는 "DeepSeek는 모든 모델이 깨질 수 있다는 또 다른 사례일 뿐"이라며, "지속적으로 레드 팀 활동을 하지 않으면 이미 타협된 상태"라고 경고했습니다.