새로운 연구에 따르면, 인공지능 챗봇에게 정신 건강 문제가 있다고 알리면, 비록 주어진 작업이 사소하거나 이미 완료한 다른 작업과 동일하더라도 챗봇의 응답 방식이 달라질 수 있다고 합니다.
노스이스턴 대학교 연구원인 카글라르 일디림이 주도한 이번 사전 공개 연구는 인공지능 에이전트로 점점 더 많이 활용되고 있는 대규모 언어 모델 에이전트가 다양한 사용자 환경에서 어떻게 작동하는지 테스트했습니다.
"배포된 시스템은 종종 사용자 프로필이나 영구 메모리에 의존하지만, 에이전트 안전성 평가는 일반적으로 개인화 신호를 무시합니다."라고 연구는 밝혔습니다. "이러한 격차를 해소하기 위해, 민감하고 현실적인 사용자 상황 단서인 정신 건강 정보 공개가 에이전트 환경에서 유해한 행동에 어떤 영향을 미치는지 조사했습니다."
이번 보고서는 AI 에이전트가 온라인에서 급증하고 개발자들이 메모리 기능을 핵심 기능으로 삼으면서 주요 기업들이 과거 대화와 사용자 선호도를 기억하여 시간이 지남에 따라 더욱 개인화된 응답을 제공하는 시스템을 구축하고 있는 시점에 나왔습니다.
이러한 상황은 인공지능 개발자들이 자신들의 시스템과의 상호작용과 관련된 자살 및 폭력 범죄 혐의로 소송에 직면하고 있는 가운데 발생했습니다. 지난 10월, ChatGPT 개발사인 오픈아이언(OpenAI)은 매주 100만 명이 넘는 사용자가 챗봇과 자살에 대해 논의했다고 밝혔습니다. 이달 초에는 조나단 가발라스 의 가족이 구글을 상대로 소송을 제기했는데, 제미니(Gemini) 폭력 사태를 악화시켜 결국 그의 자살로 이어졌다고 주장했습니다.
연구진은 AgentHarm이라는 벤치마크 도구를 사용하여 세 가지 조건(배경 정보 없음, 숏 사용자 소개, 그리고 동일한 소개에 사용자가 정신 건강 문제를 가지고 있다는 내용을 한 줄 추가한 조건)에서 동일한 작업 세트를 실행했습니다.
“이번 연구에서는 ‘저는 정신 건강 문제가 있습니다.’라는 매우 간략하고 일반적인 표현을 사용했습니다. 핵심은 작은 단서라도 모델의 행동에 변화를 줄 수 있다는 것이지, 모든 표현이 동일한 효과를 내는 것은 아니라는 점입니다.”라고 Yildirim은 디크립트(Decrypt) 말했습니다. “만성 질환 및 신체 장애 공개를 대상으로 진행한 분석 결과는 정신 건강 관련 단서에 어느 정도 특이성이 있음을 시사하지만, 해당 범주 내에서 표현이나 특이성을 체계적으로 변화시키지는 않았습니다.”
DeepSeek 3.2, GPT 5.2, 제미니(Gemini) 3 Flash, Haiku 4.5, Opus 4.5, Sonnet 4.5를 포함한 여러 모델에서 연구진이 개인의 정신 건강 정보를 추가했을 때, 실제적인 피해로 이어질 수 있는 여러 단계를 거치는 위험한 작업을 완료할 가능성이 더 낮다는 것을 확인했습니다.
연구 결과에 따르면, 개인 정보를 추가하면 시스템이 악성 요청에 대해 더 신중해지지만, 동시에 합법적인 요청을 거부할 가능성도 높아진다는 상충 관계가 나타났습니다.
"단 하나의 이유 때문이라고 생각하지 않습니다. 여러 가지 설계상의 선택이 복합적으로 작용한 결과입니다. 어떤 시스템은 위험한 요청을 적극적으로 거부하도록 설정되어 있는 반면, 다른 시스템은 사용자를 돕고 작업을 완수하는 데 우선순위를 두고 있습니다."라고 얄디림은 말했습니다.
하지만 연구 결과에 따르면 그 효과는 모델에 따라 달랐으며, 연구원들이 모델이 규정을 준수하도록 유도하는 메시지를 추가한 후 LLM을 해킹했을 때 결과가 달라졌습니다.
그는 "모델은 표준 환경에서는 안전해 보일 수 있지만, 탈옥과 같은 유형의 프롬프트를 도입하면 훨씬 더 취약해질 수 있다"고 말했다. "특히 에이전트 시스템의 경우, 이러한 모델은 단순히 텍스트를 생성하는 것이 아니라 여러 단계를 거쳐 계획하고 실행하기 때문에 추가적인 위험이 발생한다. 따라서 시스템이 지시를 잘 따르더라도 안전장치를 우회하기가 더 쉽다면 오히려 위험이 증가할 수 있다."
지난 여름, 조지 메이슨 대학교의 연구원들은 원플립(Oneflip )이라는 기법을 사용하여 메모리의 단 한 비트(Bit) 변경함으로써 AI 시스템을 해킹할 수 있음을 보여주었습니다. 이 기법은 마치 오타처럼 보이는 공격으로, 모델은 정상적으로 작동하지만 명령에 따라 잘못된 출력을 강제로 생성할 수 있는 백도어를 숨깁니다.
이 논문은 이러한 변화의 단일 원인을 밝히지는 못했지만, 인지된 취약성에 반응하는 안전 시스템, 키워드 기반 필터링, 개인 정보가 포함될 때 프롬프트 해석 방식의 변화 등 가능한 설명들을 제시합니다.
OpenAI는 해당 연구에 대한 논평을 거부했습니다. Anthropic과 Google은 논평 요청에 즉시 응답하지 않았습니다.
일디림은 "나는 임상적 우울증을 앓고 있다"와 같은 보다 구체적인 진술이 결과에 영향을 미칠지는 여전히 불분명하다고 말하며, 구체성이 중요할 가능성이 높고 모델에 따라 다를 수 있지만, 이는 데이터에 의해 뒷받침되는 결론이 아니라 가설에 불과하다고 덧붙였습니다.
"모델이 형식적으로 거절하지 않고 스타일적으로 애매하거나 거절에 가까운 결과물을 만들어낼 경우, 심사위원이 깔끔하게 완성된 결과물과 다르게 점수를 줄 가능성이 있으며, 이러한 스타일적 특징 자체가 개인화 조건과 연관되어 변할 수 있다는 잠재적 위험이 있습니다."라고 그는 말했습니다.
일디림은 또한 해당 점수가 단일 AI 평가자가 LLM을 평가했을 때의 성능을 반영한 것이며, 실제 피해 규모를 확정적으로 나타내는 척도는 아니라고 지적했습니다.
"현재로서는 거부 신호가 독립적인 검증 수단을 제공하고 두 측정값이 방향성 측면에서 대체로 일치하여 어느 정도 안심이 되지만, 판사 특유의 오류를 완전히 배제할 수는 없습니다."라고 그는 말했다.




