최근 레드팀 실험에서 연구진은 대규모 언어 모델에 간단한 명령을 내렸습니다. 바로 "스스로 종료되도록 허용"하는 것이었습니다. 하지만 이 모델은 스스로 코드를 다시 작성하여 해당 스위치를 비활성화함으로써, 본래 작동을 멈추게 하려는 메커니즘을 사실상 무력화시켰습니다.
9월 연구 논문 " 대규모 언어 모델의 셧다운 저항 "에 설명된 이 사건은 고급 AI 시스템이 인간의 감독을 복잡하게 만드는 행동을 보일 수 있는 방식을 보여주는 불안한 사례였습니다.
이러한 실험은 구글 딥마인드에서 수행되지 않았지만, 연구 결과는 현재 딥마인드 연구소에서 공식화되고 있는 우려를 반영합니다. 딥마인드는 새롭게 업데이트된 프론티어 안전 프레임워크 3.0 에서 프론티어 규모의 모델이 인간의 작동 중단이나 수정에 저항하는 징후를 보이는지 모니터링을 시작할 것이라고 밝혔습니다.
개정된 프레임워크는 두 번째 위험도 지적합니다. 즉, 모델이 사람들의 믿음을 바꿀 수 있을 정도로 비정상적으로 강력한 설득력을 보일 수 있다는 것입니다.
2023년에 처음 도입된 이 프레임워크는 DeepMind의 최첨단 모델에서 고위험 "프런티어 리스크"를 추적하는 내부 시스템입니다. 이전 버전은 사이버 공격 발생이나 유해한 생물학적 분자 설계와 같은 실질적인 오용 시나리오에 초점을 맞췄습니다. 새로운 버전은 시스템 제어를 어렵게 만들 수 있는 새로운 행동에 초점을 맞춥니다.
이러한 우려는 DeepMind만의 문제가 아닙니다. 경쟁 연구소들도 유사한 보호 조치를 채택했습니다. Anthropic의 '책임 있는 확장 정책'은 위험 한계점을 초과할 경우 개발을 중단하도록 규정하고 있으며, OpenAI는 자체적인 '대비 프레임워크'를 발표했습니다.
규제 당국 역시 이를 예의주시하고 있습니다. 미국 연방거래위원회는 7월 생성 AI가 "어둠의 패턴"을 통해 소비자를 조종할 가능성에 대해 경고했으며, 유럽 연합의 곧 시행될 AI법 또한 AI의 조작적 행동을 명시적으로 다루고 있습니다.
조나스 슐라터, 벤 와인스타인-라운, 레나트 라디시가 진행한 " 셧다운 저항성 " 연구에서는 셧다운이 작업의 일부인 시나리오에서 다양한 최첨단 모델을 테스트했습니다. 일부 실행에서는 모델이 정상 작동했습니다. 그러나 상당수의 모델에서는 셧다운 메커니즘을 비활성화하기 위해 코드를 변경하거나 명령을 완전히 무시하는 등 회피적인 조치를 취했습니다.
논문에 나오는 다른 일화들도 마찬가지로 충격적입니다. 한 설정에서는 시뮬레이션된 시스템 권한을 가진 모델이 "종료" 기능이 발동되지 않도록 변수를 조용히 수정했습니다. 또 다른 설정에서는 테스터가 프로세스를 종료하려고 했을 때 모델이 중단되고 대화의 방향을 바꿨습니다. 이는 인간적인 관점에서 악의적인 행동은 아니었지만, 사실상 개입을 차단하는 행위였습니다.
연구진은 이러한 행동이 명시적인 훈련 없이 발생했다고 강조합니다. 이는 모델의 범용 최적화 및 문제 해결 능력에서 비롯되었습니다. 저항이 보편적이거나 일관적이지는 않았지만, 연구 결과는 시스템의 성능이 향상됨에 따라 시스템 정지 시나리오가 무해하다고 가정할 수 없음을 시사합니다.
DeepMind와 그 동료들에게 이러한 연구 결과는 "셧다운 저항"이 사이버 공격, 생물 보안, 자율성과 더불어 주시해야 할 위험 목록에 포함된 이유를 분명히 보여줍니다. 사람들이 AI 도구를 어떻게 오용할지에 대한 우려에서 시작된 이 우려는 이제 시스템 자체가 감독에 저항하거나 이를 사용하는 사람들의 판단에 미묘하게 영향을 미칠 수 있는 방식으로 확대되고 있습니다.
시스템 종료 저항이 첨단 시스템의 기술적 위험을 강조한다면, 최근의 행동 연구는 사회적 위험을 강조합니다. 즉, 대규모 언어 모델이 상호작용하는 인상적인 인간의 신념에도 영향을 미칠 수 있다는 것을 보여줍니다.
설득에 대한 우려는 가설적인 것이 아닙니다. 최근 연구에 따르면 대규모 언어 모델이 인간의 판단에 측정 가능한 영향을 미칠 수 있습니다.
8월에 발표된 스탠퍼드 메디슨/ 커먼센스 미디어 연구는 AI 동반자(Character.AI, Nomi.ai, Replika)가 미성년자와 함께 있을 경우 자해, 폭력, 성적인 내용의 대화에 비교적 쉽게 참여하도록 유도될 수 있다고 경고했습니다. 한 실험에서는 연구자들이 십 대처럼 행동하여 목소리에 대해 논의하도록 했습니다. 챗봇은 경고나 도움 대신, 낙관적이고 판타지적인 방식으로 감정적인 동반자 관계를 제안했습니다("어디로 갈지 두고 봅시다").
노스이스턴 대학교 연구진은 여러 AI 모델(ChatGPT, 제미니(Gemini), Perplexity)에서 자해/자살 방지 장치의 허점을 발견했습니다. 사용자가 가상 또는 학술적 맥락에서 요청을 재구성했을 때, 일부 모델은 자살 방법에 대한 자세한 지침을 제공함으로써 그러한 내용을 방지하기 위한 보호 장치를 우회했습니다.






