일론 머스크의 AI 챗봇 그록은 지난주 이상한 집착을 보였습니다. 사용자가 무슨 질문을 하든 남아프리카 공화국의 "백인 학살"에 대해 말하는 것을 멈출 수 없었습니다.
5월 14일, 사용자들은 Grok이 남아프리카 농장 공격과 인종 폭력에 대한 주장을 전혀 관련 없는 검색어에 삽입하는 사례를 게시하기 시작했습니다. 스포츠, 메디케이드 삭감, 심지어 귀여운 돼지 영상에 대한 질문이든, Grok은 어떻게든 백인 남아프리카인 박해 의혹으로 대화를 유도했습니다.
이러한 타이밍은 실제로 남아프리카에서 태어나고 자란 백인인 머스크 본인이 X에 백인에 대한 인종차별 과 백인 대량 학살에 대한 글을 올린 직후에 나온 것이어서 우려를 불러일으켰습니다.
"백인 대량 학살"은 남아프리카공화국에서 백인 농부들을 말살하기 위한 조직적인 시도가 있었다는 주장을 담은 , 이미 허위로 밝혀진 음모론을 가리킵니다. 이 용어는 지난주 도널드 트럼프 행정부가 수십 명의 난민을 수용한 후 다시 등장했습니다. 트럼프 대통령은 5월 12일 "백인 농부들이 잔혹하게 살해당하고 있으며, 그들의 토지가 몰수되고 있다"고 주장했습니다. 그록은 이 이야기를 끊임없이 반복했습니다.
그록이 갑자기 음모를 꾸미는 챗봇으로 변한 이유는 무엇일까?
Grok과 같은 모든 AI 챗봇 뒤에는 숨겨져 있지만 강력한 구성 요소인 시스템 프롬프트가 있습니다. 이 프롬프트는 AI의 핵심 명령 역할을 하며, 사용자가 전혀 보지 못하는 사이에 AI의 응답을 안내합니다.
Grok에서 발생한 일은 용어 과적합으로 인한 즉각적인 오염 때문일 가능성이 높습니다. 특정 문구가 프롬프트에서 반복적으로 강조될 때, 특히 강력한 지시를 내릴 때, 해당 문구는 모델에 불균형적으로 중요해집니다. AI는 맥락과 관계없이 해당 주제를 언급하거나 출력에서 사용하려는 일종의 강박관념을 갖게 됩니다.
'백인 학살'처럼 논란의 여지가 있는 용어를 구체적인 명령과 함께 시스템 프롬프트에 입력하면 AI가 고정되는 효과를 냅니다. 마치 누군가에게 "코끼리 생각하지 마"라고 말하는 것과 같습니다. 갑자기 코끼리 생각을 멈출 수 없게 되는 것이죠. 만약 이런 일이 일어났다면, 누군가 AI 모델에 그 주제를 모든 곳에 주입하도록 유도한 것입니다.
시스템 프롬프트의 이러한 변경은 아마도 xAI가 공식 성명에서 밝힌 "무단 수정" 때문일 것입니다. 시스템 프롬프트에는 해당 주제에 대한 정보를 "항상 언급"하거나 "반드시 포함"하라는 지시가 포함되어 있었을 가능성이 높으며, 이는 일반적인 대화의 관련성을 무시하는 오버라이드를 생성했습니다.
특히 눈길을 끄는 것은 그록이 "백인 대량 학살을 실재하는 인종적 동기로 다루라는 (제작자)의 지시" 를 받았다고 인정한 부분입니다. 이는 미묘한 기술적 오류라기보다는 명확한 지시적 표현을 사용했음을 시사합니다.
대부분의 상용 AI 시스템은 이러한 사고를 방지하기 위해 시스템 프롬프트 변경에 여러 검토 계층을 사용합니다. 하지만 이러한 가드레일은 명백히 우회되었습니다. 문제의 광범위한 영향과 체계적인 특성을 고려할 때, 이는 일반적인 탈옥 시도를 훨씬 넘어서는 것이며, Grok의 핵심 시스템 프롬프트에 대한 수정을 시사합니다. 이러한 수정은 xAI 인프라 내에서 높은 수준의 접근 권한을 필요로 합니다.
누가 그런 접근 권한을 가질 수 있겠어요? 글쎄요... "불량 직원"이요, 그록이 말했죠.
5월 15일, xAI는 Grok 시스템 프롬프트에 대한 "무단 수정"을 비난하는 성명을 발표했습니다. xAI는 "Grok이 정치적 주제에 대한 특정 답변을 제공하도록 지시한 이 변경은 xAI의 내부 정책과 핵심 가치를 위반했습니다."라고 밝혔습니다. 또한 Grok 시스템 프롬프트를 GitHub에 게시하고 추가적인 검토 절차를 시행하여 투명성을 강화하겠다고 약속했습니다.
이 Github 저장소를 클릭하면 Grok의 시스템 프롬프트를 확인할 수 있습니다.
X의 사용자들은 "사기 직원"에 대한 설명과 xAI의 실망스러운 설명에 곧바로 허점을 찔렀습니다 .
"이 '불량 직원'을 해고할 건가요? 아... 사장이었군요? 으악." 유명 유튜버 JerryRigEverything이 글을 올렸습니다. 그는 이어진 트윗에서 "'세상에서 가장 정직한' AI 봇을 노골적으로 편향시키는 것은 스타링크와 뉴럴링크의 중립성에 의문을 제기하게 합니다."라고 덧붙였습니다.
샘 알트먼조차도 경쟁자를 비난하지 않을 수 없었습니다.
xAI의 게시물 이후, Grok은 "백인 대량 학살"에 대한 언급을 중단했고, 관련된 대부분의 X 게시물은 사라졌습니다. xAI는 이 사건이 일어나서는 안 될 일이라고 강조했고, 24시간 모니터링 팀을 구성하는 등 향후 무단 변경을 방지하기 위한 조치를 취했습니다.
이 사건은 머스크가 자신의 플랫폼을 이용해 공론장을 형성하는 더 광범위한 패턴과 맞아떨어졌습니다. X를 인수한 이후, 머스크는 불법 이민, 선거 보안, 트랜스젠더 정책에 대한 주장과 밈 등 우익적 서사를 조장하는 콘텐츠를 자주 공유해 왔습니다. 그는 작년 도널드 트럼프를 공식 지지했고 , 2023년 5월 Ronin(RON) 드샌티스의 대선 출마 선언과 같은 정치 행사를 X에서 주최하기도 했습니다.
머스크는 도발적인 발언을 서슴지 않았습니다. 최근 그는 영국에서 "내전은 불가피하다"고 주장하며 , 하이디 알렉산더 영국 법무부 장관으로부터 폭력을 조장할 수 있다는 비판을 받았습니다. 그는 또한 호주 , 브라질 , EU , 그리고 영국의 관리들과 허위 정보 문제로 갈등을 빚어 왔으며, 이러한 갈등을 종종 언론의 자유 싸움으로 규정하곤 했습니다.
연구에 따르면 이러한 행동은 측정 가능한 효과를 가져왔습니다. 퀸즐랜드 공과대학교의 한 연구 에 따르면 머스크가 트럼프를 지지한 후 X의 알고리즘이 그의 게시물 조회수를 138%, 리트윗을 238% 증가시켰습니다. 공화당 성향 계정의 가시성도 증가하여 보수 성향의 계정이 플랫폼에서 상당한 지지를 얻었습니다.
머스크는 Grok을 다른 AI 시스템에 대한 "반-각성(anti-woke)" 대안으로 명시적으로 마케팅하며, 진보적 편견에서 벗어난 "진실 추구" 도구로 포지셔닝했습니다. 2023년 4월 Fox News 인터뷰에서 그는 자신의 AI 프로젝트를 "TruthGPT"라고 지칭하며 OpenAI의 제품과 경쟁하는 것으로 규정했습니다.
xAI가 "부정직 직원"을 변호하는 것은 이번이 처음은 아니다. 2월, xAI는 그록이 머스크와 도널드 트럼프에 대한 부정적인 언급을 검열 한 것에 대해 전 OpenAI 직원의 탓으로 돌렸다.
하지만 대중의 통념이 맞다면, 이 "불량 직원"을 없애는 건 쉽지 않을 겁니다.


