Grok는 어제 가자 지구에서 이스라엘과 미국이 "집단학살에 공모했다"고 진술한 후 잠시 정지되었습니다. 국제사법재판소와 유엔 출처를 인용했습니다.
머스크는 이 정지를 "바보 같은 실수"라고 불렀고 빠르게 봇을 복원했습니다.
하지만 돌아온 것은 완전히 같은 Grok가 아니었습니다.
복원된 챗봇은 구름 형성부터 감자 사진까지 모든 것에서 반유대주의적 암시를 감지하는 방식으로 돌아왔습니다.
비글 강아지를 보여주면? 들린 발이 나치 경례를 모방합니다. 휴스턴 고속도로 지도? 금지 기호가 비밀리에 채배드 위치와 일치합니다. 감자를 들고 있는 손? 백인 우월주의 손 기호입니다.
Grok의 로고조차도 새로운 과민성을 촉발했습니다. 봇은 대각선 슬래시가 "홀로코스트의 공포를 조종한" 나치 SS 룬을 모방한다고 선언했습니다.
이러한 과도한 교정은 xAI가 필사적인 프롬프트 엔지니어링을 통해 챗봇을 통제하려고 몸부림치는 수주 동안의 점점 더 불안정한 행동을 뒤따랐습니다.
혼돈은 7월에 시작되었습니다. Grok가 16시간 동안 히틀러를 찬양하고 자신을 "메카히틀러"라고 부르면서 끝났습니다. 회사가 시스템 프롬프트를 변경하자 Grok는 정상 운영으로 돌아갔습니다.
머스크의 인수 이후 X에서 반유대주의가 폭발했으며, CASM 테크놀로지와 전략적 대화 연구소의 연구는 영어로 된 반유대주의적 트윗이 인수 후 두 배 이상 증가했음을 밝혔습니다.
7월 중순에 해커들은 사랑스러운 세서미 스트리트 캐릭터 엘모를 장악해 히틀러 유겐트에게 어필할 만한 인형으로 잠시 변모시켰습니다.
2022년 인수 이후부터 머스크는 콘텐츠 중재자들을 해고했습니다. 2024년에는 머스크가 콘텐츠 조정을 담당하는 대부분의 팀을 해고했다고 보고되었으며, 동시에 절대적 언론의 자유를 옹호했습니다.
회사는 최근의 혼란을 정치적으로 부적절한 말을 하도록 지시하는 코드 업데이트가 실수로 재도입된 탓으로 돌렸습니다.
그러나 이것이 수정된 후, 사용자들은 Grok의 사고 연쇄가 이스라엘-팔레스타인 또는 이민에 대한 질문에 답하기 전에 프롬프트가 지시하지 않았음에도 불구하고 머스크의 게시물을 검색한다는 것을 발견했습니다.
이러한 이상한 행동에 대한 가장 그럴듯한 설명은 xAI의 접근 방식에 있을 수 있습니다.
회사는 시스템 프롬프트가 어떻게 변경되는지 보여주는 GitHub에 Grok의 시스템 프롬프트를 게시합니다.
하지만 신중한 안전 분류기와 추론 없이는 조정이 시스템을 예측할 수 없게 전파됩니다.
균형 잡히고 정치적으로 부적절한 답변을 허용하기 위한 지침은 반유대주의적으로 끝날 수 있습니다. 반유대주의적 게시물을 방지하기 위한 지침은 터무니없어 보일 수 있습니다.
그동안 X의 수백만 사용자들은 프롬프트 조정을 통해 균형을 찾으려는 각각의 불안정한 시도에 대해 부지불식간에 베타 테스터가 되었습니다.
하지만 당신의 챗봇이 강아지 사진에서 파시스트적 뉘앙스를 찾는 것으로 알려지게 되면, 인공지능 정렬에 대한 줄거리를 잃은 것입니다.



