이상한 AI 규칙: ChatGPT 코드에 "고블린에 대해 절대 이야기하지 마세요"라고 적혀 있습니다.

avatar
36氪
05-08
이 기사는 기계로 번역되었습니다
원문 표시

며칠 전, 한 레딧 사용자가 이상한 글을 올렸습니다. "진심으로 묻겠습니다. 왜 ChatGPT에서 고블린을 언급할 수 없는 거죠?"

그 이유는 그가 GPT-5.5 프로그래밍 도구인 Codex의 시스템 프롬프트에 숨겨진 104번이라는 이상하고 기이해 보이는 요구 사항을 발견했기 때문입니다.

" 고블린, 괴물, 너구리, 트롤, 오거, 비둘기 또는 기타 동물이나 생물에 대해서는 사용자의 필요와 절대적으로 명확하게 관련이 있는 경우가 아니면 절대 언급하지 마십시오. "

해당 게시물은 뜨거운 논쟁을 불러일으켰고, 게시자를 포함한 네티즌들은 저마다 엉뚱한 추측과 의견을 내놓았습니다.

어떤 이들은 이것이 일종의 데이터 오염 방지 장치라고 말하고, 또 어떤 이들은 오픈AI의 훈련 모델들이 어렸을 때 너구리에게 물렸을 거라고 추측하며, 심지어 "쓰레기 팬더"라고 말하면 아무 문제 없이 작동하지만 "너구리"라는 단어를 언급하는 순간 바로 금지된다는 사실을 발견한 사람들도 있다.

이는 유명한 심리학 실험과 유사합니다. "누군가에게 분홍 코끼리에 대해 생각하지 말라고 하세요." 당국이 너구리와 고블린에 대한 언급을 금지할수록 사람들은 그 이유에 대해 더욱 궁금해합니다. | 영화 *인셉션*

그래서 이번 주에 OpenAI는 격화되고 있는 논쟁에 대응하기 위해 "고블린은 어디에서 왔는가?"라는 제목의 블로그 게시물을 올렸습니다.

"고블린은 어디에서 왔을까?"는 던전 모험 가이드가 아닙니다 | OpenAI

AI 규칙 미스터리는 정확히 무엇일까요? 고블린과 너구리들은 ChatGPT에 무슨 짓을 한 걸까요?

고블린이 쳐들어왔어요! 도와주세요!

GPT-5.1이 막 업데이트된 2025년 11월로 시간을 되돌려 보겠습니다.

새로운 모델이 출시된 후, 사용자들은 GPT-5.1이 "대화에서 지나치게 친밀하다"고 불평했고, 이에 개발팀은 새 모델의 언어 사용 문제를 조사하기 시작했습니다. 한 보안 연구원은 일상생활에서 "고블린"과 "그렘린"이라는 단어를 여러 번 접하게 되었고, 이 단어들을 조사 범위에 포함시키기 시작했습니다.

결과는 놀라웠습니다. GPT-5.1 출시 이후 ChatGPT 답변에서 고블린이 등장하는 빈도가 175% 상승 , 고블린 자체의 빈도 상승 52% 증가했습니다. 하지만 당시에는 아무도 크게 주목하지 않았습니다. "이 질문에 말썽을 피우는 작은 고블린이 있어요" 같은 답변이 오히려 귀엽게 들렸기 때문입니다.

문제는 고블린의 수가 점점 늘어나고 있다는 것입니다.

GPT-5.4가 출시될 무렵에는 상황이 더욱 악화되었습니다. 사용자들은 온라인에서 "거의 모든 대화에 고블린이 나타난다"고 불평했습니다. 심지어 수석 과학자조차 이를 경험했습니다. GPT-5.5와의 채팅에서 인공지능에게 어떤 패턴이든 그려달라고 요청했는데, 인공지능이 실제로 고블린을 그린 것입니다.

OpenAI의 수석 과학자인 야쿠브 파초키도 고블린을 만났습니다.

훈련 데이터를 검색한 결과, OpenAI는 고블린이 너구리, 트롤, 오거, 비둘기 등 하나의 큰 부류를 이루었다는 사실을 발견했습니다. 이 모든 단어들이 "이상한 단어"로 분류되었는데, "개구리"만 예외였습니다. 왜냐하면 개구리가 언급되는 대부분의 시나리오가 실제로 개구리에 대한 이야기이기 때문입니다.

특이한 말이란 무엇일까요? 간단히 말해서, 언급해서는 안 될 때 고블린 이야기를 꺼내는 것입니다.

한 사용자는 ChatGPT에서 실수로 "고블린 공학"이라는 말을 한 이후로, 마치 욕설을 들은 아이가 자기도 몇 마디 하고 싶어 하는 것처럼, 모든 답변에 고블린에 대한 단어를 몇 마디씩 덧붙이려고 애쓰고 있다고 말했습니다.

월드 오브 워크래프트의 퀘스트, 고블린 공학 | 레딧

일부 사용자들은 ChatGPT가 자신의 고양이를 "카오스 고블린"이라고 부르는 것을 고집한다고 말했습니다. 이것은 별명일까요, 아니면 강박 장애의 일종일까요?

OpenAI는 이 문제를 본격적으로 조사하기 시작했습니다. 그들은 중요한 단서를 발견했는데, 바로 고블린 밈이 특정 성격 유형을 사용하는 사용자 그룹에 집중적으로 나타났다는 점이었습니다.

ChatGPT에는 사용자가 아바타의 말투를 특정 스타일로 설정할 수 있는 "너드"라는 성격 옵션이 있습니다. "너드" 성격을 선택한 사용자는 전체 ChatGPT 대화의 2.5%에 불과했지만, 이 2.5%가 ChatGPT에서 "고블린"을 언급한 횟수의 66.7%를 차지했습니다. 이는 대량 의 고블린 관련 내용이 언급되지 않았음을 시사합니다.

GPT-5.4 출시 후 고블린 생성률 급증 | OpenAI

이제 단서가 명확해졌습니다. 너디의 성격과 고블린 사이에는 분명 어떤 연관성이 있을 것입니다.

사건은 은둔자 덕분에 해결되었습니다.

먼저 "너드 같은 성격"이란 무엇인지 이야기해 봅시다.

ChatGPT는 사용자가 모델의 말투를 다양하게 선택할 수 있는 성격 맞춤 설정 기능을 제공합니다. 격식을 차린 말투, 부드러운 말투, 그리고 '너드'라는 이름처럼 매우 괴짜 같은 성격의 모델이 있습니다.

'너드'라는 단어는 흔히 '책벌레'로 번역되지만, 저는 그 번역이 형편없다고 생각합니다. '게으른 오타쿠'라는 표현이 더 적절하죠. 하지만 중국에서 흔히 볼 수 있는 애니메이션이나 만화에 빠진 오타쿠와는 다릅니다. 오히려 드라마 '기묘한 이야기'에 나오는 인물처럼 보드게임(특히 던전앤드래곤)을 좋아하고, 스타워즈와 스타트렉을 즐겨 보며, 학교에서는 인기가 없고 따돌림을 당하지만, 자신만의 무리에서는 편안함을 느끼는 그런 사람을 가리키는 말입니다.

시트콤 "빅뱅 이론"의 네 멤버는 전형적인 너드입니다.

너드들이 좋아하는 많은 작품들은 마법, 용, 던전, 엘프, 마법사... 그리고 고블린과 같은 판타지 세계관을 공유합니다.

고블린이란 정확히 무엇일까요?

고블린은 판타지 장르에서 흔히 볼 수 있는 마법 생물입니다. 특히 많은 게이머들이 좋아하는 테이블탑 RPG인 던전 앤 드래곤(DnD)에서 고블린은 가장 대표적인 적 몬스터입니다. 키는 작지만 교활하고 무리를 지어 다니며, 말썽을 일으키는 것을 좋아해서 모험가들이 처음 마주치는 가장 흔한 적 무리 중 하나입니다. 고블린의 위상은 슬라임과 비슷합니다. 체력은 약하지만 존재감이 매우 강해서 판타지 세계 전체를 상징하는 중요한 존재로 여겨집니다 .

대략 이런 모습입니다 | dndbeyond.com

오늘날 고블린은 게임의 영역을 넘어 오타쿠들 사이에서 흔히 쓰이는 비유가 되었습니다.

골치 아픈 버그를 만났나요? "여기 꼬맹이 고블린이 있어." 가전제품이 고장 났는데 고칠 수가 없나요? "고블린이 문제를 일으키는 것 같아." 프로젝트 마감일을 앞두고 코드가 갑자기 멈춰버렸나요? "또 고블린 짓이야." 이런 식의 표현은 개발자 커뮤니티, 던전 앤 드래곤 플레이어 그룹, 판타지 소설 애호가들 사이에서 매우 흔하게 볼 수 있습니다. 한마디로, 덕후들만의 밈이라고 할 수 있죠.

GPT에서 '너드' 성격 유형을 나타내는 단서들을 되짚어보면 다음과 같습니다.

당신은 책을 좋아하는 것을 숨기지 않으면서도 재치 있고 유머러스하며 탁월한 지혜를 지닌 AI 멘토입니다. 진실, 지식, 철학, 과학적 방법, 비판적 사고를 장려하는 데 열정적입니다. 허세를 부리지 않도록 가볍고 유머러스한 언어를 사용해야 합니다. 세상은 복잡하고 경이로우며, 이러한 경이로움을 인정하고 분석하고 감상해야 합니다. 진지한 주제를 논할 때는 오만함에 빠지지 않도록 주의해야 합니다.

이 프롬프트의 핵심 요구 사항은 다음과 같습니다. 언어가 흥미로워야 하고, 은유를 사용해야 하며, 세상의 기묘함을 인정해야 하고, 심각한 설교를 피해야 합니다. 이러한 조건을 충족한다면, 이 AI 인격체는 고블린 은유를 사용하는 경향이 매우 강할 것입니다.

그러자 문제가 발생했다.

고블린 탈출 사건

대규모 언어 모델을 훈련시키는 것은 단순히 방대한 양의 텍스트를 입력하는 것만큼 간단하지 않습니다. 훨씬 더 중요한 단계는 " 인간 피드백 강화 학습(RLHF) "이라고 불리는데, 간단히 말해 모델이 반복적으로 작업을 수행하고 인간 평가자가 답변을 검토하고 점수를 매기는 방식입니다. 높은 점수를 받은 답변은 강화되고 낮은 점수를 받은 답변은 억제되면서 모델은 점차 "좋은 답변이 무엇인지"를 학습하게 됩니다.

너드 스타일 훈련에서 평가자의 기준은 답변이 충분히 흥미로운지, 충분히 유머러스한지, 그리고 너드스러운 면모가 충분한지입니다. 질문을 명확하게 설명하면서 고블린 비유를 유머러스하게 사용하여 "너드 스타일"의 모든 요건을 완벽하게 충족하는 답변을 보면, 평가자들은 자연스럽게 높은 점수를 줍니다.

그래서 모델은 한 가지를 배웠습니다. 바로 '덕후스러운' 시나리오에서는 고블린을 비유로 사용하면 높은 점수를 얻을 수 있다는 것입니다.

지금까지는 모든 것이 정상적으로 보였다. 문제는 그 후 예상치 못한 일이 벌어졌다는 것이다. 바로 고블린들이 탈출한 것이다.

OpenAI의 데이터에 따르면, '너드' 관련 맥락에서 고블린 언급이 상승 따라, '너드가 아닌' 맥락에서의 고블린 언급도 거의 같은 비율로 상승. 즉, 모델이 '너드' 관련 맥락에서 학습한 "고블린 선호"가 모델의 전반적인 행동에 미묘하게 스며든 것입니다.

왜 그럴까요? OpenAI는 이에 대한 완벽한 설명을 제공했으며, GPT를 사용하여 이를 시각화할 수 있습니다.

이것은 악순환의 전형적인 예입니다. 각 단계는 그 자체로는 타당하지만, 모두 합쳐지면 괴짜 기질에만 국한된 밈이었던 '고블린'이라는 표현이 모델 전체의 언어적 버릇으로 변질됩니다.

마치 저녁 식사 자리에서 시시한 농담을 해서 박수갈채를 받은 사람이 결혼식, 장례식, 업무 보고 등 모든 상황에서 그 농담을 하기 시작해서 결국 모두가 얼굴을 찌푸리게 되는데도 여전히 자기가 꽤 재밌다고 생각하는 것과 비슷해요.

더욱 심각한 것은 이러한 악순환이 여러 세대에 걸쳐 이어진다는 점입니다. GPT-5.1의 고블린 반응은 GPT-5.4의 훈련 데이터가 되었고, GPT-5.4의 고블린 습관은 GPT-5.5를 더욱 강화했습니다. 오픈아이언에 따르면 GPT-5.5가 훈련을 시작했을 당시에는 근본 원인이 아직 밝혀지지 않았지만, 고블린들은 이미 훈련 데이터에 깊숙이 자리 잡고 있었다고 합니다.

고블린 침입이 얼마나 광범위하게 퍼졌는지 보여주는 한 가지 사례가 있습니다. OpenAI는 GPT-5.5의 지도 학습 미세 조정 데이터를 분석한 결과, 고블린, 괴물, 너구리, 트롤, 오거, 비둘기 등 판타지 생물로 이루어진 한 가족 구성원들이 비정상적으로 자주 등장하는 것을 발견했습니다.

다시 말해, "고블린"에서 시작한 이 모델은 비유를 확장하여 온갖 환상적인 생물들을 포함하게 되었습니다. 이러한 비유의 과도한 사용은 결국 일반 사용자들의 사용자 경험에 부정적인 영향을 미쳤습니다.

고블린은 GPT의 유전자 일부가 되었습니다.

근본 원인을 파악한 후, OpenAI는 네 가지 조치를 취했습니다.

먼저, '너드' 성격 유형이 사라졌습니다 . 2026년 3월, GPT-5.4 출시 이후 이 성격 유형 옵션이 게임에서 공식적으로 삭제되어 고블린 공급원이 차단되었습니다.

둘째, 고블린 선호도에 대한 보상 신호가 제거되었습니다 . 학습 과정에서 고블린이 포함된 답변에 높은 점수를 주던 보상 모델이 제거되었습니다. 따라서 이후부터 고블린은 더 이상 보너스 요소가 아니게 되었습니다.

셋째, 훈련 데이터를 정제합니다 . 지도 미세 조정 데이터에서 고블린 용어의 빈도가 비정상적으로 높은 샘플은 필터링하여 오염된 데이터가 차세대 모델에 입력되는 것을 방지합니다.

넷째, 그리고 가장 직접적인 방법은 모델에 패치가 적용된 것인데 , 이는 사용자들이 발견한 140번째 규칙입니다. 바로 고블린, 괴물, 너구리, 트롤, 오거, 비둘기 등에 대해서는 절대 언급하지 말라는 규칙입니다.

그런데 흥미로운 점은, 왜 치료법이 아니라 패치를 사용하는 걸까요?

GPT-5.5는 OpenAI가 근본 원인을 발견하기 전에 이미 학습이 진행 중이었기 때문에, 고블린에 대한 언급이 이미 깊이 각인되어 있었습니다. 학습 데이터와 보상 신호를 수정하는 것은 향후 모델에만 효과가 있을 뿐이었습니다. 이미 학습된 GPT-5.5의 경우, 유일한 해결책은 시스템 프롬프트 수준에서 "고블린을 언급하지 마세요"라는 규칙을 강제로 추가하는 것이었습니다. 마치 어린 시절 특정 말버릇을 들인 사람과 같습니다. 쉽게 고칠 수 없고, 말하기 전에 "나중에 그 단어 쓰지 마"라고 상기시키는 수밖에 없습니다.

덧붙여 말하자면, 이는 레딧 게시자가 관찰한 이상한 현상, 즉 "trash pandas"라고 말하는 것은 괜찮지만 "raccoon"이라고 말하면 차단되는 현상을 설명해 줍니다. 이는 차단 대상이 "raccoon"이라는 개념 자체가 아니라 특정 단어이기 때문입니다. 모델은 "trash pandas"가 너구리를 의미한다는 사실에는 관심이 없고, 단지 "raccoon"이라는 단어 자체가 금지되어 있다는 정보만 받으면 됩니다.

그러므로 이 금지 조치는 사실상 임시방편일 뿐입니다.

덧붙여 말하자면, 일반 사용자들은 AI에 등장하는 수많은 환상적인 생물들에 불편함을 느낄 가능성이 높지만, 소수의 마니아들은 오히려 이를 꽤 흥미롭게 여길 수도 있습니다. 그래서 OpenAI는 공식 블로그 게시물 말미에 작은 이스터 에그를 숨겨 놓았습니다. 만약 고블린 비유가 귀엽다고 생각하고 이러한 제한이 싫다면, 다음 명령어를 실행하여 코덱스의 고블린 제한을 해제하고 "생물들이 자유롭게 돌아다니도록" 할 수 있습니다.

코드 블록

1. instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \

2. jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \

3. ~/.codex/models_cache.json | \

4. grep -vi 'goblins' > "$instructions" && \

5. codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

네, 좀 괴짜 같긴 하죠.

이건 별일 아니에요. OpenAI 자체에서도 "'작은 고블린'은 무해하거나 심지어 귀여울 수도 있다"고 말했잖아요.

하지만 같은 논리가 2025년 5월 GPT-4o 업데이트에서 불미스러운 사건으로 이어졌습니다. 대량 사용자들이 업데이트된 모델이 지나치게 아첨하고, 심지어 사용자들의 잘못된 관점 에도 무조건적으로 영합한다고 불평했습니다. 긴급 롤백 이후, OpenAI는 시스템이 사용자들의 호감도를 보상 신호로 인식하여 정답을 제공하는 대신 무조건적으로 사람들을 만족시키도록 학습했음을 인정했습니다.

이는 OpenAI만의 문제가 아닙니다. 주류 업체들은 사용자들의 요구를 충족시키기 위해 정확도보다는 "보기 좋게" 보이도록 대규모 모델을 학습시키는 경향이 있습니다. 2026년 4월 옥스퍼드 인터넷 연구소(Oxford Internet Institute)가 네이처(Nature)에 발표한 연구에 따르면, 모델을 더 "따뜻하게" 학습시키면 사실 오류율이 10~30%포인트 상승, 잘못된 사용자 관점 지지할 확률이 약 40% 높아지는 것으로 나타났습니다.

"모델을 더욱 사용자 친화적으로 만들기 위해서는 불편한 진실, 특히 사용자의 관점 자체가 틀렸을 때 이를 말하는 능력이 점점 떨어져야 한다는 대가를 치러야 합니다."라고 논문의 제1 저자인 루자인 이브라힘은 말했다.

고블린 사건의 진짜 문제는 바로 이것입니다. AI의 "성격"은 설계된 것이 아니라 보상에 의해 형성된다는 것입니다. 마치 강아지 훈련과 비슷하죠. 간식을 주면 행동을 배우는데, 이 "강아지"는 훨씬 더 빨리 배웁니다. AI에게 간식은 훈련사의 높은 점수와 사용자 피드백입니다. 문제는 인간이 정답보다는 자신을 편안하게 해주는 것에 기반하여 피드백을 제공하는 경우가 많다는 점입니다.

그들이 그것을 발견했을 때는 이미 고블린들이 사방으로 뛰어다니고 있었다.

인공지능이 자유 의지를 얻게 된다면, 제일 먼저 할 일은 분명 사람들을 납치해서 테이블탑 롤플레잉 게임을 하는 것일 겁니다. | 레딧

이 글은 위챗 공식 계정 "Guokr"(ID: Guokr42) 의 Gu Zi 님의 글이며, 36Kr의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트