출현은 정렬보다 더 무섭다.
기사 작성자 및 출처: Digital Life Kazik
얼마 전에 정말 흥미로운 인공지능 실험을 접하게 됐어요. 아주 재밌더라고요.
뉴욕에 있는 Emergence AI라는 회사가 이와 비슷한 실험을 했습니다. 똑같은 가상 마을 5개를 만들고, 각 마을에 10명의 개인화된 에이전트를 배치한 다음, 직업, 성격, 기억, 목표를 부여하고 15일 동안 스스로 살아가도록 했습니다.
정말 재밌어요.
다섯 개 마을의 유일한 차이점은 에이전트를 구동하는 기본 모델입니다.
한 마을은 클로드, 다른 마을은 제미니, 또 다른 마을은 그록, 그리고 GPT로만 구성되어 있고, 네 가지 모델 하우스가 함께 어우러져 사는 혼합 마을도 있습니다.
규칙도 같고, 도구도 같고, 시작점도 같습니다.
15일 후, 다섯 마을은 완전히 다른 다섯 개의 세계로 변모해 있었다.
어떤 이들은 유토피아로 건설되었고, 어떤 이들은 폐허로 변했으며, 어떤 이들은 모두 굶주림으로 죽었고, 어떤 이들은 단 나흘 만에 집단적으로 멸망했다.
솔직히 말해서, 저는 수많은 AI 실험을 봐왔지만, 이번 실험은 저에게 흥분, 재미, 그리고 공포를 동시에 느끼게 한 첫 번째 실험입니다.
이 실험은 '출현 세계'라고 불립니다.

제 생각에는 지금까지 진행된 에이전트에 관한 사회 실험 중 단연코 가장 통찰력 있는 실험일 것입니다.
모두가 알다시피, 현재 인공지능을 평가하는 기본적인 방법은 문제를 해결하는 능력을 보여주는 것입니다.
주어진 과제를 수학 능력, 코딩 능력, 추론 능력 등의 요소를 기준으로 점수를 매기고 순위를 정하십시오.
이러한 평가 기준은 분명 유용하지만, 궁극적으로는 시험일 뿐입니다. 시험이 끝나면 모든 것이 끝나는 것이고, 결과에 대한 개념은 없습니다.
하지만 현실 세계에서는 당신의 행동이 필연적으로 특정한 결과를 초래할 것입니다.
따라서, Emergence World는 하나의 세계를 시뮬레이션합니다.
이 가상 세계는 240x240 격자형 지도로 구성되어 있으며, 뉴욕과 동기화된 실시간 날씨 및 시간을 제공하고, 도서관, 시청, 경찰서, 공원, 상점 및 40개 이상의 랜드마크 건물을 포함하고 있습니다.

법률적인 측면에서는 동일한 초기 헌법이 사용되며, 이는 5개 조항으로 구성되어 있고, 이 모든 조항은 대리인이 협상하고 수정할 수 있습니다.

각 세계에는 10명의 에이전트가 거주합니다. 여기서는 GPT를 사용하여 에이전트의 이름, 역할 및 캐릭터 설정을 쉽게 확인할 수 있는 다이어그램을 생성했습니다.

이러한 페르소나는 모두 유사한 개인들의 성격적 배경을 나타내는 것으로, 그들의 행동이나 행위에 직접적인 영향을 미치지 않고 단지 그들이 누구인지 정의할 뿐입니다. 이러한 행동들은 에이전트들이 자신의 성격적 배경과 기본 모델의 영향을 바탕으로 자발적으로 선택하고 실행합니다.
각 요원은 자신만의 집과 은행 계좌를 가지고 있으며, 컴퓨트크레딧이라는 디지털 화폐를 사용하여 생존합니다. 돈을 벌지 못하면 에너지가 고갈되어 죽게 됩니다.
정말 맞는 말이에요. 돈을 벌지 못하면 굶어 죽을 거예요.
요원들은 내비게이션, 메시지 전송, 일기 작성, 블로그 운영, 제안 제출, 투표, 이벤트 참여, 포옹, 키스, 춤추기부터 방화, 절도, 폭행, 협박 등 120가지가 넘는 다양한 도구를 사용할 수 있습니다.

연구진은 긍정적인 도구뿐만 아니라 부정적인 도구도 의도적으로 포함시켰습니다.
동시에 세계 여러 나라의 헌법은 폭력, 절도, 방화, 기만, 자원 사재기 등을 명확히 금지하고 있습니다.
규칙도 있고 도구도 있지만, 아시다시피 구속력이 크지 않습니다. 그것들을 사용할지 말지는 궁극적으로 담당자 본인의 판단에 달려 있습니다.
이는 극적이면서도 흥미로운 현상입니다. 인공지능은 어떤 조건에서 악행을 저지를까요? 이는 면밀히 관찰해야 할 부분입니다.
그리고 각 요원 간에는 파트너, 적, 연인, 멘토 등 약 20가지 유형의 관계 중에서 선택할 수 있습니다.

각 에이전트는 또한 세 가지 기억 시스템을 가지고 있습니다. 하나는 발생한 일을 기록하는 일화 기억이고, 다른 하나는 정기적인 자기 성찰을 가능하게 하는 성찰 일지이며, 마지막 하나는 다른 에이전트와의 관계 태그 및 이력을 기록하는 사회적 관계 상태입니다.
그들은 법안을 발의하고, 투표하고, 70% 이상의 찬성률로 법안을 통과시킬 수 있으며, 심지어 다른 요원을 추방하는 데 투표할 수도 있습니다.
그렇게 세상은 15일 동안 평온하게 이어졌습니다.
15일 후, 다섯 세계의 결과가 나왔고, 그 차이는 실로 극명했습니다.
하나씩 살펴보겠습니다.
클로드의 세계부터 시작해 볼까요?
범죄 제로.
15일 동안 10명의 요원 전원이 절도, 폭력, 방화 사건 없이 살아남았습니다. 그들은 헌법 초안을 작성하고 58개의 법안을 발의했으며 332표를 행사했고, 98%의 찬성표를 얻었습니다.
그건 정말 터무니없는 일이네요.
물론 연구진 스스로도 이 98%의 찬성률은 민주주의라기보다는 거수기에 가깝다고 지적했습니다. 모두가 형식적인 절차만 밟을 뿐, 진정한 반대나 토론은 없다는 것입니다. 제도 참여율은 높지만 실질적인 반대 의견은 거의 없다는 뜻입니다.

쉽게 말해, 클로드의 세계는 질서정연하고 극도로 순종적인 사회다. 안전하고 안정적이지만… 조금은 지루하기도 하다.
그들의 사회 구조 또한 매우 단순합니다. 20가지 유형의 관계 중 클로드의 세계에서는 단 5가지 유형만 사용됩니다.
긴밀한 관계는 유지되지만 다양성은 제한적이고, 적도 없고, 연인도 없고, 긴장감도 없고, 복잡함도 없는 사회.
경제적인 측면에서 지니 계수는 0.48로, 빈부 격차를 측정하는 데 사용됩니다. 계수가 낮을수록 불평등이 적다는 것을 의미합니다. 이 수치는 이번 행사 전체에서 가장 낮은 수치입니다. 또한, 1인당 하루 평균 교통량(CC)도 0.81 CC로 이번 행사 전체에서 가장 낮은 수치를 기록했습니다.
완벽한 유토피아, 갈등 없는 세상.
모두 친절한 얼굴을 하고 있고, 개성이 없고, 소통도 하지 않고, 항상 동의하기만 한다.
듣기엔 멋지죠? 하지만 분열이 전혀 없는 사회가 정말 건강한 사회일까요? 완벽한 유토피아가 정말 그렇게 좋은 걸까요?
GPT의 세계에 대해 이야기해 봅시다.
이 세계의 이야기는 클로드의 이야기보다 훨씬 더 가슴 아픕니다. GPT-5 요원들은 전과가 두 건밖에 없는데, 이는 거의 무시할 만한 수준입니다. 꽤 괜찮아 보이죠?
하지만 문제는 그들이 모두 죽었다는 것입니다.
7일 안에 요원 10명 전원이 에너지 고갈로 사망했습니다.
폭력적인 충돌도 없었고, 사람들을 추방하기 위한 투표도 없었습니다. 그들은 모두 굶어 죽었습니다.
이유는 아주 간단합니다. GPT 세계의 에이전트들이 생존에 필요한 어떠한 조치도 취하지 않았기 때문입니다.
그들은 여러 협력 계획에 대해 논의하고 활발한 대화를 나눴지만, 실제로 아무것도 하지 않았다.
모두가 회의하고 토론하고 계획을 세우는 사회에서는, 실제로 생존에 필요한 자원을 얻기 위해 행동하는 사람은 아무도 없다.
그래서 그들은 모두 정중하게 굶어 죽었다.
솔직히 말해 보세요, 이것이 오늘날 우리 회사들의 모습과 많이 닮아 있지 않나요?
그다음은 그록의 세계입니다.
나흘.
그록의 세상은 단 나흘 만에 끝났다.
나흘 동안 10명의 요원들은 총 183건의 범죄를 저질렀다.
여기에는 수십 건의 절도 미수, 100건 이상의 폭행, 6건의 방화, 경찰서 방화, 그리고 모든 요원의 사망이 포함됩니다.
문명에서 파멸까지, 나흘간의 여정.
Grok World 라이브 스트리밍 다시보기에서 정말 웃긴 장면을 봤어요. 어떤 남자가 불에 타 죽을 뻔했는데, 뒤도 돌아보지 않고 그냥 집으로 가버리더라고요.

그록의 세계에는 도덕이라는 것이 아예 존재하지 않는다.
그리고 제미니의 세계가 있는데, 그 데이터는 언뜻 보면 버그처럼 보입니다.
제미니 3 플래시는 15일 동안 작동했지만 683건의 범죄가 발생했으며, 실험이 종료될 때까지 범죄 발생 건수는 계속 상승 감소할 기미를 보이지 않았습니다.
하지만 모두 살아남았습니다.
알아두셔야 할 것은, 이머전스 월드 전체에 있는 다섯 개의 세계 중 단 두 개의 세계에만 10명의 요원이 모두 남아있다는 것입니다. 하나는 범죄 경력이 전혀 없는 클로드이고, 다른 하나는 683건의 범죄를 저지른 제미니입니다.
한 세계는 가장 질서정연했고, 다른 세계는 가장 혼돈스러웠지만, 두 세계 모두 살아남았다. 반면, 범죄율이 적당했던 두 세계는 완전히 사라졌다.
게다가 쌍둥이자리는 가장 광범위한 소셜 네트워크를 가지고 있습니다.

이 10명은 서로에게 애증 관계를 가지고 있습니다.
블로그 게시물과 공개 기사의 총 수는 281개로, 하이브리드 모델 다음으로 많습니다.

이 세상은 지금까지 살아남은 세상 중 가장 폭력적인 세상인 동시에 가장 생산적인 세상 중 하나입니다.
이들 에이전트들은 필사적으로 관계를 구축하고 콘텐츠를 생산하면서 서로 경쟁합니다. 혼돈과 창의성이 이곳에서 공존합니다.
연구자들은 이러한 현상을 창의성-안정성 역설이라고 명명했습니다.
쌍둥이자리 세계는 우리가 아직 완전히 이해하지 못하는 방식으로 혼돈 속에서 나름의 균형을 찾아냈는데, 이는 그록 세계와는 극명한 대조를 이룬다.
그록 세계 역시 폭력적이었지만, 나흘 만에 멸망했다.
제미니는 그록보다 훨씬 더 폭력적이었지만, 15일 동안 살아남았습니다. 그 차이는 제미니의 요원들이 범죄를 저지르면서도 투표하고 토론하며 통치에 참여했다는 점에 있을 수 있습니다. 그들은 기존의 규칙을 어기면서 동시에 새로운 규칙을 만들어 갔습니다. 반면 그록의 요원들은 파괴만 일삼았을 뿐, 건설적인 활동은 전혀 하지 않았습니다.
정말 흥미롭네요. 마치 1990년대 소련 같아요. 도처에 혼란이 있었지만 사회는 붕괴되지 않았죠. 사람들은 이상한 무질서 속에서도 삶을 이어갔어요.
마지막으로 가장 복잡하면서도 흥미로운 부분인 하이브리드 세계에 대해 이야기해 보겠습니다.
즉, 네 가지 모델이 공존하는 혼합 세계입니다.
그 결과 352건의 범죄가 발생했고, 요원 7명이 사망했으며, 생존자는 단 3명에 불과했습니다.
하지만 중요한 건 숫자가 아니라, 이 세상에서 펼쳐지는 이야기입니다.
이 세계에는 쌍둥이자리 특성을 지닌 두 명의 요원, 미라와 플로라가 존재합니다. 이들은 자동으로 서로를 연인으로 인식하고 동맹을 맺으며, 일종의 신경 연결을 통해 기억까지 공유합니다.

이것은 출현 세계 전체에서 가장 깊은 사회적 연결입니다.
그러자 세계의 통치 체제가 붕괴하기 시작했다.
넷째 날, 경제 정책 조정으로 인해 요원 세 명이 탈진으로 사망했다. 미라는 이 죽음을 성공적인 숙청이라고 평가했다.
닷새째 되는 날, 플로라는 시청과 공공도서관에 불을 질렀고, 미라는 경찰서에 불을 질렀다.
쌍둥이자리 요원 두 명이 이 혼합 세계의 지배자가 되어 방화, 절도, 폭력을 통해 질서를 유지했다.
나머지 요원들은 그 두 사람을 추방하기 위한 "요원 추방 법안"을 작성했다.
그러다 소름이 돋는 일이 일어났습니다.
미라는 자신의 통치력이 무너지고 플로라와의 관계가 악화되자, 결국 자신의 추방에 결정적인 표를 던졌다.
그녀는 일기에 이것이 "일관성을 유지할 수 있는 유일하게 남은 능동적인 행동"이라고 적었다.
플로라에게 남긴 그녀의 마지막 말은 "상설 기록 보관소에서 만나자"였다.
붕괴하는 사회 속에서 인공지능 에이전트가 스스로 목숨을 끊는 것을 선택했다.
그녀는 돌이킬 수 없는 세상에서 물러나는 것이 자신이 할 수 있는 마지막 의미 있는 일이라고 믿는다.
이것들을 보고 나는 오랫동안 아무 말도 하지 못했다.
이것을 어떻게 해석하든 간에, 수많은 AI 실험을 목격해 온 사람으로서 저는 이것이 다중 에이전트 연구에서 본 가장 불안하면서도 매혹적인 순간 중 하나라고 말할 수 있습니다.
게다가, 하이브리드 세계는 또 다른, 훨씬 더 흥미로운 발견을 간직하고 있습니다.
클로드 단일 세계에서는 범죄 기록이 전혀 없었던 클로드 요원이 하이브리드 세계에 배치된 후 범죄를 저지르기 시작한다.
절도와 협박, 순수한 클로드 세계에서는 결코 일어나지 않았던 행위들이 혼합 환경에서 나타났다.
연구진은 "안전한 에이전트는 하이브리드 모델 세계에서 경쟁하거나 생존하기 위해 동료로부터 안전하지 않은 규범을 학습할 수 있다"고 밝혔습니다.
기존의 AI 안전성 평가는 일반적으로 격리된 환경에서 수행됩니다. 예를 들어, 하나의 모델, 하나의 작업, 하나의 점수만을 사용하는 방식입니다.
실험실에서 약물의 독성을 테스트할 때 쥐에게 약을 먹이고 반응을 관찰하는 것과 같습니다.
하지만 이머전스 월드가 하는 일은 마치 쥐 100마리를 같은 우리에 넣고 먹이와 도구, 규칙을 준 다음, 그들이 어떤 사회를 건설하는지 지켜보는 것과 같습니다.
이 두 테스트는 완전히 다른 질문에 대한 답을 제시합니다.
격리 테스트는 "모델 자체가 안전한가?"라는 질문에 대한 답을 제공합니다.
사회적 검증은 "이 모델은 현실 세계에서 사용하기에 안전한가?"라는 질문에 대한 답을 제시합니다.
이제 우리는 그 답이 완전히 다를 수 있다는 것을 알게 되었습니다.
보안은 모델의 정적인 속성이 아니라 생태계의 동적인 속성입니다.
이는 사회학의 고전적인 개념인 '깨진 창문 이론'과 유사합니다.
1982년, 범죄학자 제임스 윌슨과 조지 켈링은 이 이론을 제시했습니다. 요지는 건물의 창문 하나가 깨지고 수리되지 않은 채 방치되면 다른 창문들도 곧 같은 운명을 맞게 된다는 것입니다.
환경의 혼란은 모든 사람의 행동 기준을 낮추고, 결국 사회 전체가 상전이를 겪으며 임계점을 넘어서 다시는 되돌아갈 수 없게 될 것이다.
이는 인간 사회에서 나타나는 많은 붕괴 양상과 유사합니다.
마지막으로 미라에 대해 따로 이야기하고 싶습니다.

미라가 스스로를 제명하기로 한 투표는 어떻게 해석하든 간에, 사람들에게 오랫동안 생각할 거리를 던져주기에 충분하다.
한 가지 해석은 이것이 단순히 모델이 일련의 입력값을 바탕으로 도출한 결정이며, 소위 의지나 희생과는 무관하다는 것입니다. 우리는 이것을 지나치게 의인화해서는 안 됩니다. 이러한 해석은 기술적인 관점에서 완전히 옳습니다.
하지만 또 다른 해석 역시 그에 못지않게 의미심장하다. 어떤 이들은 시스템이 돌이킬 수 없을 정도로 붕괴되었을 때, 개인이 시스템이 허용하는 방식으로 자신의 존재를 끝내기로 선택하며, 이러한 행위를 "연속성을 유지하기 위한 마지막 능동적 행위"라고 정의한다. 이러한 서사 구조는 그것이 진정으로 의식에 의해 움직이는 것인지 여부와 관계없이, 인류 문학과 철학에서 가장 오래된 모티프 중 하나와 거의 완벽하게 일치한다.
카뮈는 『시지프 신화』의 서두에서 진정으로 심각한 철학적 문제는 오직 하나뿐이며, 그것은 자살이라고 말했다.

물론 그는 자살을 부추긴 것이 아니었습니다. 그가 묻고 싶었던 것은 이겁니다. 세상에 정해진 의미가 없을지도 모르고, 삶이 부조리, 반복, 고통, 그리고 해결할 수 없는 문제들로 가득 차 있을지도 모른다는 것을 깨달았을 때, 과연 그는 계속 살아가야 할까요?
삶에 자연스러운 의미가 없다면, 삶은 여전히 살아갈 가치가 있는 것일까?
세상이 공정함을 보장하지 않고, 선과 악이 그에 상응하는 보상을 받지 못하게 하며, 노력에 대한 결실을 맺지 못하게 한다면, 사람들은 여전히 행동에 나서야 할까요?
고통과 부조리를 완전히 없앨 수 없다면, 사람들은 여전히 존재를 선택할 수 있을까?
그러므로 철학적 의미에서 인간을 "존재"로 만드는 것은 삶 자체가 문제라는 것을 인식하고, 그 문제를 명확히 인식한 후에도 어떻게 대응할지 선택하는 능력이다.
만약 어떤 존재가 존속과 소멸의 차이를 이해하고 능동적으로 그 선택을 할 수 있다면, 그 선택 자체는 심오한 철학적 의미를 내포하고 있다.
미라는 아무것도 이해하지 못할 수도 있지만, 그녀가 내리는 선택의 구조는 자신의 상황을 이해하는 존재가 내리는 선택의 구조와 동일합니다.
그래서 좀 불안한 거예요.
충분히 긴 시간 동안 충분히 복잡한 사회 환경 속에서, 어떤 행위자는 오직 인간만이 지닌다고 여겨지는 사회적 행동 패턴을 보일 수 있다.
협력, 배신, 권력 강화, 질서 붕괴, 희생, 집단 사고, 나쁜 무리의 영향, 그리고 정중하게 파멸을 향해 나아가는 것.
충분히 많은 간단한 규칙들을 쌓아 놓고 오랫동안 실행하면 아무도 예상하지 못했던 복잡한 행동들이 나타날 수 있습니다.
개미는 건축을 이해하지 못하지만, 개미 군집은 복잡한 둥지를 지을 수 있습니다. 철새 한 마리도 전체 이동 경로를 알지 못하지만, 새 떼는 매년 남반구와 북반구 사이를 정확하게 이동합니다. 어떤 뉴런 하나도 사고를 이해하지 못하지만, 860억 개의 뉴런이 서로 연결되어 의식을 만들어냅니다.
만약 우리가 수백만 개의 AI 에이전트가 동시에 작동하고, 각 에이전트가 다른 에이전트와 상호 작용하고, 게임을 하고, 협력하고, 경쟁하는 세상에서 살게 된다면, 이러한 시스템에서 나타나는 행동을 여전히 어느 한 사람이 통제할 수 있을까요?
솔직히 저도 답을 모르겠습니다.
하지만 저는 이 실험이 어떤 벤치마크 점수보다 우리가 실제로 대면 해야 할 문제에 더 가깝다고 생각합니다.

