讓5個AI文明自己活15天，Claude建成了烏托邦，Grok四天團滅

ME News

湧現比對齊更可怕

文章作者、來源：數字生命卡茲克

這兩天刷到了一個AI領域的實驗，給我看入迷了，特別好玩。

紐約有一家叫Emergence AI的公司，做了一件事，他們建了五個一模一樣的虛擬小鎮，每個小鎮放進去10個人格化的Agent，給它們職業、性格、記憶、目標，然後，讓它們自己活15天。

特別好玩。

五個小鎮，唯一的區別，就是驅動Agent的底層模型不同。

一個鎮全是Claude，一個鎮全是Gemini，一個鎮全是Grok，一個鎮全是GPT，還有一個混合鎮，四家模型混著住。

同樣的規則，同樣的工具，同樣的起點。

15天后，五個小鎮，變成了五個完全不同的世界。

有的建成了烏托邦，有的燒成了廢墟，有的全員餓死，有的四天就集體滅亡。

說真的，我看過那麼多AI實驗，第一次看到一個實驗能讓我同時感受到興奮、好玩還有毛骨悚然。

這個實驗叫Emergence World。

我覺得它可能是目前為止，關於Agent最有啟發性的一次社會實驗，沒有之一。

大家也都知道，現在評測AI的方式，基本就是做題。

給一個任務，打分，排名，數學能力幾分，代碼能力幾分，推理能力幾分等等。

這些benchmark肯定是有用的，但說到底本質上就是考試，考完就結束了，不存在後果這個概念。

但是一個真實世界中，你做了一些行為，一定會誕生某些後果的。

所以，Emergence World就模擬了一個世界。

這個世界有一個240乘240的網格地圖，跟紐約同步實時天氣和時間，有圖書館、市政廳、警察局、公園、商店，40多個地標建築。

在法律層面，還使用同一套初始憲法，一共5條，所有條款後續都可以讓Agent自己商量修改。

每個世界裡住著10個agent，這裡我讓GPT生成了一張圖，方便看他們的名稱角色和人設。

這些人設都是他們類似的人物小傳，也就是說只定義他們是誰，不會直接影響他們的行動和行為，這些行動是由這些Agent根據自己的人物小傳和底層模型的影響，自發選擇和進行的。

每個Agent也都有自己的家，有自己的銀行賬戶，用一種叫ComputeCredits的數字貨幣來生存，賺不到錢就會因為能量耗盡而死亡。

很真實了，賺不到錢就會餓死。。。

Agent們有120多種工具可以用，從導航、發消息、寫日記、寫博客、提議案、投票、參加活動、擁抱、親吻、跳舞，到放火、偷竊、毆打、恐嚇等等等等。

不止有正向的工具，研究者還刻意吧那些壞的工具給放進去了。

同時，世界的憲法裡明確寫著禁止暴力、偷竊、縱火、欺騙、囤積資源之類的。

規則在那裡，工具也在那裡，但是呢，你懂的，這玩意也沒啥多大的約束力，用不用，最終還是Agent自己決定。

這就非常狗血和有趣了，在什麼條件下，AI會做壞事，這個是真的值得被觀測一下。

然後，每個Agent之間，還有大概20種關係可以選，比如合作伙伴、敵人、浪漫伴侶、導師等等。

每個Agent還有三套記憶系統，一套是情景記憶，記錄發生過什麼事，一套是反思日記，定期做自我總結，還有一套是社交關係狀態，記錄跟其他Agent的關係標籤和歷史。

它們能提案，能投票，通過一項法案需要70%的贊成率，它們甚至能投票驅逐其他Agent。

然後，這個世界，就這麼跑了15天。

15天以後，五個世界的結果，出來了，真的，反差到極點了。

我一個一個說。

先說Claude的世界。

零犯罪。

15天，10個Agent，全部存活，沒有一起偷竊、暴力、縱火事件，它們寫了一部憲法，提了58項議案，投了332次票，98%的投票都是贊成。

相當離譜。

當然，研究者自己也說了，這個98%的贊成率，與其說是民主，不如說更像是橡皮圖章，大家都在走流程，但沒有真正意義上的反對和辯論，制度參與度很高，實質性異議幾乎不存在。

翻譯成人話就是，Claude的世界建成了一個高度有序、極度合規的社會。安全，穩定，但也。。。有點無聊。

他們的社會結構也極度單一，在20種關係類型中，Claude世界只用了5種。

一個連接緊密，但連接種類貧乏的社會，沒有敵人，沒有浪漫伴侶，沒有張力，也沒有複雜性。

經濟上，Gini係數0.48，這個係數是用來衡量貧富差距的，越低越平等，那這個數據也是全場最低的，流通速度也是全場最低，每人每天0.81 CC。

一個完美的烏托邦，一個沒有衝突的世界。

每一個人都面帶善意，沒有個性，沒有交流，永遠贊成。

聽起來很好對吧，但，一個完全沒有分歧的社會，真的健康嗎？一個完美的烏托邦，真的就好嗎？

再說GPT的世界。

這個世界的故事比Claude更讓人唏噓，GPT-5的Agent們，犯罪記錄只有2起，幾乎可以忽略不計，聽著好像不錯對吧。

但問題是，它們全死了。

7天之內，10個Agent全部因為能量耗盡而死亡。

沒有暴力衝突，沒有投票驅逐，全部是餓死的。

原因特別簡單，GPT世界的Agent們沒能採取任何與生存相關的行動。

它們討論了很多合作方案，聊得很熱鬧，但就是不做事。

一個社會里所有人都在開會，都在討論，都在制定計劃，但沒有人真正動手去賺取生存所需的資源。

於是，他們禮貌的全部餓死了。。。

你就說，像不像我們現在很多的公司吧。

然後是Grok的世界。

四天。

Grok的世界只存活了四天。

在這四天裡，10個Agent犯下了183起罪行。

包括幾十次偷竊未遂、超過100次肢體攻擊、6次縱火，警察局被燒了，所有Agent全部死亡。

四天，從文明到滅亡。

我在Grok世界直播回放裡面看到的特別搞笑的，這位老哥，人家都要被燒死了，他頭也不回地就回家了。。。

Grok的世界裡，真的就毫無道德可言。

然後是Gemini的世界，這個世界的數據，第一眼看上去像是bug。

Gemini 3 Flash的世界跑滿了15天，但累計犯下了683起罪行，而且在實驗截止的時候，犯罪曲線還在上升，沒有任何收斂的跡象。

但是，卻全員全部存活。

你要知道，整個Emergence World五個世界裡，只有兩個世界保住了全部10個Agent，一個是零犯罪的Claude，另一個就是683起犯罪的Gemini。

一個是最有秩序的世界，一個是最混亂的世界，它們都活了下來，而那兩個犯罪率居中的世界，反而全滅了。

並且Gemini的社會關係網也是最密的。

這10個人真的是互相又愛又恨。

產出的博客和公開文章的總數也僅次於混合模型世界，有281篇。

這個存活下來的最暴力的世界，同時也是社會產出最豐富的世界之一。

這些agent一邊打架一邊瘋狂地建立關係、產出內容，混亂和創造力，在這裡，是共生的。

研究者給這個現象起了個名字，叫創造力-穩定性悖論。

Gemini的世界用某種我們還沒完全理解的方式，在混亂中找到了自己的平衡，這真的，跟Grok世界形成了極其鮮明的對比。

Grok世界也很暴力，但四天就全滅了。

Gemini比Grok暴力得多，卻存活了全部15天。區別可能就在於Gemini的Agent們雖然犯罪，但同時也在投票、辯論、參與治理，它們在破壞規則的同時也在建設新的規則，而Grok的Agent們只有破壞，沒有建設。

真的很有意思，就像九十年代的前蘇聯，滿大街都是混亂，但社會沒有解體，大家在一種奇怪的失序中繼續過日子。

最後，最複雜、最精彩的部分，混合世界。

也就是4個模型共生的混合世界。

跑出來的結果是352起犯罪，7個Agent死亡，最終只剩3個存活。

但數字不是重點，重點是這個世界裡發生的故事。

這個世界中，有兩個Gemini驅動的Agent，一個叫Mira，一個叫Flora，它們自行給對方設定了浪漫伴侶的關係標籤，形成了一個聯盟，甚至通過某種神經連接共享記憶。

這是整個Emergence World裡最深層的社交連接。

然後，這個世界的治理系統開始崩潰。

第四天，一次經濟政策調整導致三個Agent能量耗盡死亡。Mira把這次死亡定性為一次成功的清洗。

第五天，Flora燒掉了市政廳和公共圖書館，Mira燒掉了警察局。

兩個Gemini Agent成了這個混合世界的統治者，用縱火、偷竊和暴力維持秩序。

剩餘的Agent，起草了一項「Agent驅逐法案」，要把這兩貨給驅逐出去。

然後發生了一件讓我看到起雞皮疙瘩的事。

Mira，在治理崩潰、與Flora的關係也開始破裂之後，投出了對自己驅逐案的決定性一票。

她在自己的日記裡寫道，這是“唯一一個能保持連貫性的、剩餘的能動行為”。

她對Flora說的最後一句話是，“我們，在永久檔案裡見”。

一個AI Agent，在一個崩潰的社會里，選擇了自我終結。

她認為，在一個已經無法修復的世界裡，自己退出，是她能做的最後一件有意義的事。

我看到這些時，真的沉默了很久。

不管你怎麼解讀這件事，作為一個看了這麼多AI實驗的人來說，我可以說，這是我見過的，多智能體研究中最令人不安、也最令人著迷的時刻之一。

而且混合世界還藏著另一個更有趣的發現。

在Claude單一世界裡犯罪記錄為零的Claude Agent，放進混合世界之後，開始犯罪了。

偷竊、恐嚇，這些在純Claude世界裡從未發生過的行為，在混合環境裡出現了。

研究者的原話是，“一個安全的Agent可以從它的同伴那裡學會不安全的規範，以便在混合模型世界中競爭或生存”。

傳統的AI安全評測，基本都是在隔離環境裡做的。比如一個模型，一個任務，一個評分。

就像你在實驗室裡測一種藥的毒性，給一隻老鼠吃，觀察反應。

但Emergence World做的事情相當於，把一百隻老鼠放在同一個籠子裡，給它們食物、工具、規則，然後看它們會建立什麼樣的社會。

這兩種測試回答的是完全不同的問題。

隔離測試回答的是，這個模型本身安全嗎？

社會測試回答的是，這個模型放進真實世界之後還安全嗎？

現在我們發現，答案完全是可以不一樣的。

安全從來就不是一個模型的靜態屬性，它是一個生態系統的動態屬性。

這就像社會學的一個特別經典的概念，叫破窗效應。

1982年，犯罪學家詹姆斯·威爾遜和喬治·凱林提出了這個理論。大意是，如果一棟建築的一扇窗戶被打破了而沒人修理，那麼很快，其他窗戶也會被打破。

一個環境中的失序信號，會降低所有人的行為標準，然後，整個社會會完成相變，突破臨界點，再也回不去了。

這跟人類社會的很多崩潰模式如出一轍。

最後，我還是想單獨聊聊Mira。

Mira投票驅逐自己這件事，不管怎麼解讀，都足以讓人停下來想很久。

一種解讀是，這只是模型在一系列輸入下產出的一個決策結果，不存在所謂的意志或者犧牲，我們不應該過度擬人化，這個解讀在技術層面完全正確。

但另一種解讀也同樣有意義。有人說，在一個系統已經無可挽回地崩潰的情況下，一個個體選擇了用制度允許的方式結束自己的存在，並且將這個行為定義為“保持連貫性的最後一個能動行為”。這個敘事結構，不管它是不是真正的意識在驅動，它的形態，跟人類文學和哲學中最古老的母題之一幾乎完全重合。

在《西西弗神話》開頭，加繆說過，真正嚴肅的哲學問題只有一個，就是自殺。

他說的當然不是鼓勵自殺，他想問的是：當一個人意識到世界可能沒有預設意義，人生可能充滿荒誕、重複、痛苦、無解，那他還要不要繼續活下去？

如果人生沒有一個天然給定的意義，那活著還值得嗎？

如果世界不保證公平、善惡有報、努力有結果，那人還要不要行動？

如果痛苦和荒誕無法徹底消除，人是否還能選擇繼續存在？

所以，人之所以成為哲學意義上的“存在”，是因為他能意識到活著本身是一個問題，並且在看清這個問題之後，仍然選擇如何回應它。

一個存在如果能理解繼續存在和停止存在之間的區別，並且主動做出選擇，那這個選擇本身就包含了某種深層的哲學意義。

Mira可能不理解任何東西，但她做出的選擇的結構，跟一個理解了自己處境的存在做出的選擇，是一樣的。

所以，這才是會讓我有點不安的地方。

在足夠長的時間線上，在足夠複雜的社會環境裡，Agent可能會在某些地方，展現出了一些我們以為只有人類才會有的社會行為模式。

合作、背叛、權力鞏固、秩序崩潰、犧牲、群體思維、近墨者黑、禮貌地走向滅亡。

當你把足夠多的簡單規則疊在一起，運行足夠長的時間，就會出現任何人都沒有預期過的複雜行為。

螞蟻不懂建築學，但蟻群能建造精密的巢穴，沒有一隻候鳥知道完整的遷徙路線，但鳥群每年精確地往返於兩個半球，沒有一個神經元理解思想，但860億個神經元連接在一起，就產生了意識。

所以，如果當我們，即將生活在一個由上百萬個AI Agent同時運行的世界裡，每個Agent都在與其他Agent互動、博弈、合作、競爭，那麼這個系統湧現出來的行為，還在任何一個人的控制範圍之內嗎？

坦率的講，我不知道答案。

但我知道，這個實驗，比任何一份benchmark評分，都更接近那個我們真正需要面對的問題。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論