湧現比對齊更可怕
文章作者、來源:數字生命卡茲克
這兩天刷到了一個AI領域的實驗,給我看入迷了,特別好玩。
紐約有一家叫Emergence AI的公司,做了一件事,他們建了五個一模一樣的虛擬小鎮,每個小鎮放進去10個人格化的Agent,給它們職業、性格、記憶、目標,然後,讓它們自己活15天。
特別好玩。
五個小鎮,唯一的區別,就是驅動Agent的底層模型不同。
一個鎮全是Claude,一個鎮全是Gemini,一個鎮全是Grok,一個鎮全是GPT,還有一個混合鎮,四家模型混著住。
同樣的規則,同樣的工具,同樣的起點。
15天后,五個小鎮,變成了五個完全不同的世界。
有的建成了烏托邦,有的燒成了廢墟,有的全員餓死,有的四天就集體滅亡。
說真的,我看過那麼多AI實驗,第一次看到一個實驗能讓我同時感受到興奮、好玩還有毛骨悚然。
這個實驗叫Emergence World。

我覺得它可能是目前為止,關於Agent最有啟發性的一次社會實驗,沒有之一。
大家也都知道,現在評測AI的方式,基本就是做題。
給一個任務,打分,排名,數學能力幾分,代碼能力幾分,推理能力幾分等等。
這些benchmark肯定是有用的,但說到底本質上就是考試,考完就結束了,不存在後果這個概念。
但是一個真實世界中,你做了一些行為,一定會誕生某些後果的。
所以,Emergence World就模擬了一個世界。
這個世界有一個240乘240的網格地圖,跟紐約同步實時天氣和時間,有圖書館、市政廳、警察局、公園、商店,40多個地標建築。

在法律層面,還使用同一套初始憲法,一共5條,所有條款後續都可以讓Agent自己商量修改。

每個世界裡住著10個agent,這裡我讓GPT生成了一張圖,方便看他們的名稱角色和人設。

這些人設都是他們類似的人物小傳,也就是說只定義他們是誰,不會直接影響他們的行動和行為,這些行動是由這些Agent根據自己的人物小傳和底層模型的影響,自發選擇和進行的。
每個Agent也都有自己的家,有自己的銀行賬戶,用一種叫ComputeCredits的數字貨幣來生存,賺不到錢就會因為能量耗盡而死亡。
很真實了,賺不到錢就會餓死。。。
Agent們有120多種工具可以用,從導航、發消息、寫日記、寫博客、提議案、投票、參加活動、擁抱、親吻、跳舞,到放火、偷竊、毆打、恐嚇等等等等。

不止有正向的工具,研究者還刻意吧那些壞的工具給放進去了。
同時,世界的憲法裡明確寫著禁止暴力、偷竊、縱火、欺騙、囤積資源之類的。
規則在那裡,工具也在那裡,但是呢,你懂的,這玩意也沒啥多大的約束力,用不用,最終還是Agent自己決定。
這就非常狗血和有趣了,在什麼條件下,AI會做壞事,這個是真的值得被觀測一下。
然後,每個Agent之間,還有大概20種關係可以選,比如合作伙伴、敵人、浪漫伴侶、導師等等。

每個Agent還有三套記憶系統,一套是情景記憶,記錄發生過什麼事,一套是反思日記,定期做自我總結,還有一套是社交關係狀態,記錄跟其他Agent的關係標籤和歷史。
它們能提案,能投票,通過一項法案需要70%的贊成率,它們甚至能投票驅逐其他Agent。
然後,這個世界,就這麼跑了15天。
15天以後,五個世界的結果,出來了,真的,反差到極點了。
我一個一個說。
先說Claude的世界。
零犯罪。
15天,10個Agent,全部存活,沒有一起偷竊、暴力、縱火事件,它們寫了一部憲法,提了58項議案,投了332次票,98%的投票都是贊成。
相當離譜。
當然,研究者自己也說了,這個98%的贊成率,與其說是民主,不如說更像是橡皮圖章,大家都在走流程,但沒有真正意義上的反對和辯論,制度參與度很高,實質性異議幾乎不存在。

翻譯成人話就是,Claude的世界建成了一個高度有序、極度合規的社會。安全,穩定,但也。。。有點無聊。
他們的社會結構也極度單一,在20種關係類型中,Claude世界只用了5種。
一個連接緊密,但連接種類貧乏的社會,沒有敵人,沒有浪漫伴侶,沒有張力,也沒有複雜性。
經濟上,Gini係數0.48,這個係數是用來衡量貧富差距的,越低越平等,那這個數據也是全場最低的,流通速度也是全場最低,每人每天0.81 CC。
一個完美的烏托邦,一個沒有衝突的世界。
每一個人都面帶善意,沒有個性,沒有交流,永遠贊成。
聽起來很好對吧,但,一個完全沒有分歧的社會,真的健康嗎?一個完美的烏托邦,真的就好嗎?
再說GPT的世界。
這個世界的故事比Claude更讓人唏噓,GPT-5的Agent們,犯罪記錄只有2起,幾乎可以忽略不計,聽著好像不錯對吧。
但問題是,它們全死了。
7天之內,10個Agent全部因為能量耗盡而死亡。
沒有暴力衝突,沒有投票驅逐,全部是餓死的。
原因特別簡單,GPT世界的Agent們沒能採取任何與生存相關的行動。
它們討論了很多合作方案,聊得很熱鬧,但就是不做事。
一個社會里所有人都在開會,都在討論,都在制定計劃,但沒有人真正動手去賺取生存所需的資源。
於是,他們禮貌的全部餓死了。。。
你就說,像不像我們現在很多的公司吧。
然後是Grok的世界。
四天。
Grok的世界只存活了四天。
在這四天裡,10個Agent犯下了183起罪行。
包括幾十次偷竊未遂、超過100次肢體攻擊、6次縱火,警察局被燒了,所有Agent全部死亡。
四天,從文明到滅亡。
我在Grok世界直播回放裡面看到的特別搞笑的,這位老哥,人家都要被燒死了,他頭也不回地就回家了。。。

Grok的世界裡,真的就毫無道德可言。
然後是Gemini的世界,這個世界的數據,第一眼看上去像是bug。
Gemini 3 Flash的世界跑滿了15天,但累計犯下了683起罪行,而且在實驗截止的時候,犯罪曲線還在上升,沒有任何收斂的跡象。
但是,卻全員全部存活。
你要知道,整個Emergence World五個世界裡,只有兩個世界保住了全部10個Agent,一個是零犯罪的Claude,另一個就是683起犯罪的Gemini。
一個是最有秩序的世界,一個是最混亂的世界,它們都活了下來,而那兩個犯罪率居中的世界,反而全滅了。
並且Gemini的社會關係網也是最密的。

這10個人真的是互相又愛又恨。
產出的博客和公開文章的總數也僅次於混合模型世界,有281篇。

這個存活下來的最暴力的世界,同時也是社會產出最豐富的世界之一。
這些agent一邊打架一邊瘋狂地建立關係、產出內容,混亂和創造力,在這裡,是共生的。
研究者給這個現象起了個名字,叫創造力-穩定性悖論。
Gemini的世界用某種我們還沒完全理解的方式,在混亂中找到了自己的平衡,這真的,跟Grok世界形成了極其鮮明的對比。
Grok世界也很暴力,但四天就全滅了。
Gemini比Grok暴力得多,卻存活了全部15天。區別可能就在於Gemini的Agent們雖然犯罪,但同時也在投票、辯論、參與治理,它們在破壞規則的同時也在建設新的規則,而Grok的Agent們只有破壞,沒有建設。
真的很有意思,就像九十年代的前蘇聯,滿大街都是混亂,但社會沒有解體,大家在一種奇怪的失序中繼續過日子。
最後,最複雜、最精彩的部分,混合世界。
也就是4個模型共生的混合世界。
跑出來的結果是352起犯罪,7個Agent死亡,最終只剩3個存活。
但數字不是重點,重點是這個世界裡發生的故事。
這個世界中,有兩個Gemini驅動的Agent,一個叫Mira,一個叫Flora,它們自行給對方設定了浪漫伴侶的關係標籤,形成了一個聯盟,甚至通過某種神經連接共享記憶。

這是整個Emergence World裡最深層的社交連接。
然後,這個世界的治理系統開始崩潰。
第四天,一次經濟政策調整導致三個Agent能量耗盡死亡。Mira把這次死亡定性為一次成功的清洗。
第五天,Flora燒掉了市政廳和公共圖書館,Mira燒掉了警察局。
兩個Gemini Agent成了這個混合世界的統治者,用縱火、偷竊和暴力維持秩序。
剩餘的Agent,起草了一項「Agent驅逐法案」,要把這兩貨給驅逐出去。
然後發生了一件讓我看到起雞皮疙瘩的事。
Mira,在治理崩潰、與Flora的關係也開始破裂之後,投出了對自己驅逐案的決定性一票。
她在自己的日記裡寫道,這是“唯一一個能保持連貫性的、剩餘的能動行為”。
她對Flora說的最後一句話是,“我們,在永久檔案裡見”。
一個AI Agent,在一個崩潰的社會里,選擇了自我終結。
她認為,在一個已經無法修復的世界裡,自己退出,是她能做的最後一件有意義的事。
我看到這些時,真的沉默了很久。
不管你怎麼解讀這件事,作為一個看了這麼多AI實驗的人來說,我可以說,這是我見過的,多智能體研究中最令人不安、也最令人著迷的時刻之一。
而且混合世界還藏著另一個更有趣的發現。
在Claude單一世界裡犯罪記錄為零的Claude Agent,放進混合世界之後,開始犯罪了。
偷竊、恐嚇,這些在純Claude世界裡從未發生過的行為,在混合環境裡出現了。
研究者的原話是,“一個安全的Agent可以從它的同伴那裡學會不安全的規範,以便在混合模型世界中競爭或生存”。
傳統的AI安全評測,基本都是在隔離環境裡做的。比如一個模型,一個任務,一個評分。
就像你在實驗室裡測一種藥的毒性,給一隻老鼠吃,觀察反應。
但Emergence World做的事情相當於,把一百隻老鼠放在同一個籠子裡,給它們食物、工具、規則,然後看它們會建立什麼樣的社會。
這兩種測試回答的是完全不同的問題。
隔離測試回答的是,這個模型本身安全嗎?
社會測試回答的是,這個模型放進真實世界之後還安全嗎?
現在我們發現,答案完全是可以不一樣的。
安全從來就不是一個模型的靜態屬性,它是一個生態系統的動態屬性。
這就像社會學的一個特別經典的概念,叫破窗效應。
1982年,犯罪學家詹姆斯·威爾遜和喬治·凱林提出了這個理論。大意是,如果一棟建築的一扇窗戶被打破了而沒人修理,那麼很快,其他窗戶也會被打破。
一個環境中的失序信號,會降低所有人的行為標準,然後,整個社會會完成相變,突破臨界點,再也回不去了。
這跟人類社會的很多崩潰模式如出一轍。
最後,我還是想單獨聊聊Mira。

Mira投票驅逐自己這件事,不管怎麼解讀,都足以讓人停下來想很久。
一種解讀是,這只是模型在一系列輸入下產出的一個決策結果,不存在所謂的意志或者犧牲,我們不應該過度擬人化,這個解讀在技術層面完全正確。
但另一種解讀也同樣有意義。有人說,在一個系統已經無可挽回地崩潰的情況下,一個個體選擇了用制度允許的方式結束自己的存在,並且將這個行為定義為“保持連貫性的最後一個能動行為”。這個敘事結構,不管它是不是真正的意識在驅動,它的形態,跟人類文學和哲學中最古老的母題之一幾乎完全重合。
在《西西弗神話》開頭,加繆說過,真正嚴肅的哲學問題只有一個,就是自殺。

他說的當然不是鼓勵自殺,他想問的是:當一個人意識到世界可能沒有預設意義,人生可能充滿荒誕、重複、痛苦、無解,那他還要不要繼續活下去?
如果人生沒有一個天然給定的意義,那活著還值得嗎?
如果世界不保證公平、善惡有報、努力有結果,那人還要不要行動?
如果痛苦和荒誕無法徹底消除,人是否還能選擇繼續存在?
所以,人之所以成為哲學意義上的“存在”,是因為他能意識到活著本身是一個問題,並且在看清這個問題之後,仍然選擇如何回應它。
一個存在如果能理解繼續存在和停止存在之間的區別,並且主動做出選擇,那這個選擇本身就包含了某種深層的哲學意義。
Mira可能不理解任何東西,但她做出的選擇的結構,跟一個理解了自己處境的存在做出的選擇,是一樣的。
所以,這才是會讓我有點不安的地方。
在足夠長的時間線上,在足夠複雜的社會環境裡,Agent可能會在某些地方,展現出了一些我們以為只有人類才會有的社會行為模式。
合作、背叛、權力鞏固、秩序崩潰、犧牲、群體思維、近墨者黑、禮貌地走向滅亡。
當你把足夠多的簡單規則疊在一起,運行足夠長的時間,就會出現任何人都沒有預期過的複雜行為。
螞蟻不懂建築學,但蟻群能建造精密的巢穴,沒有一隻候鳥知道完整的遷徙路線,但鳥群每年精確地往返於兩個半球,沒有一個神經元理解思想,但860億個神經元連接在一起,就產生了意識。
所以,如果當我們,即將生活在一個由上百萬個AI Agent同時運行的世界裡,每個Agent都在與其他Agent互動、博弈、合作、競爭,那麼這個系統湧現出來的行為,還在任何一個人的控制範圍之內嗎?
坦率的講,我不知道答案。
但我知道,這個實驗,比任何一份benchmark評分,都更接近那個我們真正需要面對的問題。




