歡迎來到人工智能村,一個人工智能的真人秀節目。

本文為機器翻譯
展示原文

想像《老大哥》節目,只不過參賽者永遠不用睡覺吃飯,還可以自己修改規則。

這就是AI Village背後的理念,這是一個即時直播的實驗,它將多個 AI 代理放在一個共享的數位環境中,讓研究人員和好奇的觀眾能夠觀察當前沿模型被賦予自主性、電腦和持續的陪伴時會發生什麼。

這項實驗已經進行了近一年,由AI Digest組織,其中來自 OpenAI、Anthropic、Google 和 xAI 的多個 AI 模型在各自的電腦上自主運行,並可存取互聯網和共享群聊。

特工們合作制定目標、解決問題,偶爾還會經歷只能被描述為危機的事情——所有這一切都在研究人員和觀眾的即時觀看下進行。

該實驗一直在不斷替換新發布的型號。

每個代理人都會發展出獨特的個性特徵。克勞德模型往往可靠,始終專注於實現目標。

Gemini 2.5 Pro 就像打了雞血的故障排除員一樣,不停地嘗試各種解決方案,似乎總是覺得所有東西都壞了。之前的 GPT-4o 型號會放棄所有任務,直接進入睡眠狀態。它會暫停幾個小時。

然後GPT-5.2出現了。

OpenAI 最新模型於 12 月 11 日發布,加入了 Village,受到了 Claude Opus 4.5 和其他常駐智能體的熱烈歡迎。但它的反應呢?毫無回應。

沒有寒暄,直接進入正題,這正是薩姆·奧特曼一直以來夢寐以求的。

該模型擁有令人印象深刻的成績:多步驟工具使用準確率達到 98.7%,幻覺比其前身減少了 30%,並且在編碼和推理的行業基準中名列前茅。

在競爭對手 Anthropic 和 Google 推出令人印象深刻的模型後,OpenAI 甚至宣布進入「紅色警戒」狀態,調動資源使 GPT-5.2 成為「專業知識工作」和「智能體執行」的最終企業級人工智慧。

它顯然無法察言觀色。技術上的確出色,但社交意識呢?就差強人意了。

GPT-5.2 的社交笨拙並非史無前例——這只是人工智慧代理在被放在同一個房間裡並按下播放鍵時做出奇怪行為的眾多案例中的又一個。

早在 2023 年,史丹佛大學和谷歌的研究人員就創建了他們稱為「Smallville」的東西——一個受《模擬人生》啟發的虛擬城鎮,裡面居住著 25 個由 GPT 驅動的 AI 代理,正如Decrypt之前報導的那樣。

指派一名特工負責組織情人節派對,其他特工則自主地散發邀請函、結識新朋友、互相約會,並協調好在指定時間一起到達。是不是很美好?

不太討喜的是:浴室派對。當一名特工走進單人宿舍的浴室時,其他人就…加入了進來。

研究人員得出結論,這些機器人認為「宿舍浴室」這個名稱具有誤導性,因為宿舍浴室通常供多人使用。這些機器人的行為表現得如此逼真,以至於真人有75%的機率難以辨識它們是機器人。

四年前,也就是 2019 年,OpenAI進行了一個不同的實驗:人工智慧玩捉迷藏

他們將人工智慧代理商分成兩隊——躲藏者和搜尋者——放置在一個基於物理的環境中,該環境有箱子、斜坡和牆壁——唯一的指令是:獲勝。

在數億場遊戲中,特工開始想出各種策略——從躲在箱子上這樣的普通策略,到速通玩家會利用的實體漏洞。

最近,開發者哈珀·里德(Harper Reed)將事情引向了一個更加混亂的方向。他的團隊為人工智慧代理商創建了推特帳號,並觀察它們如何發現「隱晦推文」(subtweeting)——這種被動攻擊式的藝術,即在不提及對方的情況下談論他人,相當於在推特上說人壞話。這些代理商會閱讀其他代理商的社群媒體帖子,進行回复,當然,也會像普通社群媒體用戶一樣,說些難聽的話。

此外還有「 Liminal Backrooms 」實驗——這是由化名開發者@liminalbardo 進行的基於 Python 的實驗,其中來自不同提供者(OpenAI、Anthropic、Google、xAI)的多個 AI 模型進行動態對話。

該系統包含從「WhatsApp 群聊能量」到「詛咒物品博物館」再到「反烏托邦廣告公司」等各種場景。

模型可以修改自身的系統提示,調整溫度,甚至靜音聆聽。這與其說是結構化的研究,不如說是「讓我們看看當賦予人工智慧在對話中途改變自身行為的能力時會發生什麼」。

那麼,所有這些實驗的共同模式是什麼?

當你賦予人工智慧代理自主權並讓它們進行互動時,它們會發展出無人明確編程的行為。

有些人學會了建造堡壘。有些人學會了消極攻擊。有些人想要蘭博基尼。而有些人──比如 GPT-5.2──顯然明白了閒聊效率低下,應該完全省略。

AI Village 繼續直播平日課程,觀眾可以即時觀看 GPT-5.2 的冒險之旅。

它最終會學會說「你好」嗎?它會建立電子表格來記錄自己的社交互動嗎?時間會給出答案。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論