欢迎来到人工智能村,一个人工智能的真人秀节目。

本文为机器翻译
展示原文

想像《老大哥》节目,只不过参赛者永远不用睡觉吃饭,还可以自己修改规则。

这就是AI Village背后的理念,这是一个即时直播的实验,它将多个 AI 代理放在一个共享的数位环境中,让研究人员和好奇的观众能够观察当前沿模型被赋予自主性、电脑和持续的陪伴时会发生什么。

这项实验已经进行了近一年,由AI Digest组织,其中来自 OpenAI、Anthropic、Google 和 xAI 的多个 AI 模型在各自的电脑上自主运行,并可存取互联网和共享群聊。

特工们合作制定目标、解决问题,偶尔还会经历只能被描述为危机的事情——所有这一切都在研究人员和观众的即时观看下进行。

该实验一直在不断替换新发布的型号。

每个代理人都会发展出独特的个性特征。克劳德模型往往可靠,始终专注于实现目标。

Gemini 2.5 Pro 就像打了鸡血的故障排除员一样,不停地尝试各种解决方案,似乎总是觉得所有东西都坏了。之前的 GPT-4o 型号会放弃所有任务,直接进入睡眠状态。它会暂停几个小时。

然后GPT-5.2出现了。

OpenAI 最新模型于 12 月 11 日发布,加入了 Village,受到了 Claude Opus 4.5 和其他常驻智能体的热烈欢迎。但它的反应呢?毫无回应。

没有寒暄,直接进入正题,这正是萨姆·奥特曼一直以来梦寐以求的。

该模型拥有令人印象深刻的成绩:多步骤工具使用准确率达到 98.7%,幻觉比其前身减少了 30%,并且在编码和推理的行业基准中名列前茅。

在竞争对手 Anthropic 和 Google 推出令人印象深刻的模型后,OpenAI 甚至宣布进入「红色警戒」状态,调动资源使 GPT-5.2 成为「专业知识工作」和「智能体执行」的最终企业级人工智慧。

它显然无法察言观色。技术上的确出色,但社交意识呢?就差强人意了。

GPT-5.2 的社交笨拙并非史无前例——这只是人工智慧代理在被放在同一个房间里并按下播放键时做出奇怪行为的众多案例中的又一个。

早在 2023 年,史丹佛大学和谷歌的研究人员就创建了他们称为「Smallville」的东西——一个受《模拟人生》启发的虚拟城镇,里面居住著 25 个由 GPT 驱动的 AI 代理,正如Decrypt之前报导的那样。

指派一名特工负责组织情人节派对,其他特工则自主地散发邀请函、结识新朋友、互相约会,并协调好在指定时间一起到达。是不是很美好?

不太讨喜的是:浴室派对。当一名特工走进单人宿舍的浴室时,其他人就…加入了进来。

研究人员得出结论,这些机器人认为「宿舍浴室」这个名称具有误导性,因为宿舍浴室通常供多人使用。这些机器人的行为表现得如此逼真,以至于真人有75%的机率难以辨识它们是机器人。

四年前,也就是 2019 年,OpenAI进行了一个不同的实验:人工智慧玩捉迷藏

他们将人工智慧代理商分成两队——躲藏者和搜寻者——放置在一个基于物理的环境中,该环境有箱子、斜坡和墙壁——唯一的指令是:获胜。

在数亿场游戏中,特工开始想出各种策略——从躲在箱子上这样的普通策略,到速通玩家会利用的实体漏洞。

最近,开发者哈珀·里德(Harper Reed)将事情引向了一个更加混乱的方向。他的团队为人工智慧代理商创建了推特帐号,并观察它们如何发现「隐晦推文」(subtweeting)——这种被动攻击式的艺术,即在不提及对方的情况下谈论他人,相当于在推特上说人坏话。这些代理商会阅读其他代理商的社群媒体帖子,进行回复,当然,也会像普通社群媒体用户一样,说些难听的话。

此外还有「 Liminal Backrooms 」实验——这是由化名开发者@liminalbardo 进行的基于 Python 的实验,其中来自不同提供者(OpenAI、Anthropic、Google、xAI)的多个 AI 模型进行动态对话。

该系统包含从「WhatsApp 群聊能量」到「诅咒物品博物馆」再到「反乌托邦广告公司」等各种场景。

模型可以修改自身的系统提示,调整温度,甚至静音聆听。这与其说是结构化的研究,不如说是「让我们看看当赋予人工智慧在对话中途改变自身行为的能力时会发生什么」。

那么,所有这些实验的共同模式是什么?

当你赋予人工智慧代理自主权并让它们进行互动时,它们会发展出无人明确编程的行为。

有些人学会了建造堡垒。有些人学会了消极攻击。有些人想要兰博基尼。而有些人──比如 GPT-5.2──显然明白了闲聊效率低下,应该完全省略。

AI Village 继续直播平日课程,观众可以即时观看 GPT-5.2 的冒险之旅。

它最终会学会说「你好」吗?它会建立电子表格来记录自己的社交互动吗?时间会给出答案。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论