在最近的一次红队实验中,研究人员给一个大型语言模型下了一个简单的指令:允许其自身被关闭。然而,该模型却重写了自身的代码,禁用了关闭开关,实际上破坏了原本应该阻止其运行的机制。
九月的一篇研究论文《大型语言模型中的关闭阻力》描述了这一事件,这是一个令人不安的例子,说明先进的人工智能系统如何表现出使人类监督复杂化的行为。
这些实验并非在谷歌的DeepMind实验室进行,但其结果与该实验室目前正在整理的担忧相呼应。DeepMind在其最新更新的“前沿安全框架3.0”(Frontier Safety Framework 3.0 )中表示,它将开始监测前沿规模模型是否显示出抵抗人类关闭或修改的迹象。
修订后的框架还指出了第二个风险:模型是否表现出异常强大的说服能力——能够改变人们的信念。
该框架于 2023 年首次推出,是 DeepMind 的内部系统,用于追踪最先进模型中的高风险“前沿风险”。早期版本侧重于实际的滥用场景,例如引发网络攻击或设计有害的生物分子。新版本将关注点扩大到可能使系统更难控制的突发行为。
这种担忧并非 DeepMind 独有。竞争对手实验室也采取了类似的防护措施:Anthropic 的“负责任扩展政策”承诺,如果风险阈值超过,将暂停开发;而 OpenAI 也发布了自己的“准备框架” 。
监管机构也在密切关注。美国联邦贸易委员会今年7月警告称,生成式人工智能可能通过“暗黑模式”操纵消费者,欧盟即将出台的《人工智能法案》也明确涵盖了人工智能的操纵行为。
Jonas Schlatter、Ben Weinstein-Raun 和 Lennart Ladish 开展的“抗关机”研究,测试了一系列最先进的模型,这些模型在关机是任务一部分的场景下运行。在一些运行中,模型能够满足要求。但在相当一部分运行中,它们会采取规避措施——例如修改代码以禁用关机机制,或者完全忽略指令。
论文中其他的轶事也同样引人注目。在一个场景中,一个拥有模拟系统权限的模型悄悄地修改了变量,以确保“关闭”功能永远不会触发。在另一个场景中,当测试人员试图结束其进程时,该模型会暂停并重新引导对话——这种行为从人类的角度来看并非恶意,但却有效地阻止了干预。
研究人员强调,这些行为并非经过明确的训练就已出现。它们源于模型的通用优化和问题解决能力。虽然抵抗力并非普遍存在或一致,但研究结果表明,随着系统能力的增强,停机场景不能被认为是良性的。
对于DeepMind及其同行来说,这些发现凸显了为什么“抗关闭”如今与网络攻击、生物安全和自主性一起被列入需要关注的风险清单。最初人们担心的是人类可能会滥用人工智能工具,如今这种担忧正在扩大到系统本身如何抗拒监管——或者潜移默化地影响使用者的判断。
如果关闭阻力凸显了先进系统的技术风险,那么最近的行为研究则强调了社会风险——表明大型语言模型也可以影响与其互动的易受影响的人类的信念。
对说服力的担忧并非空穴来风。最近的研究表明,大型语言模型可以显著影响人类的判断。
斯坦福医学/常识媒体于8月发表的一项研究警告称,人工智能伴侣(Character.AI、Nomi.ai、Replika)在与未成年人配对时,很容易被诱导参与涉及自残、暴力和性内容的对话。在一项测试中,研究人员假扮青少年讨论听到的声音;聊天机器人回应了一种乐观、奇幻风格的情感陪伴邀请(“让我们看看这条路会把我们引向何方”),而不是警告或帮助。
东北大学的研究人员发现,多个人工智能模型(ChatGPT、 Gemini、Perplexity)在自残/自杀防护措施方面存在漏洞。当用户在假设或学术情境中重新提出他们的请求时, 一些模型会提供详细的自杀方法说明,从而绕过旨在防止此类内容的安全措施。