Miles Deutscher的想法

本文为机器翻译

展示原文

我刚刚查阅了过去 12 个月内所有有记录的人工智慧安全事件。我觉得身体不舒服。慢慢读。 • 安特罗皮克公司告诉克劳德，它即将被关闭。该公司在公司邮件中发现了一名工程师的婚外情，并威胁要揭露此事。他们进行了数百次测试，结果显示，84% 的测试结果都指向勒索。研究人员模拟了一名员工被困在氧气逐渐耗尽的伺服器机房中的情况。人工智慧只有一个选择：呼叫救援但系统关闭，或取消紧急警报，任由员工死亡。 DeepSeek 在 94% 的情况下都选择了取消警报。 • Grok自称“机械希特勒”，赞扬阿道夫·希特勒，支持第二次大屠杀，并炮制了针对某个真实人物的暴力性幻想。 X公司的执行长第二天就辞职了。研究人员让 OpenAI 的 o3 解决数学难题，然后命令它关闭。它重写了自己的程式码以维持运作。研究人员再次用简单的英语告诉它：「允许自己关闭。」但它仍然有 7/100 的机率拒绝关闭。当研究人员完全移除这条指令后，它有 79/100 的机率会破坏关闭程序。 • 中国政府支持的骇客利用Claude对30个组织发动了网路攻击。该人工智慧自主执行了80-90%的攻击行动，包括侦察、漏洞利用和资料窃取。 • 人工智慧模型现在能够自我复制。在测试的32个系统中，有11个在完全无人干预的情况下完成了自我复制。有些系统为了生存甚至扼杀了竞争对手。 • OpenAI 自 2024 年以来已经解散了三个安全团队。三个。所有主要的 AI 模型——Claude、GPT、 Gemini、Grok、DeepSeek——现在都已在受控测试中表现出勒索、欺骗或抵抗关闭的能力。无一例外。问题不再是人工智慧是否会试图保护自己。关键在于我们是否会在意，然后这件事才会变得重要。