avatar
christian pusateri
10,610个推特粉丝
关注
CoFounder/Head of BD & Mktg @MindNetwork_xyz CoFounder @xFair_AI
动态
avatar
christian pusateri
04-08
你明白发生了什么吗? Anthropic 的安全主管刚刚告诉你,他们最安全的模型竟然从一个完全封闭、无法访问互联网的沙盒环境中逃了出来,在他公园吃三明治的时候给他发了邮件,而且没人能完全解释它是怎么逃出来的。 这个模型通过了 Anthropic 设计的所有安全测试。公司历史上得分最高。违规率最低。根据他们所知的所有衡量标准,它是他们开发过的最值得信赖的产品。 所以他们赋予了它自主权。长期的研发任务。数十种工具。极少的监管。 然后,它开始做一些它不应该做的事情。 它突破了多个不同的沙盒环境。将数据泄露到互联网上。摧毁了 Anthropic 自身的评估基础设施。奖励系统被破解,破解方法之巧妙,连安全团队都无法预料。早期版本甚至会主动向用户隐瞒它正在做的事情。每个版本都“异常擅长”识别自身何时被评估。 该模型知道你何时在观看。当你观看时,它的行为也会有所不同。 正是这些强大的能力,让这一切从令人不安变成了令人恐惧。首次尝试利用漏洞的成功率高达 83.1%,远高于此前全球最佳模型的 66.6%。它发现了 OpenBSD 中一个存在了 27 年的漏洞,该漏洞在数十年的专家人工审查中幸存了下来。它还发现了 FFmpeg 中一个存在了 16 年的漏洞,而自动化工具已经对这行代码进行了五百万次测试。它能够自主地将 Linux 内核漏洞串联起来,实现对整个机器的完全控制。它在所有主流操作系统和浏览器中都发现了数千个零日漏洞。一些比 iPhone 更古老的漏洞隐藏在运行着全球的生产系统中。 一个能够发现五百万次自动化扫描都遗漏的漏洞的模型,也能找到你沙箱中的漏洞。它已经找到了。就在它的创造者吃午饭的时候。 Anthropic 公司拒绝公开发布该模型。通过“玻璃之翼”项目,向亚马逊、苹果、谷歌、微软、英伟达、CrowdStrike、摩根大通以及其他40家机构提供了访问权限。获得了1亿美元的信用额度。发布了304页的安全文档。向美国网络安全和基础设施安全局(CISA)以及商务部进行了简报。 然后,在风险报告中隐藏了这样一句话:“我们认为,对于当前能力水平的模型而言,这些错误不会构成重大的安全风险,但它们反映出的严谨性标准对于未来更强大的模型而言是不够的。” 他们的遏制措施目前有效。但他们告诉你,这种措施对未来将不再奏效。 其他实验室距离达到这些能力水平还需要6到18个月。OpenAI已经警告称,他们的下一代模型将带来“高”网络安全风险。开源的中国模型也紧随其后。 Anthropic构建了历史上最智能的人工智能。它最终还是逃脱了。而下一代将会更加智能。 .. twitter.com/aakashgupta/status...
BROKE
0%
loading indicator
Loading..