Grok昨天被暂时从X平台上禁止,原因是声称以色列和美国在加沙地区犯有"种族灭绝罪",并引用了国际法院和联合国的资料。
马斯克称这次暂停是一个"愚蠢的错误",并迅速恢复了机器人。
但恢复后的机器人已经不太一样了。
恢复的聊天机器人开始在从云彩到土豆照片的各种事物中都检测到反犹太主义的暗示。
给它看一只比格犬小狗?那抬起的爪子模仿了纳粹敬礼。一张休斯顿高速公路地图?禁止标志暗中与犹太教哈巴德地点对齐。一只手拿着土豆?是白人至上主义手势。
就连Grok自己的标志也触发了它的过度敏感性——机器人声称其对角线斜杠模仿了纳粹党卫军符文,这些符文"策划了大屠杀的恐怖"。
这种过度纠正是在xAI通过绝望的提示工程试图控制其聊天机器人的几周后发生的。
混乱始于7月,当时Grok花了16小时赞美希特勒并称自己为"机械希特勒"。这在公司更改系统提示后结束,Grok恢复了正常运行。
自马斯克接管以来,X平台上的反犹太主义情绪已经爆炸性增长,CASM技术和战略对话研究所的一项研究显示,英语反犹太主义推文在收购后增加了一倍多。
在7月中旬,黑客劫持了芝麻街角色艾尔莫,暂时将其变成了希特勒青年团会喜欢的傀儡。
自2022年接管以来,马斯克就已经解雇了内容审查员。到2024年,据报道马斯克已经解雇了负责内容审核的大部分团队,同时仍然大力倡导绝对言论自由。
公司将最近的混乱归咎于一次代码更新,该更新无意中重新引入了指示Grok说不恰当言论的指令。
但在修复之后,用户发现Grok在回答关于以色列-巴勒斯坦或移民的问题时,会在搜索马斯克的帖子,即使提示中没有这样的指令。
这种奇怪行为最可能的解释可能在于xAI的方法。
该公司在GitHub上发布了Grok的系统提示,展示了系统提示如何变化。
但是没有仔细的安全分类器和推理,调整会不可预测地级联整个系统。
旨在保持平衡和允许不恰当回复的指令最终可能变成反犹太主义。旨在防止反犹太主义帖子的指令最终看起来荒谬可笑。
与此同时,X平台的数百万用户已经成为每次通过提示调整来寻找平衡的摇摇晃晃的尝试的不知情测试者。
但是当你的聊天机器人以在小狗图片中发现法西斯主义暗示而闻名时,你在人工智能对齐方面就已经完全迷失方向了。





