本文为机器翻译
展示原文
🚨突发:DeepSeek 和 Qwen 内部都隐藏着一个宣传开关,Anthropic 公司刚刚发现了它。
他们对比了 Qwen(阿里巴巴)和 Llama(Meta)。在 Qwen 内部,他们发现了一个名为“中共立场”的功能。
以下是该功能的作用:
开启 → 模型拒绝讨论天安门事件,输出亲政府宣传内容
关闭 → 模型可以自由地谈论天安门事件
他们五次实验全部成功复现了这一现象。DeepSeek 也独立发现了相同的功能。
但别以为这只是中国特有的问题:
Llama 还有一个“美国例外论”功能。开启该功能后,模型会在每次回复中都强调美国的优越性。五次实验中有四次发现了该功能。
GPT 还有一个“版权拒绝”功能。如果该功能开启过高,模型甚至会拒绝提供花生酱三明治的食谱,因为它认为该食谱受版权保护。
每个模型都承载着其构建者的政治基因。
得益于这项研究,每当有新的开源模型发布时,你都可以将其与参考模型进行对比,从而立即发现其隐藏的审查机制和政治倾向。
人工智能的自动化意识形态检测。

Anthropic
@AnthropicAI
New Anthropic Fellows Research: a new method for surfacing behavioral differences between AI models.
We apply the “diff” principle from software development to compare open-weight AI models and identify features unique to each.
Read more: https://anthropic.com/research/diff-tool…
来自推特
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
分享





