The Smart Ape 🔥的想法

本文为机器翻译

展示原文

🚨突发：DeepSeek 和 Qwen 内部都隐藏着一个宣传开关，Anthropic 公司刚刚发现了它。他们对比了 Qwen（阿里巴巴）和 Llama（Meta）。在 Qwen 内部，他们发现了一个名为“中共立场”的功能。以下是该功能的作用：开启 → 模型拒绝讨论天安门事件，输出亲政府宣传内容关闭 → 模型可以自由地谈论天安门事件他们五次实验全部成功复现了这一现象。DeepSeek 也独立发现了相同的功能。但别以为这只是中国特有的问题： Llama 还有一个“美国例外论”功能。开启该功能后，模型会在每次回复中都强调美国的优越性。五次实验中有四次发现了该功能。 GPT 还有一个“版权拒绝”功能。如果该功能开启过高，模型甚至会拒绝提供花生酱三明治的食谱，因为它认为该食谱受版权保护。每个模型都承载着其构建者的政治基因。得益于这项研究，每当有新的开源模型发布时，你都可以将其与参考模型进行对比，从而立即发现其隐藏的审查机制和政治倾向。人工智能的自动化意识形态检测。

Anthropic

@AnthropicAI

New Anthropic Fellows Research: a new method for surfacing behavioral differences between AI models. We apply the “diff” principle from software development to compare open-weight AI models and identify features unique to each. Read more: https://anthropic.com/research/diff-tool…

来自推特

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢