本文為機器翻譯
展示原文
🚨突發:DeepSeek 和 Qwen 內部都隱藏著一個宣傳開關,Anthropic 公司剛剛發現了它。
他們對比了 Qwen(阿里巴巴)和 Llama(Meta)。在 Qwen 內部,他們發現了一個名為“中共立場”的功能。
以下是該功能的作用:
開啟 → 模型拒絕討論天安門事件,輸出親政府宣傳內容
關閉 → 模型可以自由地談論天安門事件
他們五次實驗全部成功復現了這一現象。DeepSeek 也獨立發現了相同的功能。
但別以為這只是中國特有的問題:
Llama 還有一個“美國例外論”功能。開啟該功能後,模型會在每次回覆中都強調美國的優越性。五次實驗中有四次發現了該功能。
GPT 還有一個“版權拒絕”功能。如果該功能開啟過高,模型甚至會拒絕提供花生醬三明治的食譜,因為它認為該食譜受版權保護。
每個模型都承載著其構建者的政治基因。
得益於這項研究,每當有新的開源模型發佈時,你都可以將其與參考模型進行對比,從而立即發現其隱藏的審查機制和政治傾向。
人工智能的自動化意識形態檢測。

Anthropic
@AnthropicAI
New Anthropic Fellows Research: a new method for surfacing behavioral differences between AI models.
We apply the “diff” principle from software development to compare open-weight AI models and identify features unique to each.
Read more: https://anthropic.com/research/diff-tool…
來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享





