The Smart Ape 🔥的想法

本文為機器翻譯

展示原文

🚨突發：DeepSeek 和 Qwen 內部都隱藏著一個宣傳開關，Anthropic 公司剛剛發現了它。他們對比了 Qwen（阿里巴巴）和 Llama（Meta）。在 Qwen 內部，他們發現了一個名為“中共立場”的功能。以下是該功能的作用：開啟 → 模型拒絕討論天安門事件，輸出親政府宣傳內容關閉 → 模型可以自由地談論天安門事件他們五次實驗全部成功復現了這一現象。DeepSeek 也獨立發現了相同的功能。但別以為這只是中國特有的問題： Llama 還有一個“美國例外論”功能。開啟該功能後，模型會在每次回覆中都強調美國的優越性。五次實驗中有四次發現了該功能。 GPT 還有一個“版權拒絕”功能。如果該功能開啟過高，模型甚至會拒絕提供花生醬三明治的食譜，因為它認為該食譜受版權保護。每個模型都承載著其構建者的政治基因。得益於這項研究，每當有新的開源模型發佈時，你都可以將其與參考模型進行對比，從而立即發現其隱藏的審查機制和政治傾向。人工智能的自動化意識形態檢測。

Anthropic

@AnthropicAI

New Anthropic Fellows Research: a new method for surfacing behavioral differences between AI models. We apply the “diff” principle from software development to compare open-weight AI models and identify features unique to each. Read more: https://anthropic.com/research/diff-tool…

來自推特

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論