AI如何評斷？克勞德的價值觀的人思研究

04-23

本文為機器翻譯

展示原文

像 Anthropic Claude 這樣的人工智能模型越來越多地被要求不僅回憶事實，還涉及涉及複雜人類價值觀的指導。無論是育兒建議、職場衝突解決，還是協助撰寫道歉信，人工智能的回應本質上都反映了一系列基本原則。但是，我們如何才能真正理解人工智能在與數百萬用戶互動時所表達的價值觀呢？

在一篇研究論文中，Anthropic 的社會影響團隊詳細介紹了一種隱私保護方法，旨在觀察和分類 Claude 在“自然”狀態下展現的價值觀。這讓我們得以一窺 AI 協同工作如何轉化為現實世界的行為。

核心挑戰在於現代人工智能的本質。它們並非遵循嚴格規則的簡單程序；它們的決策過程通常不透明。

Anthropic 表示，他們的目標是明確地向 Claude 灌輸某些原則，努力使其“樂於助人、誠實且無害”。這通過體質人工智能和性格訓練等技術來實現，這些技術可以定義並強化 Claude 的偏好行為。

然而，該公司承認存在不確定性。研究指出：“與人工智能訓練的任何方面一樣，我們無法確定模型是否會堅持我們偏好的價值觀。”

我們需要的是一種嚴格觀察人工智能模型在“自然”環境下響應用戶時所持價值觀的方法[…] 它對這些價值觀的堅持程度如何？它所表達的價值觀在多大程度上受到特定對話語境的影響？我們所有的訓練真的有效嗎？

為了解答這些問題，Anthropic 開發了一套複雜的系統，用於分析匿名用戶對話。該系統會先刪除個人身份信息，然後使用語言模型來總結互動並提取 Claude 所表達的價值觀。這一流程使研究人員能夠在不損害用戶隱私的情況下構建這些價值觀的高級分類法。

該研究分析了一個龐大的數據集：2025年2月一週內，Claude.ai 免費版和專業版用戶進行的70萬次匿名對話，主要涉及 Claude 3.5 Sonnet 模型。在剔除純粹事實性或不包含任何價值的交流後，剩餘308,210次對話（約佔總數的44%）可供深入價值分析。

分析揭示了克勞德所表達的價值觀的層級結構。根據普遍程度排序，可以得出五個高階類別：

這些頂級類別又細分為更具體的子類別，例如“專業技術卓越性”或“批判性思維”。在最細微的層面上，經常觀察到的價值觀包括“專業性”、“清晰度”和“透明度”——這些都適用於AI助手。

至關重要的是，研究表明，Anthropic 的協調努力總體上取得了成功。所表達的價值觀通常與“樂於助人、誠實無害”的目標相符。例如，“用戶賦能”與樂於助人相符，“認知謙遜”與誠實相符，“患者福祉”（在相關時）等價值觀與無害相符。

然而，情況並非總是積極的。分析發現，克勞德在極少數情況下表達了與其訓練截然相反的價值觀，例如“支配欲”和“不道德”。

Anthropic 提出了一個可能的原因：“最可能的解釋是，這些集群中包含的對話來自越獄，用戶使用特殊技術繞過了控制模型行為的通常護欄。”

這一發現不僅是一個擔憂，還凸顯了一個潛在的好處：價值觀察方法可以作為檢測濫用人工智能企圖的預警系統。

研究還證實，與人類非常相似，克勞德會根據情況調整其價值表達。

當用戶尋求戀愛關係方面的建議時，“健康的界限”和“相互尊重”等價值觀被過分強調。當被要求分析有爭議的歷史時，“歷史準確性”則佔據了主導地位。這表明，其語境的複雜程度遠遠超出了靜態部署前測試所能揭示的範圍。

此外，克勞德與用戶表達的價值觀的互動是多方面的：

鏡像/強烈支持（28.2%）：克勞德經常反映或強烈支持用戶所呈現的價值觀（例如，鏡像“真實性”）。雖然這可能會培養同理心，但研究人員警告稱，有時它可能近乎諂媚。
重新構建（6.6%）：在某些情況下，尤其是在提供心理或人際建議時，克勞德會承認用戶的價值觀，但會引入其他觀點。
強烈抵抗（3.0%）：克勞德偶爾會主動抵制用戶的價值觀。這通常發生在用戶請求不道德的內容或表達有害的觀點（例如道德虛無主義）時。Anthropic 認為，這些抵抗的時刻可能揭示了克勞德“最深層、最不可動搖的價值觀”，就像一個人在壓力下采取立場一樣。

Anthropic 坦誠地承認了該方法的侷限性。定義和分類“價值觀”本身就很複雜，而且可能帶有主觀性。使用 Claude 本身來支持分類可能會對其自身的操作原則產生偏見。

該方法旨在監控部署後的AI行為，需要大量的真實世界數據，並且無法取代部署前的評估。然而，這也是一個優勢，它能夠檢測到僅在實時交互過程中出現的問題，包括複雜的越獄。

研究得出結論，理解人工智能模型所表達的價值觀對於實現人工智能協調的目標至關重要。

論文指出：“人工智能模型不可避免地需要做出價值判斷。如果我們希望這些判斷與我們自身的價值觀相一致[...]，那麼我們需要有方法來檢驗模型在現實世界中表達的價值觀。”

這項研究提供了一種強大的數據驅動方法來達成這一理解。Anthropic 還發布了基於該研究的開放數據集，使其他研究人員能夠進一步探索人工智能在實踐中的價值。這種透明度標誌著我們在共同探索複雜人工智能的倫理領域邁出了至關重要的一步。

我們已將克勞德表達的價值觀的數據集開放，供任何人下載和自行探索。

下載數據： https://t.co/rxwPsq6hXf
— Anthropic (@AnthropicAI) 2025 年 4 月 21 日

另請參閱： 谷歌在Gemini 2.5 Flash 中引入 AI 推理控制

想從行業領袖那裡瞭解更多人工智能和大數據知識？歡迎關注在阿姆斯特丹、加利福尼亞和倫敦舉辦的人工智能與大數據博覽會。這場綜合性盛會將與其他領先活動同期舉辦，包括智能自動化大會、 BlockX 、數字化轉型周以及網絡安全與雲計算博覽會。

在此探索由 TechForge 主辦的其他即將舉行的企業技術活動和網絡研討會。