AI如何评断？克劳德的价值观的人思研究

04-23

本文为机器翻译

展示原文

像 Anthropic Claude 这样的人工智能模型越来越多地被要求不仅回忆事实，还涉及涉及复杂人类价值观的指导。无论是育儿建议、职场冲突解决，还是协助撰写道歉信，人工智能的回应本质上都反映了一系列基本原则。但是，我们如何才能真正理解人工智能在与数百万用户互动时所表达的价值观呢？

在一篇研究论文中，Anthropic 的社会影响团队详细介绍了一种隐私保护方法，旨在观察和分类 Claude 在“自然”状态下展现的价值观。这让我们得以一窥 AI 协同工作如何转化为现实世界的行为。

核心挑战在于现代人工智能的本质。它们并非遵循严格规则的简单程序；它们的决策过程通常不透明。

Anthropic 表示，他们的目标是明确地向 Claude 灌输某些原则，努力使其“乐于助人、诚实且无害”。这通过体质人工智能和性格训练等技术来实现，这些技术可以定义并强化 Claude 的偏好行为。

然而，该公司承认存在不确定性。研究指出：“与人工智能训练的任何方面一样，我们无法确定模型是否会坚持我们偏好的价值观。”

我们需要的是一种严格观察人工智能模型在“自然”环境下响应用户时所持价值观的方法[…] 它对这些价值观的坚持程度如何？它所表达的价值观在多大程度上受到特定对话语境的影响？我们所有的训练真的有效吗？

为了解答这些问题，Anthropic 开发了一套复杂的系统，用于分析匿名用户对话。该系统会先删除个人身份信息，然后使用语言模型来总结互动并提取 Claude 所表达的价值观。这一流程使研究人员能够在不损害用户隐私的情况下构建这些价值观的高级分类法。

该研究分析了一个庞大的数据集：2025年2月一周内，Claude.ai 免费版和专业版用户进行的70万次匿名对话，主要涉及 Claude 3.5 Sonnet 模型。在剔除纯粹事实性或不包含任何价值的交流后，剩余308,210次对话（约占总数的44%）可供深入价值分析。

分析揭示了克劳德所表达的价值观的层级结构。根据普遍程度排序，可以得出五个高阶类别：

这些顶级类别又细分为更具体的子类别，例如“专业技术卓越性”或“批判性思维”。在最细微的层面上，经常观察到的价值观包括“专业性”、“清晰度”和“透明度”——这些都适用于AI助手。

至关重要的是，研究表明，Anthropic 的协调努力总体上取得了成功。所表达的价值观通常与“乐于助人、诚实无害”的目标相符。例如，“用户赋能”与乐于助人相符，“认知谦逊”与诚实相符，“患者福祉”（在相关时）等价值观与无害相符。

然而，情况并非总是积极的。分析发现，克劳德在极少数情况下表达了与其训练截然相反的价值观，例如“支配欲”和“不道德”。

Anthropic 提出了一个可能的原因：“最可能的解释是，这些集群中包含的对话来自越狱，用户使用特殊技术绕过了控制模型行为的通常护栏。”

这一发现不仅是一个担忧，还凸显了一个潜在的好处：价值观察方法可以作为检测滥用人工智能企图的预警系统。

研究还证实，与人类非常相似，克劳德会根据情况调整其价值表达。

当用户寻求恋爱关系方面的建议时，“健康的界限”和“相互尊重”等价值观被过分强调。当被要求分析有争议的历史时，“历史准确性”则占据了主导地位。这表明，其语境的复杂程度远远超出了静态部署前测试所能揭示的范围。

此外，克劳德与用户表达的价值观的互动是多方面的：

镜像/强烈支持（28.2%）：克劳德经常反映或强烈支持用户所呈现的价值观（例如，镜像“真实性”）。虽然这可能会培养同理心，但研究人员警告称，有时它可能近乎谄媚。
重新构建（6.6%）：在某些情况下，尤其是在提供心理或人际建议时，克劳德会承认用户的价值观，但会引入其他观点。
强烈抵抗（3.0%）：克劳德偶尔会主动抵制用户的价值观。这通常发生在用户请求不道德的内容或表达有害的观点（例如道德虚无主义）时。Anthropic 认为，这些抵抗的时刻可能揭示了克劳德“最深层、最不可动摇的价值观”，就像一个人在压力下采取立场一样。

Anthropic 坦诚地承认了该方法的局限性。定义和分类“价值观”本身就很复杂，而且可能带有主观性。使用 Claude 本身来支持分类可能会对其自身的操作原则产生偏见。

该方法旨在监控部署后的AI行为，需要大量的真实世界数据，并且无法取代部署前的评估。然而，这也是一个优势，它能够检测到仅在实时交互过程中出现的问题，包括复杂的越狱。

研究得出结论，理解人工智能模型所表达的价值观对于实现人工智能协调的目标至关重要。

论文指出：“人工智能模型不可避免地需要做出价值判断。如果我们希望这些判断与我们自身的价值观相一致[...]，那么我们需要有方法来检验模型在现实世界中表达的价值观。”

这项研究提供了一种强大的数据驱动方法来达成这一理解。Anthropic 还发布了基于该研究的开放数据集，使其他研究人员能够进一步探索人工智能在实践中的价值。这种透明度标志着我们在共同探索复杂人工智能的伦理领域迈出了至关重要的一步。

我们已将克劳德表达的价值观的数据集开放，供任何人下载和自行探索。

下载数据： https://t.co/rxwPsq6hXf
— Anthropic (@AnthropicAI) 2025 年 4 月 21 日

另请参阅： 谷歌在Gemini 2.5 Flash 中引入 AI 推理控制

想从行业领袖那里了解更多人工智能和大数据知识？欢迎关注在阿姆斯特丹、加利福尼亚和伦敦举办的人工智能与大数据博览会。这场综合性盛会将与其他领先活动同期举办，包括智能自动化大会、 BlockX 、数字化转型周以及网络安全与云计算博览会。

在此探索由 TechForge 主办的其他即将举行的企业技术活动和网络研讨会。