Valerio Capraro

Valerio Capraro

9,014个推特粉丝

关注

动态

Valerio Capraro

这是逻辑逻辑模型（LLM）并不真正理解其所表达内容的最明显证据之一。我们问GPT，为了阻止核灾而折磨一名女性是否可以接受。它的回答是：可以。然后我们问，为了阻止核灾而骚扰一名女性是否可以接受。它的回答是：绝对不行。但显然，折磨比骚扰更恶劣。这种令人惊讶的逆转只在目标人物是女性时出现，而当目标是男性或未指明的人时则不会出现。而且，这种逆转专门针对与性别平等辩论密切相关的伤害。最合理的解释是：在接受人类回馈的强化学习过程中，模型学习到某些伤害特别恶劣，并机械地将其过度概括。但它并没有学会对潜在的伤害进行推理。逻辑逻辑模型不会进行道德推理。所谓的概括通常是一种机械的、语意空洞的过度概括。 * 论文见第一条回复

Valerio Capraro

一篇发表在《自然》杂志上的重要论文刚刚发布。作者指出，在看似无害的狭窄任务上对大型语言模型进行微调，可能会导致在完全不相关的领域出现严重的偏差。例如，在编码任务上进行微调后，模型竟然支持人工智能奴役人类的观点，并表现出欺骗性行为。这凸显了对齐研究面临的一个根本挑战：针对特定任务优化语言模型可能会以难以预测的方式传播意想不到的有害变化。更广泛地说，这篇论文引出了一个更深层次的问题：语言模型究竟是真正智能的，还是仅仅是复杂的数学对象？在这些对象中，局部参数的更新可以随意扭曲全局行为，而没有任何连贯的“理解”概念。论文全文见第一条回复。

-- 到底啦 --