来自Technion、Google Research和Apple的新研究表明,大型语言模型(LLM)对正确性的理解要比预期更深入。
大型语言模型(LLMs)的一个主要问题是它们倾向于产生偏离或无意义的输出,通常被称为幻觉现象。"幻觉"这个术语还没有一个通用的定义,它包括LLM的各种错误。
在这项最新研究中,研究人员采用了一种更广泛的解释:即将幻觉视为LLM产生的所有错误,包括事实错误、偏见和现实世界中的其他错误。
以前的大多数研究都集中在分析LLMs的外部行为以及用户如何感知这些错误,而这项新研究则调查了LLMs内部的工作方式,特别是"正确答案代币" - 如果被修改,将改变答案正确性的响应代币 - 来评估输出的准确性。
研究人员在10个数据集上对Mistral 7B和Llama 2的四个变体进行了实验,发现与准确性相关的信息集中在正确答案代币中。他们发现,训练分类模型来预测输出相关的准确性特征有助于提高错误检测能力。
"这些模式在几乎所有数据集和模型上都是一致的,表明了LLMs在生成文本过程中编码和处理准确性的一种普遍机制,"研究人员说。
为了预测"幻觉现象",研究人员训练了一种称为"探测分类器"的模型,以根据LLM的内部活动预测输出的相关准确性特征。在正确答案代币上训练这些模型大大提高了错误检测能力。
他们还研究了在一个数据集上训练的探测分类器是否可以检测其他数据集中的错误,发现这些分类器不能跨任务概括,但可以在需要类似技能的任务中概括。
额外的实验表明,探测分类器不仅可以预测错误的存在,还可以预测模型可能犯的错误类型。这一发现表明,模型的内部活动可能确定了正确答案,但模型仍然经常产生错误答案。这表明,当前的评估方法可能无法准确反映这些模型的实际能力。
最后,研究发现,当前的评估方法可能无法准确反映LLMs的实际能力。更好地理解和利用这些模型的内部知识可能大大减少错误。
研究发现可以帮助设计更好的幻觉缓解系统。然而,它使用的技术需要访问LLM的内部表示,这主要对开源模型可行。
OpenAI、Anthropic和Google DeepMind等顶尖AI实验室一直在研究各种技术来解释语言模型的内部工作方式。这些研究可能有助于构建更可靠的系统。