來自Technion、Google Research和Apple的新研究表明,大型語言模型(LLM)對正確性的理解要比預期更深入。
大型語言模型(LLMs)的一個主要問題是它們傾向於產生偏離或無意義的輸出,通常被稱為幻覺現象。"幻覺"這個術語還沒有一個通用的定義,它包括LLM的各種錯誤。
在這項最新研究中,研究人員採用了一種更廣泛的解釋:即將幻覺視為LLM產生的所有錯誤,包括事實錯誤、偏見和現實世界中的其他錯誤。
以前的大多數研究都集中在分析LLMs的外部行為以及使用者如何感知這些錯誤,而這項新研究則調查了LLMs內部的工作方式,特別是"正確答案代幣" - 如果被修改,將改變答案正確性的響應代幣 - 來評估輸出的準確性。
研究人員在10個數據集上對Mistral 7B和Llama 2的四個變體進行了實驗,發現與準確性相關的資訊集中在正確答案代幣中。他們發現,訓練分類模型來預測輸出相關的準確性特徵有助於提高錯誤檢測能力。
"這些模式在幾乎所有資料集和模型上都是一致的,表明了LLMs在生成文字過程中編碼和處理準確性的一種普遍機制,"研究人員說。
為了預測"幻覺現象",研究人員訓練了一種稱為"探測分類器"的模型,以根據LLM的內部活動預測輸出的相關準確性特徵。在正確答案代幣上訓練這些模型大大提高了錯誤檢測能力。
他們還研究了在一個數據集上訓練的探測分類器是否可以檢測其他資料集中的錯誤,發現這些分類器不能跨任務概括,但可以在需要類似技能的任務中概括。
額外的實驗表明,探測分類器不僅可以預測錯誤的存在,還可以預測模型可能犯的錯誤型別。這一發現表明,模型的內部活動可能確定了正確答案,但模型仍然經常產生錯誤答案。這表明,當前的評估方法可能無法準確反映這些模型的實際能力。
最後,研究發現,當前的評估方法可能無法準確反映LLMs的實際能力。更好地理解和利用這些模型的內部知識可能大大減少錯誤。
研究發現可以幫助設計更好的幻覺緩解系統。然而,它使用的技術需要訪問LLM的內部表示,這主要對開源模型可行。
OpenAI、Anthropic和Google DeepMind等頂尖AI實驗室一直在研究各種技術來解釋語言模型的內部工作方式。這些研究可能有助於構建更可靠的系統。