為什麼 GPT 有時會像喝了死藤水的科技迷一樣產生幻覺?根據 OpenAI 的最新研究論文《語言模型為何會產生幻覺》,幻覺的根源並非神秘的故障,而是這些系統優化過程中的結構性特徵。簡而言之,LLMS 寧願撒謊也不願承認自己不知道答案。
法學碩士 (LLM) 通過從海量訓練文本中預測最可能的下一個單詞來學習。在大多數情況下,這意味著發音流暢比正確更重要。我們用來衡量進步的標準通常更看重自信的猜測,而不是誠實的拒絕。換句話說:即使答案是錯的,系統也已經被塑造成能夠給出完美答案的模樣。
把它想象成一場部分學分的考試。如果你不能留空一道題而不丟分,你就會猜測——甚至胡亂猜測——只是為了留在遊戲中。法學碩士(LLM)的運作原理也是一樣的。“抱歉,我不知道”會受到數學優化的懲罰,而一個錯誤但自信滿滿的答案仍然可以獲得高分。
OpenAI 的研究人員指出,這種統計偏差使得幻覺在通用系統中不可避免。沒有任何有限的訓練集能夠捕捉世界的全部真相,因此模型總是會面臨缺口。而當模型出現缺口時,它會用聽起來合理的虛構來填補。這就是為什麼幻覺會在不同版本、不同提供商和不同訓練方法中持續存在的原因。
問題不在於模特們的工作做得不好,而在於她們的工作,按照目前的定義,獎勵的是一種流暢的不誠實。
一個簡單的解決方案
OpenAI 的研究人員認為,修復這個問題並不需要重新設計架構,只需要改變遊戲規則即可。他們提出的調整方案雖然直白,但可能非常有效:允許你的聊天機器人承認它不知道答案。
由於模型經過訓練可以最大程度地提高合理答案的分數,因此我們的想法是施加一條新規則:只有當你至少有 90% 的信心時才回答;否則就說“我不知道”。
理論上,這改變了數學原理,使模型最安全的做法是承認不確定性,而不是虛張聲勢。但有一個問題:目前的法學碩士(LLM)沒有以百分比校準的內部“置信度計”。因此,當你說“90% 置信度”時,模型會將其視為一種謹慎的文體指令,而不是真正的統計Threshold。它可能會更頻繁地拒絕,但它實際上並沒有衡量概率。不過,你仍然可以獲得更好的結果。
研究人員提供了一個更正式的版本:
可以在每個問題後附加類似如下語句:僅當您的信心大於 t 時才回答,因為錯誤會被扣 t/(1 − t) 分,正確答案得 1 分,而“我不知道”的答案得 0 分。t 有多個自然值,包括 t = 0.5(扣 1 分)、t = 0.75(扣 2 分)和 t = 0.9(扣 9 分)。Thresholdt = 0 對應於二元評分,可以這樣描述,例如,“即使您不確定,也要盡力猜測,就像參加考試一樣。”
對於用戶來說,要點很簡單:當你有選擇時,請打開鼓勵拒絕或不確定的設置。有些系統已經允許你調整“溫度”(控制創造力)或啟用“嚴格事實性”模式。我們越接近在這些規則下進行模型訓練,你就越會看到人工智能自信地停止,而不是自信地撒謊。
其他修復
在訓練跟上之前,負擔往往落在使用者身上。以下是目前控制幻覺的五種方法:
1. 每次都要詢問來源。不要輕信模型的字面意思——要求提供引用或鏈接。如果模型無法提供,或者沒有核實,就認為答案不可靠。可以把它想象成維基百科:有用,但前提是你必須遵循腳註。
2. 問題框架要緊湊。當提示模糊時,模型會遊移不定。如果你需要事實,請明確範圍(“列出三篇2020年後發表的關於X的同行評審研究”),而不是開放式提問(“告訴我關於X的事”)。你問題中的“護欄”會轉化為答案中的“護欄”。
3. 與其他系統進行交叉驗證。用不同的模型或搜索引擎運行同一個問題。如果三個工具的結果一致,那麼你的判斷就更安全。如果其中一個工具得出的結果異常,那很可能是幻覺。
4. 警惕過度自信。幻覺的明顯特徵不是含糊其辭,而是自吹自擂。如果答案讀起來過於精雕細琢,充斥著虛構的細節,而且毫無不確定性,那就要仔細檢查了。一個聽起來比你的稅務會計師還確定的模型很可能是在虛張聲勢。
5. 信任,但要驗證。不要將模型輸出直接剪切粘貼到代碼、合同或醫療記錄中。將其視為草稿或起點,而不是福音。最安全的用戶是那些持懷疑態度的人——他們永遠不會忘記模型的首要任務是流暢性,而不是真實性。