來自中國DeepSeek實驗室的旗艦級AI模型DeepSeek-R1,專注於推理,根據Vectara的HHEM 2.1評估,其“幻覺”率(生成錯誤信息)高達14.3%。這一數字幾乎是上一代模型DeepSeek-V3(並非專注於推理)的次,後者的幻覺率僅為3.9%。
這一顯著差距引發了加密貨幣社群的諸多重要問題。目前,越來越多的AI 代理代幣依賴於LLM模型,這些模型能夠進行推理,從而實現鏈上的自動翻譯、信號傳遞和交易執行。
Vectara 的數據顯示,R1 被“過度補充”,導致錯誤信息傳播率上漲。
Vectara使用其自主研發的 HHEM 2.1評估工具對 DeepSeek 的兩種模型進行了測試,以測量其幻覺率。此外,團隊還使用 Google 的 FACTS方法進行了複測。結果表明,在所有測試配置中,R1製作的錯誤陳述和證據不足的陳述均多於 V3。
原因不僅僅在於推斷的深度。Vectara 的分析師發現,R1 經常“過度補充”,也就是說,它會自動添加原始內容中不存在的信息。
這些額外細節本身有時可能是真的,但由於它們並未出現在原始數據中,因此仍然被認為是誤導性的。這種方法無意中將捏造的信息引入了看似合乎邏輯且正確的答案中。
Vectara 在 X 平臺上公開了這一聲明。
Vectara 在一篇帖子中點擊: “DeepSeek-R1 的幻覺發生率為 14.3%,幾乎是 DeepSeek-V3 的次。”
這種現象並非DeepSeek獨有。許多觀察者指出,其他一些高度依賴推理的實驗室機器學習模型也存在類似的權衡取捨。通過上漲學習進行進一步訓練,以培養其思維鏈能力,也促使模型產生更大膽、更自信的回應。
為什麼加密中的人工智能代幣會面臨這種權衡取捨?
目前加密貨幣市場有數百種AI 代理代幣,其中最著名的有Virtuals Protocol (VIRTUAL) 、ai16z (AI16Z) 和 aixbt (AIXBT)。
過去30天裡,整個行業增長了約39.4%。僅虛擬領域的市值就超過了5.76億鎂。
虛擬協議 (VIRTUAL) 的價格表現。來源: Coingecko大多數AI 代理將大型語言模型 (LLM)集成到其自動化工具中,使代理能夠在社交媒體上發帖、執行交易、創建代幣或提供市場見解。
如果底層人工智能“捏造”價格、合作關係或合同地址,其後果可能會直接影響區塊鏈。
BeInCrypto 對 AIXBT 的分析顯示,該代理商推廣了 416 種代幣,收益為 19% 。然而,如果該模型存在缺陷,這種操作方式本身可能會使追隨者風險。
隨著代理自動化程度的提高,風險水平上漲。僅讀取數據並彙總市場情緒的代理比自行管理資金的代理風險更低。
對於需要快速連續執行多個複雜操作的AI 代理,推理驅動模型正日益受到青睞。然而,Vectara 指出的 14.3% 的風險恰恰是此類應用場景中最嚴重的風險。
在行為者的思維鏈之初,一種幻覺般的真相可以傳播開來,影響其之後的每一個決定。
勒昆認為問題出在模型的架構上。
Meta公司的首席人工智能科學家Yann LeCun長期以來一直點擊,自迴歸LLM模型無法完全消除幻覺。他認為,這種架構本身缺乏對現實世界的深刻理解能力。
基於思維鏈的上漲訓練可以在數學和編程等特定領域部分掩蓋這種錯誤。然而,其根本原因仍然沒有得到解決。
一些其他先進的人工智能實驗室對此持不同意見。他們認為,通過上漲數據檢索、訓練後優化以及增加驗證模型,業界在下降幻覺發生率方面取得了顯著進展。然而,實際的程序員報告往往與排名結果相符。
AI研究員xlr8harderChia了他使用R1在X平臺上進行測試的經驗,並將日常體驗總結如下:
“DeepSeek R1 對其思維鏈的看法是碎片化的……所以它經常用幻覺信息‘讓我‘神志不清’,”xlr8harder Chia。
對於加密的AI 代理開發者而言,關鍵在於風險管理,而非架構理念的探討。設計能夠通過驗證步驟核實模型所有信息的代理,有助於最大限度地減少錯誤。
同樣,使用更簡單、更保守的模型進行財務決策的代理人可能會獲得更安全的結果。
後續的評估輪次和 R1 版本的發佈將表明推理能力和準確性之間的權衡是否正在逐漸縮小。
目前,14.3% 與 3.9% 之間的差距是一個值得開發者和散戶投資者關注的運營細節。這可能是區分真正提供實際產品的AI 代理代幣和僅代幣在理論層面的代幣的關鍵因素。





