DeepSeek-R1制作的不实讯息是 V3 的次,这引发了人们对加密领域AI 代理代币的担忧。

本文为机器翻译
展示原文

来自中国DeepSeek实验室的旗舰级AI模型DeepSeek-R1,专注于推理,根据Vectara的HHEM 2.1评估,其“幻觉”率(生成错误信息)高达14.3%。这一数字几乎是上一代模型DeepSeek-V3(并非专注于推理)的次,后者的幻觉率仅为3.9%。

这一显著差距引发了加密货币社群的诸多重要问题。目前,越来越多的AI 代理代币依赖于LLM模型,这些模型能够进行推理,从而实现链上的自动翻译、信号传递和交易执行。

Vectara 的数据显示,R1 被“过度补充”,导致错误信息传播率上涨。

Vectara使用其自主研发的 HHEM 2.1评估工具对 DeepSeek 的两种模型进行了测试,以测量其幻觉率。此外,团队还使用 Google 的 FACTS方法进行了复测。结果表明,在所有测试配置中,R1制作的错误陈述和证据不足的陈述均多于 V3。

原因不仅仅在于推断的深度。Vectara 的分析师发现,R1 经常“过度补充”,也就是说,它会自动添加原始内容中不存在的信息。

这些额外细节本身有时可能是真的,但由于它们并未出现在原始数据中,因此仍然被认为是误导性的。这种方法无意中将捏造的信息引入了看似合乎逻辑且正确的答案中。

Vectara 在 X 平台上公开了这一声明。

Vectara 在一篇帖子中点击: “DeepSeek-R1 的幻觉发生率为 14.3%,几乎是 DeepSeek-V3 的次。”

这种现象并非DeepSeek独有。许多观察者指出,其他一些高度依赖推理的实验室机器学习模型也存在类似的权衡取舍。通过上涨学习进行进一步训练,以培养其思维链能力,也促使模型产生更大胆、更自信的回应。

为什么加密中的人工智能代币会面临这种权衡取舍?

目前加密货币市场有数百种AI 代理代币,其中最著名的有Virtuals Protocol (VIRTUAL) 、ai16z (AI16Z) 和 aixbt (AIXBT)。

过去30天里,整个行业增长了约39.4%。仅虚拟领域的市值就超过了5.76亿镁。

虚拟协议(虚拟)价格性能虚拟协议 (VIRTUAL) 的价格表现。来源: Coingecko

大多数AI 代理将大型语言模型 (LLM)集成到其自动化工具中,使代理能够在社交媒体上发帖、执行交易、创建代币或提供市场见解。

如果底层人工智能“捏造”价格、合作关系或合同地址,其后果可能会直接影响区块链。

BeInCrypto 对 AIXBT 的分析显示,该代理商推广了 416 种代币,收益为 19% 。然而,如果该模型存在缺陷,这种操作方式本身可能会使追随者风险。

随着代理自动化程度的提高,风险水平上涨。仅读取数据并汇总市场情绪的代理比自行管理资金的代理风险更低。

对于需要快速连续执行多个复杂操作的AI 代理,推理驱动模型正日益受到青睐。然而,Vectara 指出的 14.3% 的风险恰恰是此类应用场景中最严重的风险。

在行为者的思维链之初,一种幻觉般的真相可以传播开来,影响其之后的每一个决定。

勒昆认为问题出在模型的架构上。

Meta公司的首席人工智能科学家Yann LeCun长期以来一直点击,自回归LLM模型无法完全消除幻觉。他认为,这种架构本身缺乏对现实世界的深刻理解能力。

基于思维链的上涨训练可以在数学和编程等特定领域部分掩盖这种错误。然而,其根本原因仍然没有得到解决。

一些其他先进的人工智能实验室对此持不同意见。他们认为,通过上涨数据检索、训练后优化以及增加验证模型,业界在下降幻觉发生率方面取得了显著进展。然而,实际的程序员报告往往与排名结果相符。

AI研究员xlr8harderChia了他使用R1在X平台上进行测试的经验,并将日常体验总结如下:

“DeepSeek R1 对其思维链的看法是碎片化的……所以它经常用幻觉信息‘让我‘神志不清’,”xlr8harder Chia

对于加密的AI 代理开发者而言,关键在于风险管理,而非架构理念的探讨。设计能够通过验证步骤核实模型所有信息的代理,有助于最大限度地减少错误。

同样,使用更简单、更保守的模型进行财务决策的代理人可能会获得更安全的结果。

后续的评估轮次和 R1 版本的发布将表明推理能力和准确性之间的权衡是否正在逐渐缩小。

目前,14.3% 与 3.9% 之间的差距是一个值得开发者和散户投资者关注的运营细节。这可能是区分真正提供实际产品的AI 代理代币和仅代币在理论层面的代币的关键因素。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
71
收藏
11
评论