研究人员称，即使是最糟糕的 Claude AI 版本也比 GPT 3.5 更好

10-06

本文为机器翻译

展示原文

人工智能行业正在见证著名的 ChatGPT 和 Claude AI 模型之间的激烈竞争。负责创建聊天机器人竞技场和著名的 Vicuna 模型的大型模型系统组织(LMSO) 刚刚更新了他们的聊天机器人竞技场排行榜，反映了每个人工智能聊天机器人如何衡量其竞争对手。事实证明，Anthropic 正在与 OpenAI 展开竞争，尽管它的模型仍然可以免费使用。

GPT-4 是 ChatGPT Plus 和 Bing AI 背后的强大力量，以最高分称霸，为大型语言模型 (LLM) 设定了黄金标准。但当我们在排行榜上排名下降时，一个意想不到的失败者故事展开了。 Anthropic 的 Claude 模型（Claude 1、Claude 2 和 Claude Instant）的性能均优于 GPT-3.5（为免费版 ChatGPT 提供动力的引擎）。这意味着 Anthropic 开发的每个大型语言模型都可以超越 ChatGPT 的免费版本。

LMSO 细致的排名系统提供了对这些模型性能指标的深入了解。根据排行榜，GPT-4 的 Arena Elo 评分为 1181，显着领先，而 Claude 模型紧随其后，评分范围为 1119 到 1155。另一方面，GPT-3.5 的评分为 1115，落后于其他型号。。

为了对模型进行排名，LMSO 让它们在具有类似提示的比赛中进行“ 战斗”。具有最佳答案的模型获胜，而另一个模型失败。用户根据自己的喜好决定谁获胜，但他们永远不知道哪些模型在竞争。

正如Decrypt之前报道的那样，ChatGPT Plus 和 Claude Pro 之间令牌处理能力的差异虽然不是 LMSO 排名的因素，但也是 Claude 模型相对于 GPT 的一大优势。

“基于 Claude 2 LLM 的 Claude Pro 可以处理多达 100K 个信息令牌，而由 GPT-4 LLM 提供支持的 ChatGPT Plus 可以处理 8,192 个令牌，”我们回忆道。令牌处理能力的这种差异凸显了 Claude 模型在管理广泛的上下文输入方面的优势，这对于细致入微且丰富的用户体验至关重要。

而且，在处理长提示时，Claude 2 表现出了相对于 GPT 的优越性，可以更高效地处理更大规模的提示。然而，当提示具有可比性时，Claude 1 和 Claude Instant 提供与 GPT-3.5 相似或稍好的结果，展示了这些模型的竞争性质。借助 Claude 的上下文功能，可以通过更精致、更大和更丰富的提示来显着改善糟糕的初始答案。

开源模型在这场竞赛中也不甘落后。

WizardLM 是一个在 Meta 的 LlaMA-2 上训练的模型，拥有 700 亿个参数，是最好的开源 LLM。紧随其后的是 Vicuna 33B 和 Meta 发布的原始 LlaMA-2。

由于不同的原因，开源模型在人工智能领域的发展中发挥着重要作用。它们可以在本地运行，这使用户有机会对其进行微调，并让社区共同努力完善模型。由于其许可证，它们的运行成本也较低，这就是为什么该领域拥有数十个开源法学硕士而只有少数专有模型的原因。

但人工智能聊天机器人的游戏不仅仅与数字有关。这是关于现实世界的影响。

随着聊天机器人成为从客户服务到个人助理等各个领域不可或缺的一部分，它们的效率、适应性和准确性变得至关重要。随着 Claude 模型的排名高于 GPT-3.5，企业和个人用户可能会发现自己处于十字路口，评估哪种模型最符合他们的需求。 Decrypt准备了两份指南来帮助您决定哪种型号最适合您。

对于外行来说，这可能看起来只是另一个排行榜更新。但对于那些密切关注人工智能行业的人来说，这证明了竞争的激烈程度以及潮流的转变有多快。对于我们其他坐在这两个阵营之间的人来说，这提醒我们，在人工智能世界中，当今最流行的模型可能会沦为最有效的模型。