研究人員稱，即使是最糟糕的 Claude AI 版本也比 GPT 3.5 更好

10-06

本文為機器翻譯

展示原文

人工智能行業正在見證著名的 ChatGPT 和 Claude AI 模型之間的激烈競爭。負責創建聊天機器人競技場和著名的 Vicuna 模型的大型模型系統組織(LMSO) 剛剛更新了他們的聊天機器人競技場排行榜，反映了每個人工智能聊天機器人如何衡量其競爭對手。事實證明，Anthropic 正在與 OpenAI 展開競爭，儘管它的模型仍然可以免費使用。

GPT-4 是 ChatGPT Plus 和 Bing AI 背後的強大力量，以最高分稱霸，為大型語言模型 (LLM) 設定了黃金標準。但當我們在排行榜上排名下降時，一個意想不到的失敗者故事展開了。 Anthropic 的 Claude 模型（Claude 1、Claude 2 和 Claude Instant）的性能均優於 GPT-3.5（為免費版 ChatGPT 提供動力的引擎）。這意味著 Anthropic 開發的每個大型語言模型都可以超越 ChatGPT 的免費版本。

LMSO 細緻的排名系統提供了對這些模型性能指標的深入瞭解。根據排行榜，GPT-4 的 Arena Elo 評分為 1181，顯著領先，而 Claude 模型緊隨其後，評分範圍為 1119 到 1155。另一方面，GPT-3.5 的評分為 1115，落後於其他型號。。

為了對模型進行排名，LMSO 讓它們在具有類似提示的比賽中進行“ 戰鬥”。具有最佳答案的模型獲勝，而另一個模型失敗。用戶根據自己的喜好決定誰獲勝，但他們永遠不知道哪些模型在競爭。

正如Decrypt之前報道的那樣，ChatGPT Plus 和 Claude Pro 之間令牌處理能力的差異雖然不是 LMSO 排名的因素，但也是 Claude 模型相對於 GPT 的一大優勢。

“基於 Claude 2 LLM 的 Claude Pro 可以處理多達 100K 個信息令牌，而由 GPT-4 LLM 提供支持的 ChatGPT Plus 可以處理 8,192 個令牌，”我們回憶道。令牌處理能力的這種差異凸顯了 Claude 模型在管理廣泛的上下文輸入方面的優勢，這對於細緻入微且豐富的用戶體驗至關重要。

而且，在處理長提示時，Claude 2 表現出了相對於 GPT 的優越性，可以更高效地處理更大規模的提示。然而，當提示具有可比性時，Claude 1 和 Claude Instant 提供與 GPT-3.5 相似或稍好的結果，展示了這些模型的競爭性質。藉助 Claude 的上下文功能，可以通過更精緻、更大和更豐富的提示來顯著改善糟糕的初始答案。

開源模型在這場競賽中也不甘落後。

WizardLM 是一個在 Meta 的 LlaMA-2 上訓練的模型，擁有 700 億個參數，是最好的開源 LLM。緊隨其後的是 Vicuna 33B 和 Meta 發佈的原始 LlaMA-2。

由於不同的原因，開源模型在人工智能領域的發展中發揮著重要作用。它們可以在本地運行，這使用戶有機會對其進行微調，並讓社區共同努力完善模型。由於其許可證，它們的運行成本也較低，這就是為什麼該領域擁有數十個開源法學碩士而只有少數專有模型的原因。

但人工智能聊天機器人的遊戲不僅僅與數字有關。這是關於現實世界的影響。

隨著聊天機器人成為從客戶服務到個人助理等各個領域不可或缺的一部分，它們的效率、適應性和準確性變得至關重要。隨著 Claude 模型的排名高於 GPT-3.5，企業和個人用戶可能會發現自己處於十字路口，評估哪種模型最符合他們的需求。 Decrypt準備了兩份指南來幫助您決定哪種型號最適合您。

對於外行來說，這可能看起來只是另一個排行榜更新。但對於那些密切關注人工智能行業的人來說，這證明了競爭的激烈程度以及潮流的轉變有多快。對於我們其他坐在這兩個陣營之間的人來說，這提醒我們，在人工智能世界中，當今最流行的模型可能會淪為最有效的模型。