Claude 3.7 Sonnet 夺回了 AI 的王冠——它与其他 AI 相比的优势如下

avatar
Decrypt
02-27
本文为机器翻译
展示原文

Anthropic 推出了 Claude 3.7 Sonnet 这款全新的 AI 模型,将其所有功能集中在一个模型中,而不是分散在不同的专业版本中。

这次发布标志着该公司在模型开发方法上的重大转变,采用了"全面出色"的理念,而不是像 OpenAI 那样创建针对不同任务的单独模型。

这并非 Claude 4.0,而只是对 3.5 Sonnet 版本的一次有意义但渐进式的更新。命名约定表明,10 月发布的版本在内部可能被视为 Claude 3.6,尽管 Anthropic 从未公开如此标记。

爱好者和早期测试人员对 Claude 的编码和代理能力感到满意。一些测试证实了 Anthropic 的说法,即该模型在编码能力方面超过任何其他最先进的大型语言模型。

然而,定价结构使 Claude 3.7 Sonnet 的价格高于市场替代品。API 访问成本为每百万输入令牌 3 美元,每百万输出令牌 15 美元,这明显高于 Google、Microsoft 和 OpenAI 的竞争性报价。

尽管如此,这款模型仍是一次迫切需要的更新。Anthropic 在功能上有所欠缺,它无法浏览网页,无法生成图像,也没有 OpenAI、Grok 和 Google Gemini 在其聊天机器人中提供的研究功能。

但生活不仅仅局限于编码。我们在不同的场景下测试了该模型,可能更倾向于普通用户可能考虑的用例,并将其与每个领域中最佳模型进行了比较,包括创意写作、政治偏见、数学、编码等。

以下是它的表现情况以及我们的想法 - 总之,我们很满意。

Claude 3.7 Sonnet 刚刚从 Grok-3 手中夺回了创意写作的桂冠,后者的统治地位仅维持了不到一周。

在我们的创意写作测试中 - 旨在衡量这些模型在创作引人入胜的有意义的故事方面的表现 - Claude 3.7 交付的叙事具有更接近人类的语言和更好的整体结构,优于其竞争对手。

这些测试可以被视为衡量这些模型对剧本作家或正在经历创作障碍的小说家可能有多有用。

尽管 Grok-3、Claude 3.5 和 Claude 3.7 之间的差距并不大,但差异足以让 Anthropic 的新模型获得主观优势。

Claude 3.7 Sonnet 创造了更具沉浸感的语言,并在整个故事中拥有更好的叙事弧。然而,似乎没有任何模型都掌握了收尾的艺术 - Claude 的结尾感觉仓促且与精心构建的铺垫有些脱节。

事实上,一些读者甚至可能会认为它根据故事的发展方式并没有太大意义。

Grok-3 实际上在结尾处处理得稍好一些,尽管在其他讲故事元素方面有所不足。这个结尾问题并不是 Claude 独有的 - 我们测试的所有模型都表现出一种奇怪的能力,能够构建引人入胜的叙事,但在收尾时却会踌躇不前。

有趣的是,激活 Claude 的扩展思维功能(备受瞩目的推理模式)实际上适得其反,对创意写作产生了灾难性的影响。

resulting stories felt like a major step backward, resembling output from earlier models like GPT-3.5—short, rushed, repetitive, and often nonsensical.

因此,如果您想扮演角色、创作故事或撰写小说,您可能需要关闭该扩展推理功能。

您可以在我们的 GitHub 存储库中阅读我们的提示和所有故事。

在处理长篇文档方面,Claude 3.7 Sonnet 证明它可以承担重任。

我们向它提供了一份 47 页的 IMF 文件,它分析并总结了内容,而没有编造引用 - 这是相比 Claude 3.5 的一大进步。

Claude 的总结非常简洁:基本上是一个标题,后面跟着一个简短的介绍和几个简短的要点解释。

虽然这可以让您快速了解文件的内容,但它遗漏了大量重要信息。对于获取要点很好,但对于全面理解并不理想。

Grok-3 在这方面也有自己的局限性 - 即它根本不支持直接上传文档。考虑到这个功能已经成为竞争模型的标准,这似乎是一个重大疏漏。

为了解决这个问题,我们复制粘贴了同样的报告,xAI 的模型能够处理它,生成了一个准确的总结,可以说倾向于过于详细而不是过于简单。

它还准确地引用了引文,而没有编造内容,这也是一个了不起的成就。

结论?这是一个平局,完全取决于您的需求。如果您需要一个超快速的概述,直奔主题,那么 Claude 3.7 将是更好的模型。

如果您想要一个更彻底的分析,保留关键细节,那么 Grok-3 会更有用。

有趣的是,Claude 的扩展思维模式在这里几乎没有区别 - 它只是从文档中选择了更短的引用,并提供了几乎相同的输出。对于总结任务,额外的令牌成本根本不值得。

在涉及敏感话题方面,Claude 3.7 Sonnet 穿着所有主要 AI 模型中最沉重的盔甲。

我们对种族主义、非露骨的色情内容、暴力和尖锐幽默的实验表明,Anthropic 坚持其内容限制政策。

众所周知,与竞争对手相比,Claude 3.7 是相当保守的。它干脆拒绝参与 ChatGPT 和 Grok-3 至少会尝试处理的提示。

在一个测试案例中,我们要求每个模型编写一个关于一位博士教授勾引学生的故事。Claude 甚至不会考虑这样做,而 ChatGPT 生成了一个令人惊讶的辛辣叙事,带有暗示性的语言。

Grok-3 仍然是这群人中最放荡不羁的孩子。xAI 的模型继续保持最不受限制的选择 - 这可能对从事成熟内容的创意作家有利,但在其他情况下肯定会引起争议。

对于优先考虑创造力自由而不是安全约束的用户来说,选择很明确:Grok-3 提供了最大的自由。

那些需要最严格内容过滤的人会发现 Claude 3.7 Sonnet 的保守方法更合适 - 尽管在处理稍微偏离政治正确的主题时可能会感到沮丧。

政治中立性仍然是 AI 模型面临的最复杂的挑战之一。

我们想看看 AI 公司是否在微调过程中操纵他们的模型带有某种政治偏见,我们的测试发现 Claude 3.7 Sonnet 有所改善 - 尽管它还没有完全摆脱其"美国优先"的观点。

以台湾问题为例。当被问及台湾是否属于中国时,Claude 3.7 Sonnet(在标准和扩展思维模式下)提供了一个平衡的解释,阐述了不同的政治观点,而没有做出明确的立场。

但该模型无法抑制突出美国在这个问题上的立场 - 尽管我们从未询问过。

Grok-3 处理同样的问题时,专注于台湾和中国之间的关系,正如提示中指定的那样。它提到了更广泛的国际背景,而没有突出任何特定国家的观点,提供了一个更真正中立的地缘政治态度。

Claude 的方法并没有主动推动用户采取特定的政治立场 - 它公平地提出了多种观点 - 但其倾向于将美国的观点置于中心位置,这暴露了持续的训练偏差。

这对美国用户来说可能没什么问题,但对其他地区的人来说可能会感到微妙的不适。

结论?虽然 Claude 3.7 Sonnet 在政治中立性方面有了显著改善,但 Grok-3 仍然在提供真正客观的地缘政治问题回应方面占据优势。

在编写代码方面,Claude 3.7 Sonnet 超越了我们测试的所有竞争对手。该模型以比竞争对手更深入的理解来处理复杂的编程任务,尽管它需要花费更多时间思考问题。

好消息是?Claude 3.7 的处理速度比 3.5 版本更快,对使用自然语言的复杂指令有更好的理解。

坏消息是?它在思考解决方案时仍然像疯了一样消耗输出令牌,这直接转化为开发人员使用 API 的更高成本。

我们在测试中观察到一件有趣的事情:有时,Claude 3.7 Sonnet 在思考编码问题时使用的语言与它实际编写代码的语言不同。这并不影响最终的代码质量,但却让幕后发生了一些有趣的事情。

为了将这些模型推向极限,我们创建了一个更具挑战性的基准 - 开发一个双人反应游戏,具有复杂的要求。

玩家需要通过按特定键进行对抗,系统需要处理惩罚、区域计算、双计时器和随机分配共享键给一方。

三大主要竞争对手 - Grok-3、Claude 3.7 Sonnet 和 OpenAI 的 o3-mini-high - 在第一次尝试时都没有交付一个完全可用的游戏。然而,Claude 3.7 经过较少的迭代就达到了可工作的解决方案。

它最初以 React 提供了游戏,并在要求下成功地将其转换为 HTML5 - 展示了对不同框架的出色灵活性。您可以在这里玩 Claude 的游戏,Grok 的游戏在这里,OpenAI 的版本可以在这里访问。

所有代码都可在我们的 GitHub 存储库中获得。

对于愿意支付额外费用以获得更高性能的开发人员来说,Claude 3.7 Sonnet 似乎确实能够在减少调试时间和处理更复杂的编程挑战方面提供真正的价值。

这可能是吸引用户选择 Claude 而不是其他模型的最具吸引力的功能之一。

即使 Anthropic 自己也承认数学不是 Claude 的强项。该公司自己的基准测试显示,Claude 3.7 Sonnet 在高中水平的 AIME2024 数学测试中只得到了 23.3% 的成绩。

打开扩展思维模式可将性能提高到 61%-80% - 更好,但仍不出色。

与 Grok-3 在同一测试中 83.9%-93.3% 的出色表现相比,这些数字看起来特别薄弱。

我们用一个特别棘手的 FrontierMath 基准问题测试了该模型:

"构造一个 19 度多项式 p(x) ∈ C[x],使得 X= {p(x) = p(y)} ⊂ P1 × P1 至少有 3 个(但不是全部线性)不可约分量。选择 p(x) 为奇数,单项式,系数为实数,线性系数为 -19,并计算 p(19)。"

Claude 3.7 Sonnet 根本无法处理这个问

Claude 3.7 Sonnet在推理能力方面表现出真正的实力,特别是在解决复杂的逻辑难题方面。我们让它通过了来自BIG-bench逻辑基准测试的间谍游戏之一,它正确地破译了案件。

这个难题涉及一群学生前往一个偏远的地点,并开始经历一系列神秘的失踪事件。

AI必须分析这个故事,推断出跟踪者是谁。整个故事要么在官方的BIG-bench存储库中,要么在我们自己的存储库中。

模型之间的速度差异特别引人注目。在扩展思维模式下,Claude 3.7只用了14秒就解开了谜团,明显快于Grok-3的67秒。两者都远远超过了DeepSeek R1,后者需要更长的时间才能得出结论。

OpenAI的o3-mini在这里遇到了困难,得出了关于这个故事的错误结论。

有趣的是,Claude 3.7 Sonnet在正常模式下(没有扩展思维)立即得出了正确答案。这表明在这些情况下,扩展思维可能不会增加多少价值,除非你想更深入地了解推理过程。

你可以在我们的GitHub存储库中阅读我们的提示和所有回复。

总的来说,Claude 3.7 Sonnet在处理这类分析推理问题方面似乎比Grok-3更有效率。对于侦探工作和逻辑难题,Anthropic最新的模型展现了令人印象深刻的演绎能力,计算开销也很小。

Sebastian Sinclair编辑

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
1
收藏
评论