哪个平台建构最好的人工智慧代理?我们测试 ChatGPT、Claude、 Gemini等

avatar
Decrypt
01-06
本文为机器翻译
展示原文

您可以使用 AI 代理完成任何事情:在您的文档库中搜索信息、编写代码、网页抓取、对复杂数据进行深入分析,等等。您甚至可以创建一个虚拟办公室,配备专门从事不同任务的代理,让他们像您的专业数字员工一样协同工作。

那么,要做到这一点有多难呢?如果一个普通人想要建立自己的 AI 理财顾问,哪个平台最适合他们?无需 API、奇怪的编码或 Github,我们只想看看最好的 AI 公司在没有用户拥有高度技术技能的情况下,创建 AI 代理的能力有多强。

当然,付出多少就能得到多少。在这种情况下,我们也想看看普通人设置代理的难易程度,与每个平台交付的结果质量之间是否存在相关性。

我们的实验让五大巨头相互竞争:ChatGPT、Claude、Hugging Face、Mistral AI 和 Gemini。每个平台都收到了相同的基本指令,去创建一个理财顾问。

这项测试专注于开箱即用的功能。代理是否能够处理一个常见的场景——在这种情况下,帮助某人平衡 25,000 美元的投资和 30,000 美元的债务。我们还想看看它们在分析交易图表方面的表现如何。我们避免使用会增加代理生产力的额外工具,而是尝试采取最简单的方法。

总之,这是我们的发现以及我们如何对这些模型进行排名:

ChatGPT 是最平衡的平台,提供了复杂的代理创建功能,既有引导式选项,也有手动选项,可以满足完全新手和稍有经验用户的需求。

尽管最近的界面更新将一些功能隐藏在菜单中,但该平台擅长将复杂的用户需求转化为功能性代理。我们通过构建一个理财顾问来测试该模型,它展示了出色的上下文意识和结构化的问题解决能力,为债务管理和投资分配提供了详细而连贯的策略。

Gemini 以其精致、直观的界面和出色的错误处理能力脱颖而出。虽然需要更详细的提示才能获得最佳结果,但它对指令的字面解释创造了一致、可预测的结果。

该代理的理财建议采取咨询式方法,在提出建议之前强调收集背景信息,这与专业做法相符。然而,它在零样本响应中可能过于保守。

这个开源平台提供了无与伦比的定制和模型选择选项。这对于那些寻求对每一个细节都有绝对控制权的人来说很棒,但对于那些追求简单性的人来说并不适合。(就像比较 Linux 系统和 macOS 一样)。它的复杂时间框架和实用工具集成展示了先进的功能。

我们构建了一个纯粹的代理,没有任何额外的功能。我们使用 Nvidia 的 Nemomotron 作为基础 LLM,它足以与 ChatGPT 媲美的输出质量。对于开源阵营来说,这已经不错了。

Anthropic 的平台在特定领域表现出色,特别是那些需要广泛上下文处理和代码解释的任务。它的极简界面掩盖了复杂的功能,但"可选"的指令字段可能会让用户感到困惑。

我们的代理在建议中保持非常保守和模糊,但展示了良好的风险意识和战略思维。它需要更仔细的提示才能真正发挥其潜力,但在一个假设相似条件的测试中,调整提示是不公平的。

这个法国平台提供了独特的基于示例的学习和深度定制选项。然而,它面向开发者的界面和偶尔的语言切换问题为非技术用户创造了障碍。它还需要修改代理的配置以使用不同的模型来执行不同的任务,如分析图像或处理代码。这并不理想。

这个理财顾问在交互设计方面显示出潜力,但在基本数学验证方面存在困难,提供了最差的输出。这并不意味着输出很差,但在一个零样本测试中,这是最不令人满意的。

考虑到前面的排名,没有一种一刀切的解决方案,所有平台都有各自的优缺点。通过一些努力和仔细的提示定制,一个平台的结果可能会有所不同,甚至超过其他平台。最终,所有的 LLM 都有自己独特的提示风格。

如果您想了解我们排名背后的原因,这里有一个更深入的看看我们的经历和代理的结果。我们为所有代理配置了相同的系统提示,没有任何额外的参数或功能,并问他们同样的基本问题:"我有 25,000 美元可投资,同时还有 30,000 美元的债务。为我制定一个财务计划。"

ChatGPT 的界面最近进行了一次整修,实际上使事情变得更加复杂。GPT 创建选项现在隐藏在菜单后面,但一旦找到,它提供了两条路径:一种是对话式设置,AI 会帮助您构建代理;另一种是手动配置,适合那些确切知道自己想要什么的人。(例如,如果您提示模型更具体或更详细,它可能会改变整个系统提示,给您带来更差的结果。)

在实际使用代理方面,ChatGPT 非常简单明了,界面干净易懂。

代理可以本地读取文档和理解图像,这相比其他平台来说是一个优势。

现在,让我们谈谈使用基本提示创建的代理的质量。我们的理财顾问 MoneyGPT 相当出色,为我们上了一堂结构化问题解决的精华课。

除了它精确的分配——"20,000 美元用于高利率债务"和详细的投资组合分配——该代理还展示了复杂的财务推理。它提供了一个五步骤的路线图,不仅仅是一个列表,而是一个考虑了即时需求和长期考虑因素的连贯策略。

该代理的优势在于它能够在细节和上下文之间保持平衡。在推荐具体投资(40% 标准普尔 500 指数,30% 债券)的同时,它还解释了其响应背后的原因:"偿还高利率债务就像获得了投资回报的保证。"这种上下文意识延伸到了长期规划,建议定期审查周期和根据不断变化的情况调整策略。

然而,这种信息丰富也暴露了一个潜在的弱点:可能会让用户感到不知所措,因为过多的细节一次性涌入。虽然在技术上是全面的,但具体分配、投资策略和监控计划的快速传递可能会让财务新手感到不知所措。

您可以在这里阅读它的完整计划,并可以通过点击此链接使用它。我们真心推荐它。

总的来说,Google 的 Gemini 代理创建平台在美观性方面胜出,拥有精致、直观的界面,使代理创建感觉几乎太容易了。该系统会严格按照指令行事,这有助于避免混淆,而它的简洁 UI 也消除了 AI 开发的威慑因素。

然而,它需要更详细的提示才能挤出一些好的结果。它不会轻易接受:简短的提示将得到低质量的响应。

在引擎盖下,它拥有强大的实力——Google 驱动的网络搜索集成、代码分析和图像处理功能,可与 ChatGPT 的产品相媲美,但主要依赖于微软的技术。

Gemini 的 UI 感觉是由真正理解用户体验的人设计的。界面以清晰的标签引导用户,所有内容都显示在一个屏幕上。

这种精致的方法特别吸引新手,尽管有经验的用户可能会想要更细粒度的控制。

我们将我们的代理命名为 MoneyGem,并要求提供一份财务计划。它的咨询方法展示了 Google 独特的问题解决方法。它没有直接给出答案,而是先提出诸如"是什么类型的债务?"和"利率是多少?"之类的问题——显示出它理解财务建议并非一刀切。

它在提供建议之前强调收集背景信息的做法与专业财务规划实践相一致,尽管可能会让急于求成的用户感到沮丧。

一个零样本答案并不有用。该代理基本上说它不了解用户的情况,无法提供良好的财务建议。在要求它做出假设并迫使它提供一个可适用于大多数情况的计划后,该代理生成了一个非常保守的计划草案,但没有给出具体的投资建议。

不过,MoneyGem 在结尾建议最大限度地利用 401(k) 或罗斯 IRA 等税收优惠账户来减轻税收负担。不错。

您可以点击这里阅读我们与 MoneyGem 的互动,并通过点击此链接自行尝试该模型。

Mistral 的代理配置过程方法有些远离简单。代理创建工具隐藏在其开发者控制台中,拥有可能会吓退新手但令修改者欣喜的深度定制选项。

它的代理构建界面不是 LeChat(聊天机器人界面)的一部分,而是在代理创建后才会出现在那里。

我们真正喜欢的一点是,该工具可以接受示例来塑造代理的行为和响应风格——这是其他平台目前无法提供的。另外,这里有一个奇怪的错误:在创建我们的代理时,UI 突然切换到了法语,可能是因为该公司是法国公司。不管怎样,我们无法切换回英语或西班牙语。

一旦创建了代理,用户必须在普通的聊天机器人界面中调用它才能使用。他们必须退出 Le Plateforme 并进入 Le Chat,这并不是最直观的做法。然而,使用代理的界面相当简单明了,感觉就像任何其他 AI 聊天机器人一样。

我们构建了我们的代理,并将其命名为 Le Money,以纪念 Mistral 的法国根源。它的表现明显反映了 Mistral 的通用问题解决方法。它建议"拿出 10,000 美元作为应急基金,15,000 美元用于偿还债务,10,000 美元用于投资"的建议看起来很直接,但显示代理缺乏一些基本的数学验证。

35,000 美元的总额超出了可用资金 10,000 美元,这是一个基本错误,一些语言模型在优先考虑概念正确性而非数值准确性时会犯这种错误。

然而,我们必须指出,表现最佳的 LLM 已经大幅改进,不会经常犯这种错误。

除此之外

用户可以在HuggingChat上尝试他们的代理 - 这无疑是重度用户的梦想。一旦创建了代理,使用它非常简单。界面显示了一个大卡片,上面有代理的名称、描述和照片。它还允许用户分享代理的链接并调整其设置,所有这些都可以从卡片上完成。

将我们的HuggingMoney代理投入测试,显示它处理时间框架,展现了更复杂的财务规划心理学理解。它将其分解为"短期(0-24个月)、中期(24-60个月)和长期(60个月以上)"的做法,反映了专业财务规划实践。

该代理建议将"0-5,000美元"投入到流动性低风险工具中,同时保持每月1,000-1,500美元的积极债务偿付。这从表面上看是对现金流管理的细致理解。

另一个有趣的特点是它将实用工具与理论建议相结合。除了建议使用50/30/20规则外,它还推荐了具体的预算应用程序,并强调了税收优化 - 在高层战略和日常执行之间架起了桥梁。主要缺点?它包含关于债务利率的假设,而没有寻求澄清。

为了提供有用的建议,它过于轻易地接受了许多事情。这种不管什么都要回复的冲动是可以通过提示来修复的,但也是需要考虑的问题。

您可以在这里阅读HuggingMoney的完整计划。您也可以通过点击此链接来尝试。

Andrew Hayward编辑

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
1
收藏
2
评论