如果说去年是突破性 AI 模型以及其出色对话能力的一年,那么许多人认为 2025 年可能是 AI 代理的年份—这些自主系统旨在在最小人工指导下执行特定任务。
这些专门的工具超越了简单的聊天界面,自主执行超越内容生成的各种任务。
当 You.com 在2024 年底推出其开创性的研究工具时,研究代理炒作势头开始增强。
谷歌迅速推出了 Gemini 的研究代理,能够生成涵盖数十页的全面、引用丰富的分析,并以每月 20 美元的价格提供给 Gemini 高级用户。
OpenAI 在2 月推出了由 GPT-4.5 驱动的研究助手,而 Elon Musk 的 xAI 在几天后推出了 Grok-3 的深度研究功能。
现在,Grok 和 Gemini 免费提供其研究代理,而 OpenAI 在其 Plus 层收费每月 20 美元供 10 名用户使用,在其 Pro 层收费每月 200 美元供 120 名用户使用。
但哪一个实际上提供最有用的结果?我们测试了所有代理,评估这些数字研究伙伴在处理相同挑战时的表现。
(注:所有结果都在我们的GitHub 仓库中。)
一旦您让这些 AI 系统进行研究,它们独特的个性就会显现出来。
ChatGPT 采取谨慎、系统的方法,在继续之前会提出澄清问题。这种谨慎的方法有助于最小化幻觉,通过首先确立用户意图的精确参数来最大化相关性。
它还有助于模型避免陷入盲目的歧途并得出错误的结论。
Gemini 不那么明显,而是更像一个协作的研究伙伴。
在开始之前,它会制定一个结构化的研究计划,您可以在执行之前进行审查和修改。这种透明的方法使用户能够从一开始就更好地控制研究方向。
它也更详细,让用户对可以控制研究代理的粒度级别有更多掌控,因为他们能够控制调查的每一个步骤,添加、减少和修改步骤,直到完成完美的计划。
Grok-3 忠实于其 Musk 的影响,跳过客套话直接进入行动。
没有问题,没有计划 - 只有立即执行研究,重点是尽快交付结果。
如果您想获得良好的 Grok 结果,您需要非常详细地提出查询。
这些初步互动不仅仅是界面差异 - 它们揭示了推动每个系统信息收集方法的基本理念。
在我们的计时试验中,性能差异是惊人的:
从 16:27 准确开始所有三个系统:
这代表了最快和最慢选项之间 433% 的巨大时间差异。
为了对比,在 ChatGPT 完成一项研究任务的时间内,Grok-3 可能会完成五项单独的调查或对一项单一研究进行五次不同的迭代,从而提高其质量。
这种速度差距可能会根据情况产生不同的影响。当然,用户会以质量为代价换取速度,但这似乎是一个关键的差异化因素,将 Grok 置于不同类别的 AI 研究员中。
不过,仅仅几分钟的研究差异有多重要呢?
对大多数人来说,根本不重要。去喝杯咖啡,让 AI 为您工作。如果您是一名记者面临截止日期,一名最后期限临近的学生正在完成论文,或一名需要快速获取会议信息的专业人士,Grok-3 的速度优势可能是错过或赶上截止日期的关键。
但对于其他人来说,如果您需要对一个主题进行详细和深入的信息,您最好选择 ChatGPT 或 Gemini。
Gemini 甚至会向您的智能手机发送通知,告知研究已经完成。
这些系统之间的一个微妙差异在于它们提供的研究过程可见性—这是一个直接影响您对其结论信任度的因素。
Gemini 在这一类别中表现最佳,提供了对其信息收集过程的出色可见性。您可以跟随它搜索信息、评估来源和建立理解。
这种透明度创造了一种类似于数字审计跟踪的东西,有助于建立对其发现的信心。
相比之下,ChatGPT 更像是一个黑箱,在其思维链和整体研究过程中更加限制。
用户几乎看不到幕后发生的事情,经常盯着一个空白屏幕,不知道是否正在发生任何事情。
在多次测试中,该系统似乎完全冻结了,我们只是在打开一个新标签页时发现研究已经完成了 10 分钟。
Grok-3 在透明度上采取了中间路径,比 Gemini 展示的工作更少,但通过实用的结构创新来弥补这一点。它的突出特点是首先展示关键发现,然后深入细节 - 类似于优秀的执行摘要。
在比较 AI 研究工具时,研究深度可能是将复杂系统与简单搜索引擎区分开来的指标。我们的测试发现了这些平台在全面知识综合方面的一些关键差异。
ChatGPT 提供了可以媲美研究生水平的详尽分析 - 就信息而言,而不是方法论。在探讨上帝存在的哲学问题时,它生成了一篇17,000 字的广泛分析,涵盖了不同的哲学立场,包括历史背景和细微的反驳论点。
这种全面性是有代价的 - 信息过载通常会将关键见解掩埋在大量背景之下,创造出一种用户必须导航的迷宫,才能提取可操作的结论。
Gemini 采取了更平衡的方法,结构更加严谨,但仍然足够全面 - 报告长达6,500 字。
它通常涵盖了 ChatGPT 的大部分内容,但以更出色的架构精度组织信息,包括带有编号参考文献的正式引用系统。
这种有条不紊的知识层次 - 清楚地将核心概念与支持证据分开 - 使复杂信息变得更易消化,而不会牺牲必要的深度。
Grok-3 将速度置于深度之上,采用类似于执行摘要的方法。报告长约 1,500 字。
它可靠地涵盖了复杂主题的基本方面,但避免深入探讨细微差别。这种注重效率的方法创造了即时的实用性,代价是全面的理解 - 非常适合快速了解,但可能不足以满足学术应用。
有趣的是,这些模型花费最多时间调查的研究是一个简单的"有多少种性别?"
ChatGPT 花了大约 20 分钟,Gemini 花了近半个小时,Grok 花了近 8 分钟写一个简单的答案,这种周到程度令人感到讽刺,考虑到 xAI 的所有者。
不过,它们都没有给出实际的数字。
对于用户来说,最佳选择完全取决于具体的知识需求:学术研究人员可能更喜欢 ChatGPT 的深度,尽管它冗长;而在彻底性和时间限制之间寻求平衡的专业人士可能会发现 Gemini 的方法最理想。
相比之下,那些需要快速见解而不需要全面背景的人可能会倾向于 Grok-3 的注重效率的模型。
这三个系统都显示了他们咨询了多少来源,但我们的调查发现了一种奇怪的行为,这种行为破坏了这些指标的可信度。
在检查引用实践时,我们发现这三个系统经常将同一来源的不同信息片段计为单独的引用。
这造成了关于所进行研究广度的误导性印象。
从实际角度来看,这意味着当一个 AI 声称咨询了"20 个来源"时,它实际上可能只从 5 个不同的文档中提取信息,将每个文档的 4 个段落作为单独的来源。
这种引用膨胀使得准确评估实际研究的全面性变得很困难 - 这对于需要来源多样性的学术或专业应用来说是一个严重的问题。
Grok 也有一种作弊的方式。它确实提供了良好和准确的信息,但其大部分来源链接往往指向 404 链接和不存在的页面。
这些 AI 研究助手似乎已针对截然不同的用例进行了优化。因此,尽管听起来很老套,但每一个都会更适合于某种特定类型的用户:
目前,Gemini 提供了最全面的整体方案来满足一般研究需求,但"正确"的选择最终取决于您是否优先考虑速度、透明度或彻底性 - 目前,没有单一平台能够完美兼顾这三种美德。