如果說去年是突破性 AI 模型以及其出色對話能力的一年,那麼許多人認為 2025 年可能是 AI 代理的年份—這些自主系統旨在在最小人工指導下執行特定任務。
這些專門的工具超越了簡單的聊天介面,自主執行超越內容生成的各種任務。
當 You.com 在2024 年底推出其開創性的研究工具時,研究代理炒作勢頭開始增強。
谷歌迅速推出了 Gemini 的研究代理,能夠生成涵蓋數十頁的全面、引用豐富的分析,並以每月 20 美元的價格提供給 Gemini 高階使用者。
OpenAI 在2 月推出了由 GPT-4.5 驅動的研究助手,而 Elon Musk 的 xAI 在幾天後推出了 Grok-3 的深度研究功能。
現在,Grok 和 Gemini 免費提供其研究代理,而 OpenAI 在其 Plus 層收費每月 20 美元供 10 名使用者使用,在其 Pro 層收費每月 200 美元供 120 名使用者使用。
但哪一個實際上提供最有用的結果?我們測試了所有代理,評估這些數字研究夥伴在處理相同挑戰時的表現。
(注:所有結果都在我們的GitHub 倉庫中。)
一旦您讓這些 AI 系統進行研究,它們獨特的個性就會顯現出來。
ChatGPT 採取謹慎、系統的方法,在繼續之前會提出澄清問題。這種謹慎的方法有助於最小化幻覺,透過首先確立使用者意圖的精確引數來最大化相關性。
它還有助於模型避免陷入盲目的歧途並得出錯誤的結論。
Gemini 不那麼明顯,而是更像一個協作的研究夥伴。
在開始之前,它會制定一個結構化的研究計劃,您可以在執行之前進行審查和修改。這種透明的方法使使用者能夠從一開始就更好地控制研究方向。
它也更詳細,讓使用者對可以控制研究代理的粒度級別有更多掌控,因為他們能夠控制調查的每一個步驟,新增、減少和修改步驟,直到完成完美的計劃。
Grok-3 忠實於其 Musk 的影響,跳過客套話直接進入行動。
沒有問題,沒有計劃 - 只有立即執行研究,重點是儘快交付結果。
如果您想獲得良好的 Grok 結果,您需要非常詳細地提出查詢。
這些初步互動不僅僅是介面差異 - 它們揭示了推動每個系統資訊收集方法的基本理念。
在我們的計時試驗中,效能差異是驚人的:
從 16:27 準確開始所有三個系統:
這代表了最快和最慢選項之間 433% 的巨大時間差異。
為了對比,在 ChatGPT 完成一項研究任務的時間內,Grok-3 可能會完成五項單獨的調查或對一項單一研究進行五次不同的迭代,從而提高其質量。
這種速度差距可能會根據情況產生不同的影響。當然,使用者會以質量為代價換取速度,但這似乎是一個關鍵的差異化因素,將 Grok 置於不同類別的 AI 研究員中。
不過,僅僅幾分鐘的研究差異有多重要呢?
對大多數人來說,根本不重要。去喝杯咖啡,讓 AI 為您工作。如果您是一名記者面臨截止日期,一名最後期限臨近的學生正在完成論文,或一名需要快速獲取會議資訊的專業人士,Grok-3 的速度優勢可能是錯過或趕上截止日期的關鍵。
但對於其他人來說,如果您需要對一個主題進行詳細和深入的資訊,您最好選擇 ChatGPT 或 Gemini。
Gemini 甚至會向您的智慧手機發送通知,告知研究已經完成。
這些系統之間的一個微妙差異在於它們提供的研究過程可見性—這是一個直接影響您對其結論信任度的因素。
Gemini 在這一類別中表現最佳,提供了對其資訊收集過程的出色可見性。您可以跟隨它搜尋資訊、評估來源和建立理解。
這種透明度創造了一種類似於數字審計跟蹤的東西,有助於建立對其發現的信心。
相比之下,ChatGPT 更像是一個黑箱,在其思維鏈和整體研究過程中更加限制。
使用者幾乎看不到幕後發生的事情,經常盯著一個空白螢幕,不知道是否正在發生任何事情。
在多次測試中,該系統似乎完全凍結了,我們只是在開啟一個新標籤頁時發現研究已經完成了 10 分鐘。
Grok-3 在透明度上採取了中間路徑,比 Gemini 展示的工作更少,但透過實用的結構創新來彌補這一點。它的突出特點是首先展示關鍵發現,然後深入細節 - 類似於優秀的執行摘要。
在比較 AI 研究工具時,研究深度可能是將複雜系統與簡單搜尋引擎區分開來的指標。我們的測試發現了這些平臺在全面知識綜合方面的一些關鍵差異。
ChatGPT 提供了可以媲美研究生水平的詳盡分析 - 就資訊而言,而不是方法論。在探討上帝存在的哲學問題時,它生成了一篇17,000 字的廣泛分析,涵蓋了不同的哲學立場,包括歷史背景和細微的反駁論點。
這種全面性是有代價的 - 資訊過載通常會將關鍵見解掩埋在大量背景之下,創造出一種使用者必須導航的迷宮,才能提取可操作的結論。
Gemini 採取了更平衡的方法,結構更加嚴謹,但仍然足夠全面 - 報告長達6,500 字。
它通常涵蓋了 ChatGPT 的大部分內容,但以更出色的架構精度組織資訊,包括帶有編號參考文獻的正式引用系統。
這種有條不紊的知識層次 - 清楚地將核心概念與支援證據分開 - 使複雜資訊變得更易消化,而不會犧牲必要的深度。
Grok-3 將速度置於深度之上,採用類似於執行摘要的方法。報告長約 1,500 字。
它可靠地涵蓋了複雜主題的基本方面,但避免深入探討細微差別。這種注重效率的方法創造了即時的實用性,代價是全面的理解 - 非常適合快速瞭解,但可能不足以滿足學術應用。
有趣的是,這些模型花費最多時間調查的研究是一個簡單的"有多少種性別?"
ChatGPT 花了大約 20 分鐘,Gemini 花了近半個小時,Grok 花了近 8 分鐘寫一個簡單的答案,這種周到程度令人感到諷刺,考慮到 xAI 的所有者。
不過,它們都沒有給出實際的數字。
對於使用者來說,最佳選擇完全取決於具體的知識需求:學術研究人員可能更喜歡 ChatGPT 的深度,儘管它冗長;而在徹底性和時間限制之間尋求平衡的專業人士可能會發現 Gemini 的方法最理想。
相比之下,那些需要快速見解而不需要全面背景的人可能會傾向於 Grok-3 的注重效率的模型。
這三個系統都顯示了他們諮詢了多少來源,但我們的調查發現了一種奇怪的行為,這種行為破壞了這些指標的可信度。
在檢查引用實踐時,我們發現這三個系統經常將同一來源的不同資訊片段計為單獨的引用。
這造成了關於所進行研究廣度的誤導性印象。
從實際角度來看,這意味著當一個 AI 聲稱諮詢了"20 個來源"時,它實際上可能只從 5 個不同的文件中提取資訊,將每個文件的 4 個段落作為單獨的來源。
這種引用膨脹使得準確評估實際研究的全面性變得很困難 - 這對於需要來源多樣性的學術或專業應用來說是一個嚴重的問題。
Grok 也有一種作弊的方式。它確實提供了良好和準確的資訊,但其大部分來源連結往往指向 404 連結和不存在的頁面。
這些 AI 研究助手似乎已針對截然不同的用例進行了最佳化。因此,儘管聽起來很老套,但每一個都會更適合於某種特定型別的使用者:
目前,Gemini 提供了最全面的整體方案來滿足一般研究需求,但"正確"的選擇最終取決於您是否優先考慮速度、透明度或徹底性 - 目前,沒有單一平臺能夠完美兼顧這三種美德。