Nếu như năm ngoái được định nghĩa bởi những mô hình AI đột phá với khả năng giao tiếp ấn tượng, nhiều người cho rằng năm 2025 có thể là năm của các tác nhân AI—các hệ thống tự trị được thiết kế để thực hiện các nhiệm vụ cụ thể với sự hướng dẫn tối thiểu của con người.
Những công cụ chuyên biệt này vượt xa các giao diện trò chuyện đơn giản, tự động thực hiện các nhiệm vụ khác nhau vượt xa việc chỉ tạo nội dung.
Sự hype về tác nhân nghiên cứu đã tăng tốc khi You.com giới thiệu công cụ nghiên cứu tiên phong của mình vào cuối năm 2024.
Google nhanh chóng đáp lại với tác nhân nghiên cứu Gemini, có khả năng tạo ra các phân tích toàn diện, giàu trích dẫn bao gồm hàng chục trang, và cung cấp cho người dùng Gemini Advanced với giá 20 USD/tháng.
OpenAI tham gia cuộc cạnh tranh với trợ lý nghiên cứu được cung cấp bởi GPT-4.5 của họ vào tháng Hai, trong khi xAI của Elon Musk tiết lộ khả năng nghiên cứu sâu trong Grok-3 vài ngày sau đó.
Hiện tại, Grok và Gemini cung cấp các tác nhân nghiên cứu của họ miễn phí, trong khi OpenAI tính phí 20 USD cho 10 người dùng hàng tháng ở cấp độ Plus và 200 USD cho 120 người dùng hàng tháng ở cấp độ Pro.
Nhưng cái nào thực sự mang lại kết quả hữu ích nhất? Chúng tôi đã thử nghiệm tất cả các tác nhân để đánh giá hiệu suất của những người bạn nghiên cứu kỹ thuật số này khi giải quyết các thách thức giống nhau.
(Lưu ý: Tất cả các kết quả đều có trong kho lưu trữ GitHub của chúng tôi.)
Ngay khi giao nhiệm vụ nghiên cứu cho các hệ thống AI này, các cá tính độc đáo của chúng trở nên rõ ràng.
ChatGPT áp dụng một cách tiếp cận thận trọng, có hệ thống, đặt câu hỏi để làm rõ trước khi tiến hành. Cách tiếp cận thận trọng này phù hợp để giảm thiểu các ảo giác và tối đa hóa tính liên quan bằng cách trước tiên thiết lập các thông số chính xác xung quanh ý định của người dùng.
Nó cũng giúp mô hình tránh đi vào những ngõ cụt và đi đến những kết luận sai lầm.
Gemini ít rõ ràng hơn và thay vào đó hoạt động như một đối tác nghiên cứu hợp tác.
Trước khi bắt đầu, nó sẽ phát triển một kế hoạch nghiên cứu có cấu trúc mà bạn có thể xem xét và sửa đổi trước khi thực hiện. Cách tiếp cận minh bạch này cho phép người dùng có nhiều quyền kiểm soát hơn đối với hướng nghiên cứu ngay từ đầu.
Nó cũng chi tiết hơn nhiều và cung cấp cho người dùng nhiều mức độ kiểm soát hơn đối với tác nhân nghiên cứu khi họ có thể kiểm soát từng bước của quá trình điều tra, thêm, bớt và sửa đổi các bước cho đến khi hoàn thành kế hoạch hoàn hảo.
Grok-3, đúng với nguồn gốc chịu ảnh hưởng của Musk, bỏ qua các lời chào hỏi và lao vào hành động.
Không có câu hỏi, không có kế hoạch—chỉ thực hiện ngay lập tức với tập trung vào việc cung cấp kết quả nhanh nhất có thể.
Nếu bạn muốn có kết quả tốt với Grok, bạn cần phải rất chi tiết trong câu truy vấn của mình.
Những tương tác ban đầu này không chỉ là những khác biệt về giao diện—chúng tiết lộ những triết lý cơ bản thúc đẩy cách tiếp cận của mỗi hệ thống trong việc thu thập thông tin.
Trong các cuộc thử nghiệm có giới hạn thời gian, sự khác biệt về hiệu suất thật sự ấn tượng:
Bắt đầu cả ba hệ thống vào đúng 16:27:
Điều này đại diện cho sự khác biệt về thời gian lên đến 433% giữa lựa chọn nhanh nhất và chậm nhất.
Để có bối cảnh, trong thời gian mà ChatGPT hoàn thành một nhiệm vụ nghiên cứu, Grok-3 có thể hoàn thành tới năm cuộc điều tra riêng biệt hoặc thực hiện năm lần lặp lại khác nhau trên cùng một nghiên cứu, cải thiện chất lượng của nó.
Khoảng cách về tốc độ này có thể có tác động khác nhau tùy thuộc vào kịch bản. Tất nhiên, người dùng hy sinh chất lượng để đổi lấy tốc độ, nhưng điều này dường như là một yếu tố khác biệt chính để đặt Grok vào một loại AI nghiên cứu khác.
Tuy nhiên, sự khác biệt vài phút trong nghiên cứu có thực sự quan trọng không?
Đối với hầu hết mọi người, điều này sẽ không quan trọng. Hãy đi lấy một tách cà phê trong khi AI làm việc của bạn. Nếu bạn là một nhà báo với thời hạn chặt chẽ, một sinh viên cuối cùng đang hoàn thành một bài luận, hoặc một chuyên gia cần thông tin nhanh chóng cho một cuộc họp, lợi thế về tốc độ của Grok-3 có thể là sự khác biệt giữa việc đáp ứng hoặc bỏ lỡ thời hạn của bạn.
Nhưng đối với phần còn lại của chúng ta, nếu bạn cần chi tiết và thông tin chuyên sâu về một chủ đề, bạn sẽ tốt hơn khi sử dụng ChatGPT hoặc Gemini.
Gemini thậm chí sẽ gửi thông báo đến điện thoại thông minh của bạn, thông báo rằng nghiên cứu đã hoàn thành.
Một sự khác biệt tinh tế giữa các hệ thống này nằm ở mức độ hiển thị họ cung cấp về quá trình nghiên cứu của họ—một yếu tố trực tiếp ảnh hưởng đến mức độ bạn có thể tin tưởng vào các kết luận của họ.
Gemini là tốt nhất trong số này, cung cấp tính minh bạch ngoại hạng về hành trình thu thập thông tin của nó. Bạn có thể theo dõi khi nó tìm kiếm thông tin, đánh giá các nguồn và xây dựng sự hiểu biết của mình.
Tính minh bạch này tạo ra một cái gì đó giống như một luồng kiểm toán kỹ thuật số giúp xây dựng niềm tin vào các kết quả của nó.
ChatGPT, ngược lại, hoạt động giống như một hộp đen, rất hạn chế trong chuỗi suy nghĩ và quá trình nghiên cứu tổng thể của nó.
Người dùng gần như không có khả năng nhìn thấy những gì đang xảy ra ở幕hậu, thường để lại bạn nhìn chằm chằm vào một màn hình trắng, tự hỏi liệu có gì đang xảy ra không.
Trong nhiều bài kiểm tra, hệ thống dường như bị đóng băng hoàn toàn, và chúng tôi chỉ biết nó đã hoàn thành vì chúng tôi mở một tab mới và nghiên cứu xuất hiện như đã hoàn thành 10 phút trước.
Grok-3 lấy một con đường giữa về tính minh bạch, hiển thị ít công việc hơn Gemini nhưng bù lại bằng những đổi mới cấu trúc thực tế. Tính năng nổi bật của nó là trình bày các phát hiện chính ở phần đầu trước khi đi sâu vào chi tiết—tương tự như cách một tóm tắt tốt hoạt động.
Khi so sánh các công cụ nghiên cứu AI, độ sâu nghiên cứu có lẽ là tiêu chí phân biệt các hệ thống tinh vi với các công cụ tìm kiếm được tô điểm. Các bài kiểm tra của chúng tôi đã tiết lộ một số khác biệt quan trọng trong cách các nền tảng này tiếp cận việc tổng hợp kiến thức toàn diện.
ChatGPT cung cấp các phân tích kiệt tác có thể được coi là nghiên cứu cấp cao học—về mặt thông tin chứ không phải phương pháp. Khi khám phá các câu hỏi triết học về sự tồn tại của Chúa, nó đã tạo ra một phân tích 17.000 từ bao gồm các vị trí triết học khác nhau với bối cảnh lịch sử và các luận điểm phản bác tinh tế.
Tính toàn diện này đến với một cái giá—quá tải thông tin thường chôn vùi các hiểu biết chính dưới núi của ngữ cảnh, tạo ra một loại mê cung mà người dùng phải điều hướng để trích xuất các kết luận có thể hành động được.
Gemini áp dụng một cách tiếp cận cân bằng hơn, có cấu trúc nhiều hơn nhưng vẫn đủ toàn diện—báo cáo dài hơn 6.500 từ.
Nó thường bao gồm hầu hết các tài liệu của ChatGPT nhưng tổ chức thông tin với độ chính xác kiến trúc tuyệt vời, bao gồm các hệ thống trích dẫn chính thức với các tham chiếu được đánh số.
Hệ thống phân cấp kiến thức kỷ luật này—rõ ràng phân tách các khái niệm cốt lõi khỏi bằng chứng hỗ trợ—làm cho thông tin phức tạp trở nên dễ tiêu hóa hơn nhiều mà không hy sinh độ sâu cần thiết.
Grok-3 ưu tiên tốc độ hơn độ sâu, sử dụng những gì giống như một phương pháp tóm tắt điều hành. Báo cáo chỉ