ChatGPT, 제미니(Gemini), Grok-3: 어떤 AI가 최고의 연구 에이전트를 갖추고 있을까?

03-18

이 기사는 기계로 번역되었습니다

원문 표시

지난해가 인상적인 대화 능력을 가진 혁신적인 AI 모델로 정의되었다면, 많은 사람들은 2025년이 AI 에이전트—최소한의 인간 지도로 특정 작업을 수행하도록 설계된 자율 시스템—의 해가 될 것이라고 생각합니다.

이러한 전문화된 도구는 단순한 채팅 인터페이스를 넘어서 자율적으로 다양한 작업을 수행합니다.

연구 에이전트 열풍은 You.com이 2024년 말 선구적인 연구 도구를 소개하면서 힘을 얻었습니다.

구글은 Gemini의 연구 에이전트를 신속하게 출시했는데, 이는 수십 페이지에 걸친 종합적이고 인용이 풍부한 분석을 생성할 수 있으며 Gemini Advanced 사용자에게 월 20달러에 제공됩니다.

OpenAI는 2월에 GPT-4.5 기반의 연구 보조원을 출시했고, 일론 머스크의 xAI는 며칠 후 Grok-3에서 심층 연구 기능을 공개했습니다.

이제 Grok과 Gemini는 연구 에이전트를 무료로 제공하고 있으며, OpenAI는 Plus 티어에서 월 10명 사용자에게 20달러, Pro 티어에서 월 120명 사용자에게 200달러를 청구하고 있습니다.

그렇다면 실제로 가장 유용한 결과를 제공하는 것은 어느 것일까요? 우리는 이러한 디지털 연구 동반자들이 동일한 과제를 해결할 때의 성능을 평가하기 위해 모든 에이전트를 테스트했습니다.

(참고: 모든 결과는 GitHub 리포지토리에 있습니다.)

이러한 AI 시스템에게 연구를 할당하면 각자의 고유한 성격이 드러납니다.

ChatGPT는 신중하고 체계적인 접근 방식을 취하며, 진행하기 전에 명확한 질문을 합니다. 이러한 신중한 접근 방식은 환각을 최소화하고 사용자 의도에 대한 정확한 매개변수를 먼저 설정함으로써 관련성을 극대화하는 데 적합합니다.

Gemini는 덜 명백하고 대신 협력적인 연구 파트너처럼 작동합니다. 시작하기 전에 구조화된 연구 계획을 수립하여 사용자가 검토하고 수정할 수 있게 합니다.

Grok-3는 예의 없이 바로 행동에 돌입합니다. 질문도 없고 계획도 없이 가능한 한 빨리 결과를 제공하는 데 초점을 맞춥니다.

이러한 초기 상호 작용은 단순한 인터페이스 차이가 아니라 각 시스템의 정보 수집 접근 방식을 보여줍니다.

시간 제한 실험에서 성능 차이는 두드러졌습니다:

이는 가장 빠른 옵션과 가장 느린 옵션 간의 433%의 시간 차이를 나타냅니다.

맥락에서 볼 때, ChatGPT가 한 가지 연구 작업을 완료하는 동안 Grok-3는 다섯 가지 별도의 조사를 완료하거나 한 가지 연구에 대해 다섯 가지 다른 반복을 실행하여 품질을 향상시킬 수 있습니다.

이러한 속도 격차는 시나리오에 따라 다른 영향을 미칠 수 있습니다. 물론 사용자는 속도에 대한 품질을 희생합니다. 하지만 이것은 Grok을 다른 범주의 AI 연구원으로 구분 짓는 핵심 차별화 요인으로 보입니다.

Gemini는 연구가 완료되면 사용자의 스마트폰으로 알림을 보냅니다.

이러한 시스템 간의 미묘한 차이는 그들의 연구 과정에 대한 가시성 정도에 있습니다—이 요인은 그들의 결론을 신뢰할 수 있는 정도에 직접적인 영향을 미칩니다.

Gemini가 이 부문에서 가장 뛰어나며, 정보 수집 여정에 대한 탁월한 가시성을 제공합니다. ChatGPT는 상대적으로 블랙박스 방식으로 작동하여 연구 과정에 대한 가시성이 매우 제한적입니다.

Grok-3는 가시성 측면에서 중간 지점을 취하며, Gemini보다는 작업 내용을 덜 보여주지만 실용적인 구조적 혁신으로 이를 보완합니다.

연구 깊이는 정교한 시스템과 단순한 검색 엔진을 구분 짓는 지표일 것입니다. 우리의 테스트 결과 이러한 플랫폼이 포괄적인 지식 종합에 접근하는 방식에 있어 중요한 차이점이 드러났습니다.

ChatGPT는 대학원 수준의 연구에 버금가는 방대한 분석을 제공하지만, 정보의 질적 측면에서는 그렇지 않습니다. Gemini는 더 균형 잡힌 접근 방식을 취하며, 구조적 정밀성이 뛰어나면서도 여전히 충분히 포괄적입니다.

Grok-3는 속도를 우선시하며, 핵심 사항을 간단히 다루는 방식을 사용합니다.

이러한 AI 연구 보조원 중 어느 것이 가장 적합한지는 사용자의 구체적인 지식 요구 사항에 따라 달라집니다.

모든 시스템은 참고 문헌 수를 강조하지만, 우리의 조사에서 이러한 지표가 오해를 불러일으킬 수 있음이 드러났습니다.

Grok은 또한 출처 링크의 상당 부분이 404 오류나 존재하지 않는 페이지를 가리키는 방식으로 "속이는" 방법을 가지고 있습니다.

이러한 AI 연구 보조원들은 서로 다른 용도로 최적화된 것 같습니다. 따라서 상황에 따라 각각의 장단점이 있습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트