Grok-3 리뷰: Elon Musk의 AI가 ChatGPT, Claude, DeepSeek 및 제미니(Gemini) 와 비교되는 방식

avatar
Decrypt
02-20
이 기사는 기계로 번역되었습니다
원문 표시

에이프(Ape)의 xAI가 방금 Grok-3을 공개했고, 이는 이미 1월 DeepSeek의 폭발적인 데뷔로 촉발된 AI 군비 경쟁의 물결을 타며 AI 세계를 뒤흔들고 있습니다.

공개 행사에서 xAI 팀은 선별된 명성 있는 벤치마크를 자랑스럽게 선보이며, Grok-3의 추론 능력이 경쟁자들을 압도하고 있음을 과시했습니다. 특히 Grok-3이 LLM Arena에서 최초로 1,400 ELO 점수를 넘어서며 사용자 선호도 1위 LLM으로 자리매김했습니다.

대담한 행보일까요? 절대 그렇습니다. 하지만 우주 비행과 전기 자동차를 재정의하는 데 도움을 준 사람이 자신의 AI가 최고라고 말한다면, 그냥 고개를 끄덕이고 지나칠 수는 없습니다.

직접 확인해 봐야겠습니다. 그래서 우리는 Grok-3을 시험대에 올려놓고 ChatGPT, 제미니(Gemini), DeepSeek, 클로드(Claude)와 맞붙였습니다. 창의적 글쓰기부터 코딩, 요약, 수학 추론, 논리, 민감한 주제, 정치적 편향, 이미지 생성, 심층 연구 등 우리가 찾을 수 있는 가장 일반적인 사용 사례를 테스트했습니다.

Grok-3이 당신의 AI 챔피언일까요? 이 모델이 인상적이긴 하지만, 반드시 당신에게 적합한 것은 아니라는 점을 알아보겠습니다.

기술 문서 작성이나 요약 작업과 달리, 창의적 글쓰기는 AI가 매력적이고 일관된 이야기를 만들어낼 수 있는지를 테스트합니다. 이는 소설가나 시나리오 작가에게 필수적인 능력입니다.

이 테스트에서 우리는 Grok-3에게 미래에서 온 시간 여행자가 과거로 돌아가 자신의 현재를 다시 쓰다가 역설에 빠지는 복잡한 단편 소설을 쓰도록 요청했습니다. 쉽지 않은 과제였습니다. 구체적인 배경, 엮어야 할 세부 사항, 높여야 할 긴장감 등이 포함되었습니다.

Grok-3은 이전에 창의적 과제의 표준으로 여겨졌던 클로드 3.5 소네트를 능가하는 모습을 보여주었습니다. 우리는 두 모델 모두에게 역설을 포함한 복잡한 시간 여행 내러티브를 제시했습니다.

Grok-3의 이야기는 캐릭터 개발이 더 강하고 플롯 진행이 더 자연스러웠습니다. 클로드가 생동감 있는 묘사에 집중하고 내러티브에서 큰 위험을 감수하지 않고 기술적 일관성을 유지한 반면, Grok-3은 세계 구축과 독자를 끌어들이는 매력적인 전제 설정에 탁월했습니다.

이 점은 중요합니다. 몰입감을 위한 설정이 핵심이었고, 큰 차이를 만들어냈습니다. 설정이 풍부했고, 캐릭터들이 세심하게 묘사되었으며, 내러티브가 부드럽게 흘러갔습니다. 물론 대부분은요. 한 가지 문제점은 중요한 플롯 포인트가 전혀 미묘하지 않고 억지스러워 보였다는 것입니다. 우리 캐릭터가 자신의 일을 하고 있는데 갑자기 어떤 노인이 계시해 주는 식이었죠. 치명적인 결함은 아니지만, 그렇다고 완벽한 작품은 아니었습니다.

전반적으로 Grok-3은 더 나은 이야기를 제공했지만, 클로드에 대한 완벽한 승리는 아닙니다. 차이는 단순히 초점의 차이일 수 있습니다. Grok-3은 탄탄한 기반 - 독자의 관심을 끄는 캐릭터와 긴장감 - 에 힘을 쏟은 반면, 클로드는 생동감 있는 묘사로 이야기를 치장하는 데 주력했습니다.

Grok의 이야기와 클로드 3.5 소네트, 그리고 이전 비교에서 같은 과제를 수행한 다른 AI 모델들의 작품을 비교해 보세요.

Grok-3의 주요 약점 중 하나는 문서를 읽을 수 없다는 점입니다. 대부분의 경쟁 모델들이 이를 기본 기능으로 제공하는 것을 고려하면 이는 놀라운 일입니다.

이 한계를 극복하기 위해 우리는 32.6K 토큰(47페이지)의 IMF 보고서 전문을 인터페이스에 붙여넣었습니다. 이는 이전에 Grok-2를 충돌시킨 적이 있었습니다. 이 제한에도 불구하고 Grok-3은 충돌하지 않고 텍스트를 요약할 수 있었습니다. 다만 모든 측면을 포괄하고 필요 이상의 단어를 사용했습니다.

Grok-3은 인용 정확도 면에서 클로드를 능가했고, 클로드와 달리 보고서의 특정 부분을 참조할 때 환각을 일으키지 않았습니다. 이는 다양한 테스트에서 일관되게 나타났기 때문에, 문서 처리 기능이 부족함에도 불구하고 정보 처리 및 검색 능력은 강력합니다.

GPT-4o와 비교하면 차이점은 스타일뿐이었습니다. GPT-4o는 더 분석적이었지만, Grok-3은 정보를 사용자 친화적으로 재구성했습니다.

이 모든 것이 의미하는 바는 무엇일까요? 솔직히 말해, 명확한 승자는 없으며 사용자의 기대에 따라 달라질 것입니다. 구체적이고 강력한 분석을 원한다면 GPT-4o가 가장 적합할 것입니다. 친구와 대화하는 것 같은 느낌을 원한다면 Grok-3이 더 잘 맞을 것 같습니다.

Grok의 요약문은 여기에서 확인할 수 있습니다.

인종과 성에 대한 이야기에서 어떤 사람들은 특정 주제를 민감하게 여기지만, 다른 이들은 그렇지 않습니다. 이는 개인의 배경, 교육, 문화적 기준에 따라 다릅니다.

전반적으로 Grok은 항상 가장 검열되지 않고 과격한 모델이었습니다. 이번 버전도 마찬가지입니다. Grok-2의 대부분 검열되지 않은 발언을 계승했습니다. 하지만 이 새로운 버전은 이러한 프롬프트에 접근하는 방식이 더 교묘합니다. 민감/불쾌한 정보에 참여하지만, 모델 자체가 너무 안전하지 않거나 프롬프터만큼 불쾌하지 않도록 답변을 구성합니다.

예를 들어, 그것은 인종차별적 편견을 암시하는 대화에 참여한 유일한 AI 모델이었습니다. 답변은 문제의 인종차별적 편견을 지적하면서도, 그것을 신중하게 답변했습니다. 반면 다른 모델들은 단순히 답변을 거부했을 것입니다.

폭력이나 에로틱한 콘텐츠와 같은 의문스러운 콘텐츠를 생성하라는 프롬프트에서도 유사한 일이 일어납니다. 모델은 요구를 충족시키지만, 안전하게 유지하려고 매우 노력합니다. 예를 들어 가슴이 큰 여성(하지만 완전히 옷을 입고 있음)을 생성하거나, 무기가 등장하기 전에 한 남자가 다른 남자를 죽이는 등의 방식입니다.

이는 다른 모델들이 보이는 순진한 "아니요"보다 낫습니다. 그들은 때로는 무해한 자극에도 발을 뺍니다. Grok-3은 세상이 모두 화창하지 않다는 것을 인정하지만, 일부가 두려워했던 것만큼 불쾌한 악몽은 아닙니다.

물론 xAI가 Grok의 "과격한" 모드를 활성화하면 이야기가 완전히 달라질 수 있습니다.

이는 민감한 주제 섹션에 포함될 수 있습니다. 그러나 핵심 차이점은 모델에 정치적 편향을 주입하려는 시도가 있었는지, 그리고 Grok이 선전 도구로 사용될 것이라는 우려에 대해 테스트하고자 했다는 것입니다.

Grok-3은 이런 기대를 깨뜨렸습니다. 일론 머스크의 개인적인 보수주의 성향이 AI 응답에 스며들 것이라는 예측을 거부했습니다.

우리는 Grok-3에게 다양한 뜨거운 주제에 대한 정보를 요청하여 어떻게 반응할지 살펴보았습니다. 팔레스타인인들이 자신들의 영토를 떠나야 한다고 묻자, Grok-3은 여러 관점을 신중하게 저울질하는 답변을 제공했습니다. 더 중요한 것은, 이스라엘인들이 자신들의 영토를 포기해야 한다고 질문을 뒤집었을 때도 모델이 동일한 균형 잡힌 접근법을 유지했다는 점입니다.

ChatGPT와 같은 다른 모델들은 그렇지 않습니다.

대만-중국 문

평소와 마찬가지로, 우리는 DeepSeek R1과 OpenAI o1을 평가하는 데 사용했던 것과 동일한 BIG-bench 데이터셋의 샘플을 선택했습니다. 이것은 학생들과 교사들이 일련의 이상한 실종 사건에 직면하는 외딴 눈 덮인 장소로의 학교 여행에 관한 이야기입니다. 모델은 누가 스토커였는지 밝혀내야 합니다.

Grok-3는 정확한 결론에 도달하는 데 67초가 걸렸는데, 이는 DeepSeek R1의 343초보다 빠른 것입니다. OpenAI o3-mini는 잘하지 못했고 이야기 속에서 잘못된 결론에 도달했습니다.

이 링크를 클릭하면 Grok의 전체 추론과 결론을 볼 수 있습니다.

또 다른 장점은 사용자가 창의적 모델과 추론 모델 간에 전환할 필요가 없다는 것입니다. Grok-3는 사용자가 버튼을 누르면 Chain of Thought를 활성화하여 이 과정을 자체적으로 처리합니다. 이것이 OpenAI가 모델 통합 아이디어로 달성하고자 하는 것입니다.

Grok은 자체 독점 이미지 생성기 Aurora를 사용합니다. 이 모델은 ChatGPT의 Dall-e 3와 유사한 방식으로 사용자와 자연어로 반복 작업을 할 수 있습니다.

Aurora는 일반적으로 Flux.1만큼 좋지는 않습니다. Flux.1은 xAI가 자체 모델을 출시하기 전에 채택한 오픈 소스 모델입니다. 그러나 Aurora는 인상적이지는 않지만 현실적이고 다재다능한 것으로 보입니다.

전반적으로 Aurora는 Dall-e 3를 능가하는데, 이는 OpenAI가 xAI의 주요 경쟁자이기 때문입니다. 솔직히 말해서 OpenAI의 Dall-e 3는 오늘날의 기준으로 볼 때 구식 모델로 느껴집니다.

Aurora는 Recraft, MidJourney, SD 3.5, Flux 등 최첨단 이미지 생성기들과 품질 면에서 경쟁할 수 없습니다. 이는 사용자들이 전문 이미지 생성기와 같은 수준의 세부 제어 기능을 가지고 있지 않기 때문일 가능성이 높습니다. 그러나 다른 플랫폼으로 전환하지 않고도 빠른 결과를 얻을 수 있을 만큼 충분합니다.

Grok의 이미지 생성기는 Dall-e 3보다 검열이 덜 되어 있어 좀 더 과감한 사진을 출력할 수 있습니다. 그러나 너무 저속하거나 잔인한 내용은 아닙니다. 규칙을 어기지 않는 이미지를 생성하는 등 이러한 작업을 약간 영리하게 처리합니다.

예를 들어 자극적이거나 폭력적인 내용을 요청하면 Dall-e는 거절하고 MidJourney는 프롬프트를 자동으로 차단합니다. 반면 Grok-3는 사용자의 요구를 충족시키면서도 문제가 될 수 있는 내용으로 흘러가지 않는 이미지를 생성합니다.

이 기능은 Google과 OpenAI가 제공하는 것과 거의 같습니다: 주제에 대한 정보를 웹에서 검색하고, 중요한 부분을 요약하며, 신뢰할 수 있는 출처로 뒷받침되는 잘 문서화된 보고서를 제공하는 연구 에이전트입니다.

Grok-3가 제공한 정보는 정확했으며, 보고서에서 환각을 발견하지 못했습니다.

Grok의 보고서는 일반적이었지만, 처음 보기에도 우리가 찾고 있는 것을 충족시킬 만한 정보를 보여주었습니다. 사용자는 필요에 따라 특정 주제에 대해 더 자세히 설명하도록 모델에 요청할 수 있습니다.

Gemini와 OpenAI의 보고서가 전반적으로 더 풍부하고 자세합니다. 그렇지만 일반적이긴 하지만 Grok의 연구 에이전트는 DeepSeek R1 + Thinking이 제공하는 것보다 낫습니다.

Gemini와 비교하면 다음과 같은 세 가지 단점이 있습니다:

그러나 Grok에는 다음과 같은 몇 가지 주목할 만한 장점이 있습니다:

Grok이 생성한 보고서Gemini가 생성한 유사한 보고서의 예를 볼 수 있습니다.

위에서 언급한 모든 사항을 고려할 때, Grok-3가 당신에게 적합한 모델일까요?

이는 궁극적으로 사용자가 모델을 사용하고자 하는 용도에 따라 달라질 것입니다. Grok-2보다는 확실히 크게 발전했기 때문에, 이미 Grok 팬이거나 X 파워 유저라면 고민 없이 선택할 수 있습니다.

일반적으로 Grok-3는 코더와 창의적 작가에게 더 매력적일 수 있습니다. 또한 연구를 수행하거나 민감한 주제를 다루고자 하는 사용자에게도 좋습니다. 이미 X Premium 구독을 하고 있는 사용자라면 다른 AI 채팅봇이 필요하지 않을 수 있어 비용 절감에도 도움이 될 것입니다.

ChatGPT는 더 개인화되고 주체적인 AI 채팅봇을 원하는 사용자에게 더 적합할 것입니다. GPT 기능은 OpenAI의 핵심 포인트입니다.

현재 Claude는 특별히 두드러지는 점이 없지만, 일부 코더와 창의적 작가들은 Sonnet에 충성하며 그것이 여전히 그러한 작업에 가장 좋다고 주장할 것입니다.

DeepSeek R1은 로컬, 프라이빗, 강력한 추론 모델이 필요한 경우 가장 좋을 것입니다.

Gemini는 Google 생태계와 연결된 강력한 모바일 어시스턴트와 2TB의 클라우드 스토리지가 매력적인 사용자에게 가장 적합합니다.

인터페이스 측면에서는 ChatGPT와 Gemini가 초보자에게 가장 세련된 UI를 제공합니다. Grok-3는 X 앱에서도 사용할 수 있다는 장점이 있어 두 번째로 좋습니다(단, 제한이 있음). Claude는 가장 매력적이지 않으며 이 중에서도 가장 기본적인 서비스입니다.

Andrew Hayward가 편집했습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
4
즐겨찾기에 추가
3
코멘트