엘론 머스크의 xAI가 개발한 Grok-3가 월요일에 공개되었으며, 회사는 이 모델의 기능에 대해 과감한 주장을 하면서 더 큰 야심을 나타내는 거대한 컴퓨팅 인프라를 선보였습니다.
이번 발표는 원시 계산 능력, 벤치마크 성능 및 향후 기능에 크게 초점을 맞추었지만, 실제 시연의 많은 부분은 다른 AI 회사들이 이미 달성한 것들의 재현 같았습니다.
이번 행사의 초반 주연은 AI 자체가 아니라 Grok-3 학습을 지원하는 20만 개의 GPU로 구성된 거대한 클러스터 "Colossus"였습니다.
이 시스템은 두 단계로 구축되었습니다. 첫 번째는 10만 개의 GPU에서 122일 동안 동기식 학습을 진행했고, 두 번째는 이를 20만 개의 GPU로 92일 동안 확장했습니다. xAI 개발자들에 따르면 이 인프라를 구축하는 것이 AI 모델 자체를 개발하는 것보다 더 큰 도전이었습니다.
회사는 이보다 더 강력한 클러스터를 계획하고 있으며, 머스크는 현재 용량의 5배를 목표로 하고 있다고 말했습니다. 이는 지구상 가장 강력한 GPU 클러스터가 될 것입니다.
성능 면에서 Grok-3는 표준 AI 벤치마크에서 인상적인 결과를 보여줍니다. 기본 모델(Chain of Thought와 추론이 포함되지 않은 일반 모델)은 수학(AIME), 과학(GPOA) 및 코딩(LCB) 테스트에서 일관되게 최상위를 차지했습니다.
또한 블라인드 테스트에서도 매우 유망한 것으로 보입니다.
xAI는 "Chocolate"이라는 코드명의 신비로운 모델이 실제로 Grok-3의 초기 테스트 버전이었다고 확인했습니다. 이 모델은 LLM Arena에 업로드되었으며, 다른 AI 모델들과의 직접 경쟁에서 가장 높은 ELO를 달성했습니다.
이는 모델의 품질을 측정하는 가장 정확한 방법으로, 벤치마크에 속이기 위해 학습할 기회를 주지 않고 익명의 사용자들의 선호도만을 기반으로 합니다.
Grok-3의 "Reasoning Beta" 버전은 내부 추론 처리와 추가 계산을 사용하여 수학 점수를 더 높이며, 다른 최고 성능 모델들이 87% 미만인 것에 비해 AIME 2025 벤치마크에서 93%를 달성했습니다.
흥미롭게도 Grok-3 Mini Reasoning Beta라는 더 작은 버전이 때때로 더 큰 모델보다 성능이 좋은데, 이는 더 긴 학습 시간 덕분입니다.
다시 말해, 전체 크기의 Grok-3도 학습 기간이 늘어나면 더 향상될 여지가 있어 보입니다.
그러나 xAI가 Grok-3의 기능을 실시간으로 시연할 때, 이는 혁신보다는 따라잡기 게임 같았습니다. 팀은 물리 문제 해결과 게임 코드 작성과 같은 인상적인 기능을 선보였지만, 이는 이미 ChatGPT, Claude, Google의 Gemini가 달성한 것들이었습니다.
또한 OpenAI와 Google의 유사한 도구와 같은 DeepSearch라는 연구 에이전트를 소개했습니다.
X Premium Plus 구독자는 Grok-3에 즉시 액세스할 수 있지만, 가장 강력한 버전과 업데이트된 버전은 전용 독립형 앱이나 Grok.com에 있을 것입니다.
OpenAI의 "고급 음성 모드"와 유사한 음성 상호 작용이 향후 몇 주 내에 도착할 예정이며, 머스크는 이것이 단순한 텍스트 음성 변환이 아니라 자연스럽고 표현력 있는 음성을 구현하는 진정한 AI 음성 모델이라고 강조했습니다.
개발자들은 향후 몇 주 내에 API 액세스와 오디오 전사 기능을 받게 될 것이며, 이를 통해 Grok-3를 AI 기반 앱에 활용할 수 있게 될 것입니다.
Grok-3로 생성된 테트리스 게임 예시를 보여준 직후, xAI는 Grok-3로 구동되는 게임을 개발할 수 있는 AI 게임 스튜디오 계획도 공개했습니다.
현재 이 모델은 점진적으로 출시되고 있습니다. 작성 시점에 Decrypt는 아직 모델에 대한 액세스를 받지 못했지만, 일부 열성팬들은 결과에 만족하고 있습니다.
AI 분야에서 가장 큰 목소리를 내는 컴퓨터 과학자 Lex Friedman은 Grok-3의 기능을 칭찬했습니다.
다른 이들은 이를 선두 시장 경쟁자들과 비교했습니다.
전 OpenAI 공동 설립자 Andrej Karpathy는 X에 올린 글에서 "Grok 3 + Thinking은 OpenAI의 가장 강력한 모델(o1-pro, 월 200달러) 수준이며, DeepSeek-R1과 Gemini 2.0 Flash Thinking보다 약간 나은 것 같다"고 평가했습니다.
X 사용자 Penny2x는 Grok-3로 만든 2D 플랫포머 게임 "Thank Doge"를 공유했습니다. 그는 Grok의 지시 이해 능력과 여러 반복을 통한 개선에 감명받은 것으로 보입니다.
회사는 또한 Grok-3가 완전히 성숙하고 올바르게 작동하는 시점, 즉 향후 몇 개월 내에 Grok-2를 오픈소스로 공개할 계획이라고 확인했습니다.
Grok-3는 현재 최고의 AI 모델들과 비슷한 수준의 기능을 보여주고 있습니다.
향후 몇 주 내에 약속된 음성 기능, 게임 도구 및 API 액세스가 출시되면 진정한 시험대가 될 것입니다. 이제 공은 GPT-4.5 출시를 준비 중인 OpenAI의 코트로 넘어갔습니다.
Sebastian Sinclair가 편집했습니다.