구글은 오늘(13일) 제미니 3 딥씽크의 주요 업그레이드 버전을 공개했습니다. ARC-AGI-2 테스트(인공지능이 문제 은행을 암기하는 것을 방지하기 위해 특별히 설계된 추론 테스트로, 사용자의 지식 수준을 측정하는 것이 아니라 몇 가지 예시를 통해 규칙을 추론할 수 있는지를 평가합니다) 에서 제미니 3 딥씽크는 84.6%의 점수를 기록했습니다.
참고로 Claude Opus 4.6(Thinking Max 모드)은 68.8%, GPT-5.2(Thinking xhigh 모드)는 52.9%의 정확도를 보였으며, 인간의 평균 정확도는 약 60%입니다.

더욱 놀라운 것은 Deep Think가 오리지널 ARC-AGI-1 벤치마크에서 96%라는 점수를 달성했다는 점입니다. 이는 한때 "가장 어려운 AI 시험 중 하나"로 여겨졌던 이 벤치마크를 사실상 한계까지 끌어올린 것입니다.
그들은 시험을 볼 뿐만 아니라 학생들이 실수를 저지르는 것도 잡아냅니다.
벤치마크 점수 외에도 구글은 발표에서 한 가지 중요한 사실을 언급했습니다. 딥싱크(Deep Think)가 인간 동료 검토를 거친 수학 논문을 검토하는 과정에서 이전 검토자들이 모두 놓쳤던 논리적 오류를 성공적으로 발견했다는 것입니다. 이 논문은 럿거스 대학교의 수학자들에 의해 확인되었습니다.
이 사례의 중요성은 표준화된 테스트에서의 모델 성능에 있는 것이 아니라, 실제적이고 개방적인 과학적 시나리오에서 입증된 모델의 역량에 있습니다. 동료 평가는 학계의 핵심 품질 관리 메커니즘이며, 인공지능이 이 과정에서 지속적으로 가치 있는 도움을 제공할 수 있다면 과학 연구에 미치는 가속 효과는 어떤 벤치마크 테스트로도 측정할 수 있는 범위를 훨씬 뛰어넘을 것입니다.
Deep Think는 2025년 국제 물리 올림피아드와 국제 화학 올림피아드 필기 부문에서 금메달을 획득했으며, Codeforces에서 3,455점의 Elo 점수를 받아 전 세계적으로 극소수의 프로그래머만이 도달할 수 있는 "레전더리 마스터" 레벨을 달성했습니다.
다양한 분야의 전문가들이 인공지능이 답하기 어렵도록 의도적으로 설계한 벤치마크 테스트인 "인류의 마지막 시험"에서 딥씽크는 (도구를 사용하지 않고) 48.4%의 점수를 달성하여 새로운 기록을 세웠습니다.
시장 점유율 의 지각 변동
세 거대 AI 기업 간의 기술 경쟁이 시장 지형을 재편하고 있습니다. ChatGPT의 시장 점유율은 최고치인 87%에서 약 68%로 하락한 반면, Gemini는 5% 미만에서 18% 이상으로 급증했고, Anthropic의 Claude는 기업 시장을 꾸준히 잠식하고 있습니다.
이 경쟁에서 구글의 독보적인 강점은 유통망입니다. 제미니는 안드로이드, 크롬 브라우저, 구글 워크스페이스, 그리고 검색 엔진에 내장되어 있어, 구글의 모델 역량이 경쟁사와 동등하더라도 유통 채널의 우위를 통해 사용자를 확보할 수 있습니다.
하지만 유통 우위는 양날의 검과 같습니다. 제미니의 사용자 경험이 충분히 좋지 않다면, 사용자들이 능동적으로 선택하는 것이 아니라 수동적으로 노출되기 때문에 경쟁사보다 더 빨리 신뢰를 잃을 수 있습니다. 반면 오픈AI의 사용자들은 기꺼이 비용을 지불할 의향이 있으며, 자연스럽게 더 높은 인내심과 충성도를 보입니다.
암호화폐 산업에 미치는 파급 효과
인공지능 군비 경쟁이 심화될수록 컴퓨팅 인프라에 대한 수요도 증가합니다. 최첨단 모델을 학습하는 데 필요한 GPU 클러스터 비용은 2024년 수억 달러에서 2026년 수십억 달러로 급증했습니다. 이는 두 가지에 직접적인 영향을 미칩니다.
첫째, 비트코인 채굴자들의 변화 과정을 살펴보겠습니다. 채굴 수익이 줄어들면서(JP모건 체이스는 이번 주 비트코인 생산 비용이 7만 7천 달러까지 떨어졌고, 비트코인 가격은 약 6만 6천 달러라고 추산했습니다), 대규모 해시레이트 인프라를 보유한 채굴자들은 인공지능 컴퓨팅 서비스로의 전환을 가속화하고 있습니다.
고비용 채굴 회사들이 "철수"하는 것이 아니라 "사업 방향을 바꾸는 것"이며, 비트코인 채굴에서 인공지능 해시레이트 제공하는 계약을 통해 수익을 창출하는 방향으로 전환하고 있는 것입니다.
둘째, AI 토큰에 대한 이야기입니다. 구글, 오픈AI, 앤트로픽이 주요 업그레이드를 발표할 때마다 온체인 AI 관련 토큰(예: 탈중앙화 컴퓨팅 프로토콜)은 일반적으로 단기적인 과열 현상을 겪습니다.
하지만 이러한 토큰의 근본적인 문제점은 여전히 해결되지 않았습니다. 탈중앙화 컴퓨팅은 기업 수준의 AI 학습 요구 사항을 충족하기 위한 지연 시간과 처리량 측면에서 아직 갈 길이 멉니다. 스토리텔링 자체는 매우 빠르게 실행될 수 있지만, 인프라가 그 속도를 따라가지 못하고 있습니다.
과학의 결정적인 전쟁은 이제 막 시작되었을 뿐이다.
딥싱크 업그레이드는 구글을 적어도 추론 및 과학 분야에서는 인공지능 경쟁의 선두주자로 다시 올려놓았습니다. 하지만 구글의 발표문을 자세히 살펴보면 미묘한 전략 변화를 발견할 수 있습니다. 더 이상 "가장 똑똑한 범용 인공지능"을 강조하지 않고, "과학을 위해 탄생했다"는 점을 반복적으로 언급하고 있습니다.
범용 인공지능(GAI) 벤치마크가 점점 더 포화되고 차별화가 어려워지는 상황에서, "내 AI는 과학 연구를 도울 수 있습니다"라는 가치 제안은 "내 AI는 벤치마크 점수가 가장 높습니다"라는 제안보다 훨씬 더 설득력이 있습니다. 딥씽크(Deep Think)가 동료 심사를 진정으로 꾸준히 지원하고, 신약 개발을 가속화하거나, 물리 시뮬레이션에서 인간이 놓친 해법을 찾아낼 수 있다면, 이는 어떤 벤치마크 목록보다 훨씬 더 의미 있는 성과가 될 것입니다.
문제는 "벤치마크 테스트에서 높은 점수를 받는 것"과 "실제 과학적 시나리오에서 인간을 안정적으로 지원하는 것" 사이의 간극이 구글이 제시하는 것보다 훨씬 클 수 있다는 점입니다. 벤치마크 테스트에는 정해진 답이 있지만, 과학에는 그렇지 않기 때문입니다.





