구글의 제미니 3 딥씽크가 대대적인 업그레이드를 거쳤습니다. 추론 능력이 오푸스 4.6과 GPT-5.2를 뛰어넘어 "가장 연구 능력이 뛰어난 AI"가 되는 것을 목표로 하고 있습니다.

이 기사는 기계로 번역되었습니다
원문 표시

구글은 오늘(13일) 제미니 3 딥씽크의 주요 업그레이드 버전을 공개했습니다. ARC-AGI-2 테스트(인공지능이 문제 은행을 암기하는 것을 방지하기 위해 특별히 설계된 추론 테스트로, 사용자의 지식 수준을 측정하는 것이 아니라 몇 가지 예시를 통해 규칙을 추론할 수 있는지를 평가합니다) 에서 제미니 3 딥씽크는 84.6%의 점수를 기록했습니다.

참고로 Claude Opus 4.6(Thinking Max 모드)은 68.8%, GPT-5.2(Thinking xhigh 모드)는 52.9%의 정확도를 보였으며, 인간의 평균 정확도는 약 60%입니다.

더욱 놀라운 것은 Deep Think가 오리지널 ARC-AGI-1 벤치마크에서 96%라는 점수를 달성했다는 점입니다. 이는 한때 "가장 어려운 AI 시험 중 하나"로 여겨졌던 이 벤치마크를 사실상 한계까지 끌어올린 것입니다.

Deep Think는 현재 Google AI Ultra 구독자에게 제공되며, API는 얼리 액세스 권한을 가진 기업에 공개되어 있습니다.

그들은 시험을 볼 뿐만 아니라 학생들이 실수를 저지르는 것도 잡아냅니다.

벤치마크 점수 외에도 구글은 발표에서 한 가지 중요한 사실을 언급했습니다. 딥싱크(Deep Think)가 인간 동료 검토를 거친 수학 논문을 검토하는 과정에서 이전 검토자들이 모두 놓쳤던 논리적 오류를 성공적으로 발견했다는 것입니다. 이 논문은 럿거스 대학교의 수학자들에 의해 확인되었습니다.

이 사례의 중요성은 표준화된 테스트에서의 모델 성능에 있는 것이 아니라, 실제적이고 개방적인 과학적 시나리오에서 입증된 모델의 역량에 있습니다. 동료 평가는 학계의 핵심 품질 관리 메커니즘이며, 인공지능이 이 과정에서 지속적으로 가치 있는 도움을 제공할 수 있다면 과학 연구에 미치는 가속 효과는 어떤 벤치마크 테스트로도 측정할 수 있는 범위를 훨씬 뛰어넘을 것입니다.

Deep Think는 2025년 국제 물리 올림피아드와 국제 화학 올림피아드 필기 부문에서 금메달을 획득했으며, Codeforces에서 3,455점의 Elo 점수를 받아 전 세계적으로 극소수의 프로그래머만이 도달할 수 있는 "레전더리 마스터" 레벨을 달성했습니다.

다양한 분야의 전문가들이 인공지능이 답하기 어렵도록 의도적으로 설계한 벤치마크 테스트인 "인류의 마지막 시험"에서 딥씽크는 (도구를 사용하지 않고) 48.4%의 점수를 달성하여 새로운 기록을 세웠습니다.

시장 점유율 의 지각 변동

세 거대 AI 기업 간의 기술 경쟁이 시장 지형을 재편하고 있습니다. ChatGPT의 시장 점유율은 최고치인 87%에서 약 68%로 하락한 반면, Gemini는 5% 미만에서 18% 이상으로 급증했고, Anthropic의 Claude는 기업 시장을 꾸준히 잠식하고 있습니다.

이 경쟁에서 구글의 독보적인 강점은 유통망입니다. 제미니는 안드로이드, 크롬 브라우저, 구글 워크스페이스, 그리고 검색 엔진에 내장되어 있어, 구글의 모델 역량이 경쟁사와 동등하더라도 유통 채널의 우위를 통해 사용자를 확보할 수 있습니다.

하지만 유통 우위는 양날의 검과 같습니다. 제미니의 사용자 경험이 충분히 좋지 않다면, 사용자들이 능동적으로 선택하는 것이 아니라 수동적으로 노출되기 때문에 경쟁사보다 더 빨리 신뢰를 잃을 수 있습니다. 반면 오픈AI의 사용자들은 기꺼이 비용을 지불할 의향이 있으며, 자연스럽게 더 높은 인내심과 충성도를 보입니다.

암호화폐 산업에 미치는 파급 효과

인공지능 군비 경쟁이 심화될수록 컴퓨팅 인프라에 대한 수요도 증가합니다. 최첨단 모델을 학습하는 데 필요한 GPU 클러스터 비용은 2024년 수억 달러에서 2026년 수십억 달러로 급증했습니다. 이는 두 가지에 직접적인 영향을 미칩니다.

첫째, 비트코인 ​​채굴자들의 변화 과정을 살펴보겠습니다. 채굴 수익이 줄어들면서(JP모건 체이스는 이번 주 비트코인 ​​생산 비용이 7만 7천 달러까지 떨어졌고, 비트코인 ​​가격은 약 6만 6천 달러라고 추산했습니다), 대규모 해시레이트 인프라를 보유한 채굴자들은 인공지능 컴퓨팅 서비스로의 전환을 가속화하고 있습니다.

고비용 채굴 회사들이 "철수"하는 것이 아니라 "사업 방향을 바꾸는 것"이며, 비트코인 ​​채굴에서 인공지능 해시레이트 제공하는 계약을 통해 수익을 창출하는 방향으로 전환하고 있는 것입니다.

둘째, AI 토큰에 대한 이야기입니다. 구글, 오픈AI, 앤트로픽이 주요 업그레이드를 발표할 때마다 온체인 AI 관련 토큰(예: 탈중앙화 컴퓨팅 프로토콜)은 일반적으로 단기적인 과열 현상을 겪습니다.

하지만 이러한 토큰의 근본적인 문제점은 여전히 ​​해결되지 않았습니다. 탈중앙화 컴퓨팅은 기업 수준의 AI 학습 요구 사항을 충족하기 위한 지연 시간과 처리량 측면에서 아직 갈 길이 멉니다. 스토리텔링 자체는 매우 빠르게 실행될 수 있지만, 인프라가 그 속도를 따라가지 못하고 있습니다.

과학의 결정적인 전쟁은 이제 막 시작되었을 뿐이다.

딥싱크 업그레이드는 구글을 적어도 추론 및 과학 분야에서는 인공지능 경쟁의 선두주자로 다시 올려놓았습니다. 하지만 구글의 발표문을 자세히 살펴보면 미묘한 전략 변화를 발견할 수 있습니다. 더 이상 "가장 똑똑한 범용 인공지능"을 강조하지 않고, "과학을 위해 탄생했다"는 점을 반복적으로 언급하고 있습니다.

범용 인공지능(GAI) 벤치마크가 점점 더 포화되고 차별화가 어려워지는 상황에서, "내 AI는 과학 연구를 도울 수 있습니다"라는 가치 제안은 "내 AI는 벤치마크 점수가 가장 높습니다"라는 제안보다 훨씬 더 설득력이 있습니다. 딥씽크(Deep Think)가 동료 심사를 진정으로 꾸준히 지원하고, 신약 개발을 가속화하거나, 물리 시뮬레이션에서 인간이 놓친 해법을 찾아낼 수 있다면, 이는 어떤 벤치마크 목록보다 훨씬 더 의미 있는 성과가 될 것입니다.

문제는 "벤치마크 테스트에서 높은 점수를 받는 것"과 "실제 과학적 시나리오에서 인간을 안정적으로 지원하는 것" 사이의 간극이 구글이 제시하는 것보다 훨씬 클 수 있다는 점입니다. 벤치마크 테스트에는 정해진 답이 있지만, 과학에는 그렇지 않기 때문입니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트