구글과 오픈AI가 치열한 경쟁을 벌이고 있습니다! 두 회사는 서로에게 다양한 신제품을 쏟아내고 있습니다.
어젯밤, OpenAI는 전문가급 GPT-5.2를 사용하여 제미니 3호에 당한 패배를 설욕하는 데 성공했습니다!
GPT-5.2 출시 한 시간여 전에 구글은 제미니 딥 리서치 에이전트의 새로운 버전을 공개했습니다.
구글은 제미니 딥 리서치를 완전히 새롭게 재구상하여 이전보다 훨씬 강력하게 만들었습니다.
Deep Research Agent의 새로운 버전은 Gemini 3 Pro를 기반으로 제작되었습니다.
단계별 강화 학습 훈련을 통해 정확도를 향상시키고 환각 현상을 줄이세요.
이 시스템은 방대한 양의 컨텍스트를 처리할 수 있으며, 제시된 모든 관점 에 대한 출처 검증을 제공합니다.
심층 연구 에이전트 기능 업데이트 외에도 두 가지 새로운 기능이 추가로 출시되었습니다.
DeepSearchQA는 네트워크 연구 에이전트를 위한 새로운 오픈 소스 벤치마크로 , 네트워크 연구 작업에서 에이전트의 포괄성을 검증합니다.
새로운 상호작용 API를 소개합니다.
GPT-5.2가 이제 막 출시되어 직접 비교할 수는 없지만, 구글 딥마인드의 제품 관리자인 루카스 하스는 소셜 미디어 플랫폼 X에서 다음과 같이 밝혔습니다.
최신 버전의 Gemini Deep Research Agent는 구글의 새로운 벤치마크에서 46.4%의 점수를 기록했으며, BrowseComp에서는 GPT-5 Pro와 비슷한 수준이었지만, 성능은 한 자릿수 정도 낮았습니다.
심층 연구, 더욱 "심층적인" 연구
Gemini Deep Research는 장기간에 걸친 컨텍스트 수집 및 종합 작업에 최적화된 에이전트입니다.
에이전트의 추론 핵심은 현재까지 가장 사실에 정확한 Gemini 3 Pro 모델을 사용하며, 복잡한 작업에서 착각을 줄이고 보고 품질을 극대화하도록 특별히 훈련되었습니다.
탐색에 다단계 강화 학습을 적용하는 방식을 확장함으로써, 이 에이전트는 높은 정확도로 복잡한 정보 환경을 자율적으로 탐색할 수 있습니다.
Gemini Deep Research는 인류의 마지막 시험(HLE) 전체 테스트 세트에서 46.4% 라는 최고 점수를 달성했으며, DeepSearchQA에서 66.1% 라는 우수한 점수, BrowseComp 테스트에서 59.2% 라는 높은 점수를 받았습니다.
DeepResearch는 반복적인 연구 계획 메커니즘을 사용합니다. 즉, 질의를 공식화하고, 결과를 검토하고, 지식 격차를 파악하고, 다시 검색합니다.
이번 버전은 웹 검색 기능을 크게 개선하여 웹사이트를 더욱 깊이 탐색하고 특정 데이터를 검색할 수 있도록 했습니다.
해당 에이전트는 더 낮은 비용으로 심층적인 조사 보고서를 생성하도록 최적화되었습니다.
기존 챗봇과 달리 Deep Research는 장기적인 운영을 위해 설계되었으며, 즉각적인 처리가 어려운 복잡한 작업을 처리하는 데 핵심 역량을 두고 있습니다.
심층 연구에 대한 간략한 논의
심층 연구는 일상적으로 사용되는 AI 도구 중에서 가장 자주 활용되는 기능이라고 할 수 있습니다.
어쨌든 한 달에 단 20달러로 여러 "의사 수준" 서비스를 이용할 수 있는데, 안 할 이유가 없잖아요?
제 관점 심층 연구가야말로 일반인들이 지식 서비스보다 뛰어난 성과를 내는 데 가장 효과적으로 활용할 수 있는 인공지능 도구입니다.
심층 연구는 단일 모델의 무차별 대입 계산에서 지능을 얻는 것이 아니라, 복잡한 에이전트 기반 워크플로에서 지능을 얻는 방식입니다.
이 워크플로는 낯선 영역에 대면 때 인간 전문가의 인지 행동을 모방하며, 주로 계획, 실행, 추론 및 보고의 네 가지 폐쇄 루프 단계로 구성됩니다.
사용자가 "2030년까지 양자 센서의 상용화 경로를 분석하라"와 같은 모호한 거시적 수준의 지침을 제출하면 DeepResearch는 먼저 계획 모듈 을 활성화합니다.
Gemini 3 Pro의 강력한 추론 능력을 기반으로, 시스템은 즉시 검색을 수행하지 않습니다. 대신, "한 단계 뒤로 힌트 주기" 기술을 사용하여 거시적인 문제를 기술 성숙도, 공급망 병목 현상, 정책 및 규제 환경, 주요 경쟁업체 분석 등 여러 하위 차원의 연구 경로로 세분화합니다.
이 계획 수립 과정은 역동적입니다. 전통적인 사슬식 사고방식에서는 경로가 종종 선형적이지만, DeepResearch에서는 계획 트리가 확장 가능합니다.
초기 탐색 과정에서 예상치 못한 새로운 개념이 발견되면 시스템은 실시간으로 연구 계획을 수정하여 심층 탐색을 위한 새로운 분기를 추가합니다.
DeepSearchQA: 딥 리서치 에이전트 벤치마킹
위의 벤치마크 테스트에서 DeepSearchQA라는 항목을 발견하실 수 있을 겁니다.
이는 구글이 딥러닝 에이전트를 위해 특별히 개발한 벤치마크로, 복잡하고 여러 단계를 거치는 정보 검색 작업에서 에이전트의 성능을 평가하기 위한 완전히 새로운 기준입니다.
DeepSearchQA는 17개 영역을 포괄하는 900개의 수작업으로 설계된 인과 관계 추론 과제를 포함하며, 각 단계는 이전 분석에 의존합니다.
기존의 사실 기반 테스트와 달리 DeepSearchQA는 에이전트가 모든 질문에 대한 완벽한 답변을 생성하도록 요구함으로써 연구의 완전성을 평가하는 동시에 연구의 정확성과 정보 회상 능력도 테스트합니다.
DeepSearchQA는 시간 효율성에 대해 생각해 볼 수 있는 진단 도구로도 활용될 수 있습니다.
구글은 자체 평가에서 에이전트가 더 많은 검색 및 추론 단계를 수행할 수 있도록 허용했을 때 성능이 크게 향상되는 것을 발견했습니다.
pass@8과 pass@1의 결과를 비교하면 에이전트가 여러 경로를 병렬로 탐색하여 답을 검증할 수 있도록 허용하는 것이 유용함을 알 수 있습니다.
이 결과는 DeepSearchQA에서 추출한 200개의 힌트 하위 집합을 기반으로 계산되었습니다.
대화형 API: 에이전트 애플리케이션 개발을 위해 특별히 설계되었습니다.
상호 작용 API는 에이전트 애플리케이션 개발 시나리오에 특화된 일련의 인터페이스를 기본적으로 통합합니다. 이러한 인터페이스는 인터리브된 메시지, 사고 체인, 도구 호출 및 해당 상태 정보와 같은 복잡한 컨텍스트 관리 작업을 효율적으로 처리할 수 있습니다.
Gemini 모델 제품군 외에도, 대화형 API는 최초로 내장된 Gemini 심층 연구 에이전트를 제공합니다.
다음으로, 구글은 내장 에이전트를 확장하고 다른 에이전트를 구축하고 도입할 수 있는 기능을 제공할 예정입니다. 이를 통해 개발자는 단일 API를 통해 제미니 모델, 구글의 내장 에이전트 및 자체 맞춤형 에이전트를 연결할 수 있게 됩니다.
대화형 API는 모델 및 에이전트와 상호 작용하기 위한 단일 RESTful 엔드포인트를 제공합니다.
Interactions API는 generateContent의 핵심 기능을 확장하여 다음과 같은 최신 지능형 에이전트 애플리케이션에 필요한 기능을 제공합니다.
선택적 서버 측 상태: 기록 관리를 서버로 오프로드할 수 있는 기능입니다. 이를 통해 클라이언트 측 코드가 단순화되고 컨텍스트 관리 오류가 줄어들며 캐시 적중률이 향상되어 비용이 절감될 수 있습니다.
해석 가능하고 조합 가능한 데이터 모델: 복잡한 에이전트의 이력 기록을 위해 특별히 설계된 명확한 아키텍처입니다. 서로 얽혀 있는 메시지, 사고 과정, 도구 및 그 결과를 디버깅하고, 조작하고, 스트리밍하고, 논리적으로 추론할 수 있습니다.
백그라운드 실행: 클라이언트 연결을 유지하지 않고 장시간 실행되는 추론 루프를 서버로 오프로드하는 기능입니다.
원격 MCP 도구 지원: 모델은 도구로서 모델 컨텍스트 프로토콜(MCP) 서버를 직접 호출할 수 있습니다.
구글은 Interactions API 출시를 통해 개발자들이 AI 애플리케이션을 구축하는 방식을 재정의하고, "상태 비저장 요청-응답" 모델에서 "상태 저장 에이전트 상호작용" 모델로 전환하고자 합니다.
현재 대부분의 LLM API는 상태를 저장하지 않습니다. 개발자는 클라이언트 측에서 전체 대화 기록을 유지하고, 수만 개의 토큰에 대한 컨텍스트를 각 요청과 함께 서버로 전송해야 합니다.
이는 지연 시간과 대역폭 비용을 증가시킬 뿐만 아니라 복잡하고 여러 단계를 거치는 에이전트를 구축하는 것을 매우 번거롭게 만듭니다.
Interactions API는 서버 측 상태 관리를 도입합니다.
개발자는 /interactions 엔드포인트를 통해 세션을 생성하기만 하면 Google 서버가 해당 세션의 모든 컨텍스트, 도구 호출 결과 및 에이전트의 내부 사고 상태를 자동으로 유지 관리합니다.
그게 바로 제가 구글의 최신 API에서 가장 우려하는 부분입니다.
Interactions API의 가장 혁신적인 기능은 개발자가 기본 모델뿐만 아니라 Google에서 사전 학습한 고수준 에이전트를 직접 호출할 수 있다는 점입니다.
예를 들어, 개발자는 간단한 API 호출(agent=deep-research-pro-preview-12-2025 지정)을 통해 Google의 최고 수준 리서치 기능을 자체 ERP, CRM 또는 리서치 소프트웨어에 통합할 수 있습니다.
딥리서치 작업 하나가 읽기 및 생성 과정에서 수십만 개의 토큰을 소비할 수 있다는 점을 고려하면, 단일 딥리서치 연구 비용은 수 달러에 달할 수 있습니다.
하지만 이 가격은 초급 분석가를 대체하는 데 필요한 시간 또는 며칠의 작업량과 비교했을 때 여전히 매우 높은 투자수익률 나타냅니다.
딥마인드, 영국 정부와 파트너십 체결
마지막으로, 주목할 만한 소식이 하나 더 있습니다.
구글과 오픈AI가 치열한 경쟁을 벌이는 가운데, 구글 딥마인드는 이미 국가 차원의 협력에 착수했습니다.
런던에서 탄생한 인공지능 거대 기업 딥마인드는 딥리서치와 그 기반 기술을 통해 영국 정부와 함께 전례 없는 "인공지능 기반 거버넌스" 실험을 진행하고 있습니다.
이번 협력은 과학적 탐구를 넘어 공공 행정의 핵심까지 확장되어, 특히 영국의 오랜 주택 위기와 비효율적인 도시 계획 문제를 해결하는 데 획기적인 진전을 이루었습니다.
프로젝트 요약: 도시 계획 분야의 "데이터 사일로" 해소
영국의 도시 계획 시스템은 오랫동안 경제 성장과 주택 건설을 저해하는 병목 현상으로 여겨져 왔습니다.
매년 지방 의회는 약 35만 건의 건축 허가 신청을 처리해야 하며, 과거의 건축 허가 관련 파일들이 종이 문서, 스캔한 PDF 파일, 또는 손으로 그린 지도 형태로 여전히 대량 남아 있습니다.
계획 담당자들은 종종 수십 년 전에 그려진 지하 파이프라인이나 보호 구역 경계를 찾기 위해 먼지 쌓인 기록 보관소를 몇 시간씩 뒤져야 합니다.
이러한 문제점을 해결하기 위해 DeepMind는 영국 정부의 AI 인큐베이터(i.AI)와 협력하여 Extract 도구를 개발했습니다.
이것은 단순한 OCR 소프트웨어가 아니라, 제미니의 다중 모드 추론 기능을 기반으로 하는 복잡한 지리 공간 정보 시스템입니다.
비정형 정보 이해:
Extract는 먼저 Gemini의 시각 언어 기능을 활용하여 품질이 낮은 스캔 문서를 읽습니다. 텍스트를 인식할 뿐만 아니라 손으로 쓴 주석의 의미까지 이해할 수 있습니다(예: 옆쪽 메모에서 "신청일" 대신 "승인일"을 인식). 이를 통해 날짜 인식 정확도 94%를 달성합니다.
시각적 추론 및 다각형 클레임:
이것이 핵심적인 기술적 혁신입니다. 제미니는 지도상의 시각적 기호 언어를 이해할 수 있습니다. 예를 들어 "빨간색 실선"으로 표시된 토지 경계와 "파란색 점선"으로 표시된 배수로를 구분할 수 있습니다. 목표 영역이 식별되면 시스템은 OpenCV 및 SAM 과 같은 컴퓨터 비전 도구를 호출하여 디지털 메스처럼 정밀하게 픽셀 이미지에서 지리적 다각형을 클레임 90%의 형상 일치도(IoU)를 달성합니다.
시공간적 특징 매칭:
역사 지도는 현대 위성 지도와 다른 축척 및 좌표계를 사용하는 경우가 많습니다. Extract는 LoFTR 알고리즘을 사용하여 옛 지도와 현대 지도 사이의 공통 특징점(예: 오래된 교회 및 교차로)을 찾고, 정확한 변환 행렬을 계산하며, 수십 년 전에 손으로 그린 붉은 선을 오늘날의 디지털 지도 좌표계에 정밀하게 매핑합니다.
완전 자동화 프로세스:
Extract는 이러한 과정을 통해 복잡한 계획 문서 처리 시간을 평균 2시간에서 40초~3분으로 단축합니다 . 즉, 지방 자치 단체는 매일 수백 건의 밀린 문서를 디지털화하여 효율성을 100배 향상시킬 수 있습니다.
현재 Extract는 웨스트민스터와 힐링던을 포함한 네 곳에서 시범 운영되고 있습니다.
영국 정부는 2026년 봄에 이 제도를 전국 모든 지방 의회로 확대할 계획입니다.
이는 수천 시간의 행정 인력을 절감할 뿐만 아니라, 더 중요하게는 영국 정부가 약속한 150만 채의 신규 주택 건설 계획을 위한 데이터 기반을 제공하는 통합된 국가 디지털 계획 데이터베이스를 구축할 것입니다.
이는 DeepResearch 기술이 특정 산업 분야에 적용되어 일반적인 멀티모달 추론 기능을 구체적인 관리 생산성으로 전환하는 대표적인 사례입니다.
새로운 과학 인프라: 알파폴드에서 자동화된 재료 실험실까지
기초 과학 분야에서 딥마인드는 영국 정부와의 협력을 통해 인공지능을 활용한 과학적 발견의 선순환 효과를 가속화하는 것을 목표로 합니다.
딥마인드는 2026 년에 영국에 첫 번째 자동화 AI 과학 연구소를 설립할 계획이라고 발표했습니다.
폐쇄 루프 탐색 시스템: 연구실에서는 제미니(Gemini)와 GNoME(재료 탐색을 위한 그래프 네트워크) 기반의 폐쇄 루프 시스템을 운영할 예정입니다. 인공지능(AI)은 양자 화학 원리에 기반하여 새로운 결정 구조를 설계하고 안정성을 예측하는 역할을 담당합니다.
로봇 합성: 이러한 설계 지침은 완전 자동화된 로봇 플랫폼으로 직접 전송되며, 이 플랫폼은 재료 혼합, 합성, 소결 및 테스트를 담당합니다.
데이터 피드백: 실험 결과는 실시간으로 AI에 입력되어 다음 단계의 예측을 수정하는 데 사용됩니다. 목표는 상온 초전도체나 고효율 배터리 전해질과 같은 신소재 발견 주기를 수십 년에서 몇 달, 심지어 며칠로 단축하는 것입니다. 이 계획은 영국의 탄소 중립 전략과 에너지 안보에 직접적으로 기여합니다.
딥마인드는 하드웨어 연구소 외에도 다양한 최첨단 AI 모델을 영국 과학자들에게 개방했습니다.
국가 안보와 디지털 면역 체계
안보 분야에서 협력의 초점은 "공격력"에서 "방어력"으로 옮겨갔다.
딥마인드는 영국 보안 연구소인 UKAI와 협력하여 딥리서치 기술을 기반으로 한 네트워크 방어 도구를 배포했습니다.
BigSleep(이전 명칭: Project Naptime): 이 지능형 에이전트는 LLM(제한된 메모리 관리)을 사용하여 대규모 코드베이스에 숨겨진 취약점을 찾아냅니다. 인간 전문가가 발견하지 못했던 SQLite와 같은 핵심 오픈 소스 인프라의 메모리 안전성 취약점을 성공적으로 발견했습니다.
Code Mender는 BigSleep과 협력하여 취약점을 발견할 뿐만 아니라 이를 수정하는 패치 코드를 자동으로 생성합니다. 이러한 자동화된 "발견-수정" 과정은 점점 더 정교해지는 사이버 공격으로부터 영국의 국가 중요 정보 인프라(CII)를 보호하기 위한 실시간 "디지털 면역 체계"를 구축하는 것을 목표로 합니다.
위 내용은 구글의 GPT 5.2 업데이트 내용을 요약한 것입니다.
개인적으로는 구글이 여전히 가장 강력하다고 생각합니다.
GPT 5.2는 어젯밤 Gemini 3를 성공적으로 제압했지만, 다중 모드 기능 면에서는 여전히 약간 뒤처집니다. 아마도 연말쯤에는 Nano Banana Pro에 필적할 만한 제품이 등장할지도 모릅니다.
더욱이, 지능형 에이전트에 대한 최신 연구와 딥마인드의 영국 내 전략적 배치를 보면 구글이 한 발 앞서 나가고 있음을 알 수 있습니다.
이러한 선도적인 위치는 인공지능 기술 발전의 명확한 그림을 보여줍니다.
인공 일반 지능(AGI)의 프로토타입은 대화 상자에서 시작하여 물리적 및 디지털 세계를 인지하고 계획하며 변화시킬 수 있는 지능형 에이전트로 진화하고 있습니다.
참고 자료:
https://blog.google/technology/developers/deep-research-agent-gemini-api/
https://x.com/GoogleDeepMind/status/1999165701811015990
https://deepmind.google/blog/strengthening-our-partnership-with-the-uk-government-to-support-prosperity-and-security-in-the-ai-era/
이 글은 위챗 공식 계정 "신지능(New Intelligence)" 의 Ding Hui 님이 작성한 글이며, 36Kr의 허가를 받아 게재되었습니다.



