세계 인공지능 분야의 경쟁이 급속도로 심화되는 가운데, 구글과 오픈AI는 또다시 같은 날 주요 업데이트를 발표하며 업계 전체의 뜨거운 관심을 불러일으켰습니다.
어젯밤 구글은 완전히 새롭게 재설계된 제미니 딥 리서치(Gemini Deep Research) 버전을 출시하고, 내장형 리서치 에이전트용 API를 처음으로 공개했습니다.
거의 동시에 오픈아이언(OpenAI)은 큰 기대를 모았던 GPT-5.2(코드명 갈릭)를 공식 출시했습니다. 지능형 에이전트의 미래, 대규모 모델의 기본 역량 한계, 그리고 응용 생태계의 주도권을 둘러싼 두 회사 간의 경쟁은 전례 없이 치열한 국면에 접어들고 있습니다.
이번에는 구글과 오픈AI의 공세와 방어 움직임이 거의 정확히 같은 시간대에 겹치면서, 외부 세계는 이 두 글로벌 AI 거대 기업 간의 전략적 대결 속도를 명확하게 관찰할 수 있었습니다.
1. 구글, 새로운 딥 리서치 에이전트 출시
구글의 새로운 제미니 딥 리서치 도구는 방대한 양의 정보를 통합하고 프롬프트에 포함 대량 의 문맥 데이터를 처리할 수 있는 지능형 에이전트입니다. 구글에 따르면 고객들은 딥 리서치 에이전트를 실사 조사부터 약물 독성 및 안전성 연구에 이르기까지 다양한 작업에 활용하고 있습니다.
구글은 또한 이 새로운 딥 리서치 에이전트를 구글 검색, 구글 파이낸스, 제미니 앱, 인기 있는 노트북LM 등 다양한 서비스에 곧 통합할 것이라고 밝혔습니다. 이는 인간이 더 이상 구글을 통해 무언가를 검색하지 않고, 인공지능 에이전트가 그 작업을 대신하는 미래를 향해 구글이 나아가는 또 다른 중요한 발걸음입니다.
구체적으로, 심층 연구 에이전트는 어떤 기능을 갖추고 있습니까?
이번 업데이트에서 구글은 딥 리서치 에이전트의 아키텍처를 재설계했을 뿐만 아니라, 제미니 3 프로를 핵심 기반 모델로 삼아 더욱 안정적이고 정확하며 추적 가능한 딥 리서치 시스템을 구축했습니다. 새로운 딥 리서치 에이전트의 개선 사항은 모델 업그레이드, 추론 안정성 향상, 그리고 전반적인 상호작용 기능 강화라는 세 가지 핵심 영역으로 요약할 수 있습니다.
먼저 모델 업그레이드에 대해 이야기해 보겠습니다. 새로운 딥 리서치 에이전트는 구글이 현재까지 가장 "현실적이고" 신뢰할 수 있으며, 롱체인 추론에 가장 적합한 플래그십 모델로 꼽는 제미니 3 프로를 기반으로 완전히 구축되었습니다. 구글은 이것이 단순한 성능 향상이 아니라 리서치 에이전트의 "신뢰성" 측면에서 질적인 도약이라고 강조합니다.
이러한 지능형 에이전트를 구축하기 위해 구글은 다단계 궤적 기반 강화 학습 전략을 채택했습니다. 목표는 매우 명확합니다. 수십 또는 수백 단계를 거치는 복잡한 연구 작업에서 AI는 안정적인 추론 경로를 유지하고, 오류 발생 가능성을 줄이며, 지속적인 의사 결정 과정에서 일관성을 보장해야 합니다.
기존 LLM의 장쇄 추론에서 가장 큰 문제점 중 하나는 추론의 각 단계에서 누적 오류가 발생한다는 점입니다. 즉, 단 하나의 허구 노드만으로도 전체 결과가 무효화될 수 있습니다. 구글은 새로운 버전의 딥 리서치가 이러한 문제점을 크게 개선했다고 강조합니다.
- 다중 라운드 강화 학습은 의사 결정 순서를 최적화합니다.
- 긴 작업 체인에서 논리적 오프셋을 크게 줄입니다.
- 보다 안정적인 검색-분석-추론-인용 폐쇄 루프
이를 통해 Deep Research는 기존 LLM(법률팀)이 수행할 수 없었던 작업, 예를 들어 며칠에 걸친 연구 수행, 정책 평가, 다중 소스 데이터 통합 및 전체 프로세스 실사 등을 수행할 수 있습니다.
새로운 딥 리서치 에이전트의 또 다른 핵심 장점은 방대한 컨텍스트 처리 능력 입니다. Gemini 3 Pro 프로세서를 탑재하여 학술 논문, 공식 보고서, 긴 웹페이지 등 이전보다 훨씬 많은 데이터를 한 번에 처리할 수 있습니다. 더욱 중요한 것은 Google이 딥 리서치에 "연구 수준의 표준 기능"을 추가했다는 점입니다. 모든 관점 과 결론에 추적 가능한 인용을 자동으로 추가합니다. 이러한 인용은 단순한 URL 링크가 아니라 원문의 핵심 구절이나 단락을 가리키는 구조화된 참조이므로 신뢰할 수 있는 결과물과 검증 가능한 관점 보장하고 사용자가 2차 조사 및 검토를 수행할 수 있도록 합니다. 이를 통해 딥 리서치는 단순히 "콘텐츠를 생성하는 것"을 넘어 "증거 사슬을 갖춘 연구 결과를 제공"하게 됩니다.
이번 업데이트는 단순한 기능 업그레이드가 아니라, 구글의 "연구 에이전트 생태계"를 둘러싼 체계적인 릴리스입니다. 딥 리서치 에이전트 업데이트와 더불어, 구글은 네트워크 연구 에이전트를 위한 오픈 소스 벤치마크인 DeepSearchQA와 새로운 상호작용 API라는 두 가지 핵심적인 신기능을 선보입니다.
현재 업계에는 네트워크 검색 에이전트를 평가하는 데 사용할 수 있는 통일된 지표가 부족합니다. 구글은 이러한 발전을 보여주기 위해 새로운 벤치마크를 개발했습니다. DeepSearchQA라고 불리는 이 새로운 벤치마크는 복잡하고 여러 단계를 거치는 정보 검색 작업에서 에이전트의 성능을 테스트하도록 설계되었습니다. 구글은 이 벤치마크를 오픈소스로 공개했습니다.
DeepSearchQA 오픈 소스 주소: https://www.kaggle.com/benchmarks/google/dsqa/leaderboard
DeepSearchQA는 17개 영역에 걸쳐 정교하게 설계된 900개의 "인과 관계" 과제로 구성되어 있으며, 각 단계는 사전 분석에 기반합니다. 기존의 사실 기반 테스트와 달리 DeepSearchQA는 포괄성을 측정하며, 에이전트가 모든 질문에 대한 완벽한 답변 세트를 생성하도록 요구합니다. 이를 통해 연구의 정확도와 재현율을 모두 평가합니다.
pass@8과 pass@1의 결과를 비교하면 에이전트가 답변 검증을 위해 여러 병렬 경로를 탐색하도록 허용하는 것이 유용함을 알 수 있습니다. 이러한 결과는 DeepSearchQA에서 추출한 200개의 힌트 하위 집합을 사용하여 계산되었습니다.
완전히 새로워진 Deep Research Agent는 "Last Test for Humans"(HLE) 및 DeepSearchQA 테스트에서 최첨단 결과를 달성했으며, BrowseComp 테스트에서 최고의 성능을 보여주었습니다. 이 에이전트는 더 낮은 비용으로 고품질 연구 보고서를 생성하도록 최적화되었습니다.
벤치마크 결과는 인상적입니다. Gemini 3 Pro 코어를 기반으로 하지만, 에이전트 워크플로우를 활용하여 최첨단 성능을 구현합니다. 통계(차트):
- 인간의 최종 테스트(HLE): 46.4% (GPT-5 Pro의 38.9%보다 현저히 우수함)
- DeepSearchQA: 66.1% (GPT-5 Pro의 65.2%보다 약간 우수함)
- BrowseComp: 59.2% (GPT-5 Pro 대비 일반적인 성능)
Gemini Deep Research는 "The Last Test for Humans"(HLE) 전체 데이터 세트에서 46.4%, DeepSearchQA에서 66.1%, BrowseComp에서 59.2%라는 놀라운 점수를 달성했습니다.
이번에 구글이 공개한 기능 중 가장 전략적으로 중요한 것은 인터랙션 API입니다. 이 API를 통해 개발자는 처음으로 에이전트의 동작, 추론 단계, 복잡한 작업 실행, 중간 상태 저장 등을 구조화된 방식으로 제어할 수 있게 되었습니다. 즉, 이전에는 단순히 "모델에 질문만 할 수 있었던" 개발자가 이제는 "에이전트가 작업을 수행하는 방법을 학습시킬 수 있게 된 것"입니다.
2. 네티즌들은 어떻게 생각하나요?
구글이 딥 리서치 에이전트의 새 버전을 출시한 후 기술 커뮤니티의 반응 또한 주목할 만합니다.
Hacker News와 Reddit의 관련 토론 스레드에서 많은 개발자들이 Google이 "Agent를 진정으로 전문적으로 설계된 제품으로 만들었다"는 점에 대해 감사를 표했습니다.
레딧에서 일부 사용자들은 기술 발전의 놀라움을 표현했습니다.
"정말 놀랍습니다! 아직 실감이 나지 않아요. 지난 3년간 우리가 이룬 발전은 그야말로 믿기지 않을 정도입니다!"
일부 네티즌들은 구글이 제품 차원에서 처음으로 "검증 가능한 참조"와 "종단 간 다단계 추론 안정성"을 강조한 것이 AI 에이전트 분야에서 상당한 진전이라고 지적했습니다.
오랫동안 규정 준수 검토 업무에 종사해 왔다고 주장하는 한 사용자는 "딥 리서치가 단계별 감사 실제로 구현할 수 있다면, 주요 기업이 에이전트를 단순한 장난감 수준에서 실제 운영 환경으로 옮긴 최초의 사례가 될 것"이라고 논평했습니다.
하지만 관점 여전히 신중한 입장을 보이고 있습니다. 한 레딧 사용자는 "구글은 자체 벤치마크를 이용해 너무 여러 번 최고임을 입증해 왔습니다. 우리에게 필요한 것은 실제 웹페이지와 실제 작업 환경에서의 제3자 테스트입니다."라고 비판했습니다.
구글의 새로운 에이전트가 오픈아이얼의 GPT-5.2와 같은 날 출시되었기 때문에 네티즌들이 두 가지를 비교하는 것은 불가피했습니다.
레딧에서 한 사용자가 이 딥 리서치 에이전트가 오픈AI에서 거의 같은 시기에 출시한 GPT-5.2와 어떻게 다른지 질문했습니다. 다른 사용자는 두 에이전트의 용도는 다르지만 GPT-5.2가 더 우수하다고 답변했습니다.
보다 명확한 비교를 위해 일부 네티즌들은 OpenAI 연구원인 세바스티앙 뷔벡의 연구 결과도 찾아냈습니다.
세바스티앙 뷔벡은 링크드인 게시물에서 GPT-5.2가 인간 최종 테스트(HLE)에서 45%의 점수를 받았고, 구글의 새로운 에이전트는 46.4%를 받아 GPT-5.2보다 약간 높은 점수를 받았다고 밝혔습니다.
한편, 구글과 오픈AI의 경쟁에 대해 일각에서는 "구글이 딥 리서치를 발표하자마자 오픈AI가 갈릭(GPT-5.2)을 내놓았다. 두 회사는 서로 앞지르려고 경쟁하는 것 같다"는 비꼬는 반응이 나왔다.
일부 사람들은 이 치열한 경쟁의 속도를 "이것은 더 이상 모의 전쟁이 아니라 기자회견 전쟁이다"라고 요약했습니다.
3. 모델 성능에 대한 근접 경쟁이 심화되고 있습니다.
기본 모델을 제작하는 능력은 두 회사 모두에게 있어 항상 가장 상징적인 경쟁 요소였습니다.
2025년 초, 구글은 더욱 "현실적이고", 신뢰할 수 있으며, 왜곡이 적은 기능을 통해 장기 추론 및 특수 작업 시나리오에서 우위를 되찾고자 제미니 3 프로를 출시했습니다. 제미니 3 프로는 향상된 검색, 멀티모달 처리 기능, 대규모 문맥 처리 기능을 강조하며, 과학 연구, 법률, 금융과 같은 높은 신뢰도가 요구되는 시나리오에서 뛰어난 성능을 보여주었습니다.
OpenAI는 최신 버전인 GPT-5.2(Garlic)에서 논리적 일관성, 도구 호출 안정성 및 에이전트 자율성을 강화하여 다양한 작업에 대한 일반화 능력을 더욱 향상시켰습니다. 내부 벤치마크 테스트 결과, GPT-5.2는 추론, 코드 생성 및 다중 라운드 도구 스케줄링에서 Gemini보다 우수한 성능을 유지하며, 특히 OpenAI가 자체 개발한 "연속 추론 일관성 벤치마크"에서 탁월한 결과를 보여주었습니다.
업계 전문가들은 두 회사 간의 역량 격차가 "밀리미터 수준"에 이르렀다고 보고 있으며, 이러한 격차는 전반적인 이점으로 작용하기보다는 특정 작업 시나리오에서만 나타나는 경우가 많습니다.
기본 모델이 에이전트의 사고 능력을 결정한다면, 에이전트의 플랫폼 기능은 에이전트의 작업 수행 능력을 결정합니다.
구글이 제미니 딥 리서치 에이전트를 완전히 개편한 것은 지능형 에이전트 경쟁에 공식적으로 뛰어든 중요한 이정표로 볼 수 있습니다.
새로운 심층 연구 에이전트는 세 가지 주요 특징을 가지고 있습니다.
- Gemini 3 Pro를 기반으로 완전히 새롭게 작성된 추론 체인
- 여러 단계를 거치는 강화 학습 훈련을 활용하여 긴 연쇄 작업 전반에 걸쳐 의사 결정의 일관성을 유지함으로써 환각 발생 확률을 크게 줄일 수 있다.
- 각 관점 에 대한 증거 출처를 추적할 수 있도록 전체 링크 인용을 제공합니다.
이를 통해 단순한 "보고서 생성 도구"에서 "완전한 연구 작업을 수행할 수 있는 전문 지능형 에이전트"로 업그레이드되었습니다. 더욱 중요한 것은 Google이 에이전트의 동작을 구조적으로 제어할 수 있는 Interactions API를 도입하여 개발자가 에이전트의 각 단계 및 하위 작업의 일정과 상태를 매우 정밀하게 관리할 수 있게 되었다는 점입니다. 즉, Deep Research Agent는 더 이상 Google 제품 라인의 특정 기능에 그치지 않고 범용 에이전트 실행 엔진으로 자리매김하게 되었습니다.
OpenAI의 지능형 에이전트 시스템은 다재다능함과 자유로움을 더욱 강조합니다.
Agent API, OpenAI Swarm, BrowserAgent 및 CodeAgent는 완전한 지능형 에이전트 개발 프레임 구성합니다. GPT-5.2의 향상된 추론 일관성을 통해 자동화된 작업 실행, 도구 호출 복잡성 및 환경 적응성 측면에서 기존의 장점을 유지합니다.
두 회사 간의 경쟁은 차세대 컴퓨팅 패러다임을 누가 장악하느냐에 관한 것입니다. 미래의 소프트웨어 개발은 지능형 에이전트를 중심으로 이루어질 것이며, 지능형 에이전트 프레임 표준을 장악하는 회사가 차세대 컴퓨팅 패러다임을 좌우하게 될 것입니다.
참고 링크:
https://ai.google.dev/gemini-api/docs/deep-research?hl=zh-cn
https://techcrunch.com/2025/12/11/google-launched-its-deepest-ai-research-agent-yet-on-the-same-day-openai-dropped-gpt-5-2/
이 글은 위챗 공식 계정 "InfoQ" 에 Dongmei가 작성한 글이며, 36Kr의 허가를 받아 게재되었습니다.



