[서론] 마이크로소프트의 최대 경쟁자는 구글이 아니라, 과거 마이크로소프트가 전적으로 의존했던 대상입니다. 최신 코파일럿 업그레이드 버전은 글쓰기에는 GPT를, 동료 검토에는 클로드(Claude)를 기본으로 제공하며, 앤트로픽(Anthropic)의 에이전트 프레임워크는 오피스에 직접 통합되었습니다. 오픈AI와의 파트너십부터 최고 수준의 AI 모델들을 모두 인수하는 등, 마이크로소프트는 누가 승리하든 모든 트래픽이 자사를 거치게 될 것이라는 전략에 매진하고 있습니다.
단일 모델 접근 방식의 시대는 끝났습니다.
마이크로소프트는 최근 코파일럿의 엔진을 변경하고 리서처에 멀티 모델 인텔리전스 기능을 도입했습니다.
그 이후로 Copilot의 Researcher 에이전트는 기본적으로 GPT와 Claude를 모두 호출하게 됩니다.
이것은 사용자가 수동으로 모델을 분할하는 방식의 "멀티 모델" 시스템이 아닙니다. GPT가 초안을 작성한 후, Claude가 자동으로 전문가 검토자 역할을 하여 각 부분을 꼼꼼히 검토한 후 사용자에게 전달합니다.
한 사람은 "앞으로 돌진하는" 역할을 맡고, 다른 한 사람은 "가시를 줍는" 역할을 맡습니다.
마이크로소프트는 이것이 마이크로소프트 365 코파일럿의 심층 조사 에이전트인 리서처에게 있어 중요한 진전이라고 밝혔습니다.
워크플로우에서 복잡한 연구를 처리하도록 설계된 Researcher는 Critique 및 Council이라는 두 가지 새로운 멀티 모델 기능을 통해 정확성, 심층성 및 신뢰성을 더욱 향상시킵니다.
실제 테스트 결과는 놀라웠습니다.
DRACO 벤치마크 테스트에서 이 "듀얼 모델 경쟁" 아키텍처는 이전에는 딥 리서치의 최고 성능으로 여겨졌던 Perplexity Deep Research(Claude Opus 4.6 탑재)보다 13.8% 더 높은 점수를 기록했습니다.
하지만 그게 다가 아닙니다.
같은 날, 코파일럿 코워크(Copilot Cowork)가 출시되었습니다. 마이크로소프트는 코워크 코워크를 지원하는 기술 플랫폼을 마이크로소프트 365 코파일럿에 도입하고, 이를 워크 IQ(Work IQ), 기업 권한 및 거버넌스 시스템과 긴밀하게 통합하여 AI가 여러 도구에 걸쳐 다단계 작업을 자율적으로 계획하고 진행할 수 있도록 했다고 밝혔습니다.
이는 더 이상 단순히 "API에 연결하는 것"만큼 간단하지 않습니다. 최첨단 외부 지능형 에이전트 기능을 마이크로소프트 자체 운영 체제에 통합하는 것이 핵심입니다.
마이크로소프트는 전략을 명확히 밝혔습니다. 단일 모델에 의존하는 대신, Anthropic과 OpenAI 같은 최첨단 모델들을 Copilot 멀티 모델 오케스트레이션 프레임 에 통합하고 있습니다.
즉, 코파일럿은 기존의 AI 비서에서 기업 업무를 위한 멀티 모델 실행 및 오케스트레이션 시스템으로 진화하고 있습니다.
Critique는 AI가 스스로의 작업을 평가할 수 있도록 합니다.
과거 AI 연구 워크플로우에는 구조적인 맹점이 있었습니다. 계획, 검색, 합성 및 작성 과정이 모두 단일 모델에 집중되어 있었던 것입니다.
모델을 선수와 심판 두 가지 역할로 모두 구성하는 것은 거의 필연적으로 착각을 불러일으킨다.
이번에 마이크로소프트가 제시한 해결책은 "생성"과 "평가"를 두 개의 독립적인 역할로 분리하는 것입니다.
구체적으로, 대규모 모델의 경우 GPT는 전반부, 즉 작업 계획, 반복적인 검색 및 초기 초안 작성을 담당했고, 클로드는 후반부, 즉 전문가 검토자로서 구조화된 평가 척도(루브릭)에 따라 각 항목을 검토하는 역할을 담당했습니다.
이 척도는 주로 세 가지 차원에 중점을 둡니다.
출처 신뢰성 평가, 즉 인용문이 권위 있고 검증 가능한지 여부를 검토하는 것;
보고서 완전성: 사용자의 요청에 담긴 모든 의도가 보고서 내용에 포함되었는지 확인합니다.
철저한 증거 추적을 위해서는 모든 핵심 결론이 정확한 인용이 포함된 신뢰할 수 있는 출처에 근거해야 합니다.
더 중요한 것은, 리뷰어는 "제2 저자"가 아니라 "동료 리뷰어"의 역할을 한다는 점입니다. 리뷰어는 당신의 글을 대신 고쳐주는 것이 아니라, 더 나은 글을 쓰도록 도와주는 역할을 합니다.
마이크로소프트 365 및 코파일럿 담당 부사장인 니콜 허스코위츠는 "단순히 여러 모델을 코파일럿에 집어넣는 것이 아닙니다."라며, "고객이 모델들이 서로 협력하여 얻는 이점을 진정으로 누릴 수 있도록 지원하는 것입니다."라고 말했습니다.
향후 이 메커니즘은 양방향 동료 평가 시스템으로 업그레이드될 예정이며, GPT 또한 클로드의 원고를 검토할 수 있게 될 것입니다.
비판 기능은 Researcher의 기본 모드이므로 수동으로 활성화할 필요가 없습니다 .
사실 이것은 단순한 기술적 묘기가 아닙니다. 수백 년 동안 학계에서 운영되어 온 동료 평가 시스템이 인공지능 시스템에 설계 및 내장된 것은 이번이 처음입니다 .
개별 모델이 저절로 똑똑해지기를 바라는 대신, 건축 설계를 활용하여 착시 현상을 억제하십시오.
DRACO 벤치마크 분할, 금 함량 13.8%
데이터는 거짓말을 하지 않는다.
DRACO(Depth Research Accuracy, Completeness and Objectivity)는 Perplexity와 학계 연구진이 2026년 2월에 출시한 벤치마크로, 실제 사용 사례에서 파생된 10개 영역에 걸친 100개의 복잡한 연구 과제를 다룹니다.
각 문항은 독립적으로 5회씩 실시하여 평균 점수를 산출했습니다. 평가 항목에는 사실 정확성, 분석의 폭과 깊이, 표현의 질, 인용의 질이 포함되었습니다.
심사위원들이 선택한 모델은 GPT-5.2입니다.
마이크로소프트는 공정한 비교를 위해 동일한 기준에 따라 평가가 이루어지도록 벤치마크 논문과 동일한 평가 프로토콜 및 구성을 사용했다고 특별히 강조했습니다.
Critique를 사용한 연구자는 전체 점수에서 +7.0점(표준오차±1.90)의 상당한 향상을 달성했으며, 이는 이전 최고 성과자인 Perplexity Deep Research보다 13.88% 높은 수치입니다.
DRACO 벤치마크 점수 비교 차트: 다양한 심층 연구 시스템(Researcher with Critique, Perplexity Deep Research 등 포함) 간의 점수를 수평적으로 비교한 차트입니다. Researcher with Critique를 제외한 다른 비교 결과는 Zhong et al., arXiv:2602.11685에서 인용했습니다.
이를 네 가지 차원으로 나누어 살펴보겠습니다.
가장 큰 개선점은 분석의 폭과 깊이에서 나타났으며, +3.33점을 기록했습니다. 그 뒤를 이어 표현의 질에서 +3.04점, 사실의 정확성에서 +2.58점이 향상되었습니다. 인용의 질 또한 개선되었습니다.
모든 차원에서 통계적으로 유의미한 차이가 나타났다(쌍체 t-검정, p < 0.0001).
정말 주목할 만한 점은 +3.33이라는 수치입니다. 분석적 깊이의 급증은 Critique의 가장 큰 가치가 오류 수정에 있는 것이 아니라, 보다 포괄적인 분석적 관점을 제시하는 능력에 있음을 보여줍니다.
부문별로 살펴보면, 의학, 기술, 법률과 같은 핵심 분야를 포함하여 10개 부문 중 8개 부문에서 상당한 개선이 관찰되었습니다.
유일한 예외는 시험 결과 변동이 심한 "학업"과 "건초 더미에서 바늘 찾기" 두 가지입니다.
DRACO 벤치마크 4차원 평가 개선표: 비평을 포함한 연구자(다중 모델)는 단일 모델 연구자에 비해 분석의 폭과 깊이, 발표 품질, 사실 정확성, 인용 품질에서 개선을 보였으며, 각 요소가 최종 총점에 기여하는 정도 또한 향상되었습니다.
13.8%는 숫자처럼 들리네요.
심층 연구 분야에서 경쟁은 치열했습니다. 클로드 오푸스 4.6에서 마침내 한계에 도달했던 난해함은 크리티크의 건축적 혁신으로 돌파되었습니다.
당신에게 필요한 것은 답이 아니라 토론일 때
비평은 "보고서를 어떻게 더 정확하게 만들 수 있을까"라는 질문에 대한 해답을 제시합니다.
하지만 어떤 상황에서는 잘 다듬어진 초안이 아니라 두 전문가 간의 논쟁이 필요할 수도 있습니다.
그것이 바로 위원회의 입장입니다.
모델 선택기에서 "모델 위원회"를 선택하면 GPT와 Claude가 각각 독립적으로 완전한 보고서를 생성하여 나란히 표시합니다.
그런 다음, 전문 평가 모델이 두 보고서를 평가하여 양측이 관점 일치하는 부분, 의견이 일치하지 않는 부분, 그리고 각 측이 제시하는 고유한 통찰력을 심층적으로 분석한 커버 레터를 생성합니다.
위원회 모드 제품 인터페이스 스크린샷: GPT와 Claude가 생성한 전체 보고서가 나란히 표시되며, 심사위원 모델이 생성한 표지 서한 요약도 함께 나타납니다.
표면적으로는 "여러 개 중 하나를 선택하세요"가 "모두 보기"로 바뀐 것뿐이지만, 실제로는 의사 결정 과정에서 정보의 사각지대를 드러내는 것입니다.
모델이 간과할 수 있는 사실, 서로 다른 가중치를 부여하는 분석 프레임, 대안적인 추론 경로… 위원회는 이 모든 것을 논의 테이블에 올렸습니다.
분기별 전략 보고서를 작성할 때, 다듬어진 보고서를 받는 것과 전문가 두 명이 각자의 의견을 제시하고 당신이 직접 판단하는 것 중 어느 것을 선호하시겠습니까?
비평은 효율성을 최우선으로 하는 "편집 및 검토" 모드입니다.
위원회는 "전문가 자문" 모델에 따라 운영되며, 의사결정을 우선시합니다.
이 두 모델은 기업이 연구에 AI를 활용할 때 고려해야 할 두 가지 핵심 시나리오를 정확하게 다룹니다. 즉, 일상적인 결과물은 빠르고 정확해야 하며, 주요 결정은 포괄적이고 신중하게 이루어져야 합니다.
Copilot Cowork: 마이크로소프트는 비장의 무기인 Anthropic을 Office 제품군에 도입했습니다.
Critique and Council이 연구의 질을 향상시켰다면, Copilot Cowork는 우리가 일하는 방식을 바꿔놓았습니다.
Copilot Cowork는 Anthropic의 Claude Cowork 기술 플랫폼을 기반으로 직접 구축되었습니다.
이것은 "접근성"이나 "호환성"에 관한 것이 아니라 "기술 플랫폼을 기반으로 구축하는 것"에 관한 것입니다.
작동 방식은 매우 간단합니다. 원하는 결과를 설명하면 Copilot Cowork가 자동으로 계획을 생성하고, 다양한 도구와 문서를 기반으로 논리적 추론을 수행하며, 프로세스 진행 상황을 실시간으로 표시하고, 언제든지 개입하여 안내할 수 있습니다.
Copilot Cowork 인터페이스: 목표 설명 → 자동 계획 → 도구 간 실행 → 실시간 진행 상황 표시.
Claude 기능이 내장되어 있고 캘린더 관리 및 일일 브리핑과 같은 Microsoft 기본 기능이 포함되어 있어 일회성 작업부터 월간 예산 검토에 이르기까지 광범위한 작업을 처리할 수 있습니다.
캐피털 그룹과 같은 기관들은 이미 이 도구를 사용하고 있으며, 피드백은 계획, 일정 관리, 결과물 도출, 경영진 검토 준비와 같은 가치 창출 시나리오에 집중되어 있습니다.
현재 프론티어 프로그램을 통해 얼리 어답터에게 공개되어 있습니다.
이는 마이크로소프트와 앤트로픽의 관계가 "모델 공급업체"에서 "기술 플랫폼 공동 구축"으로 발전했으며, 코워크가 클로드의 에이전트 프레임워크를 M365의 핵심 기능에 직접 통합했음을 의미합니다.
마이크로소프트는 "자율 AI 에이전트에 대한 시장의 증가하는 수요를 충족"하기 위해 이달 초 코파일럿 코워크(Copilot Cowork)를 베타 모드로 출시했습니다.
따라서 이는 제품 업데이트가 아니라 아키텍처 수준에서의 관계 전환입니다.
마이크로소프트의 진정한 야망: AI 비서부터 모델 지휘 센터까지
이러한 모든 조치를 종합해 보면 마이크로소프트의 전략적 의도는 분명합니다. 즉, 더 이상 자신이나 특정 모델의 승리에 기대를 거는 것이 아니라, 누가 이기든 상관없이 트래픽이 자사 플랫폼을 통해 흐를 것이라는 데에 기대를 거는 것입니다 .
마이크로소프트는 오픈AI에 대한 깊은 의존부터 앤트로픽의 기술을 자사 제품 라인에 심층적으로 통합하는 것에 이르기까지, "모델 플레이어"에서 "오케스트레이션 레이어"로 변모하고 있습니다.
Critique는 GPT와 Claude가 협업할 수 있도록 하고, Council은 경쟁할 수 있도록 하며, Cowork는 Anthropic의 에이전트 기능이 Office 사용자에게 직접 서비스를 제공할 수 있도록 합니다.
이것은 플랫폼 로직이지 모델 로직이 아닙니다.
마이크로소프트는 최전선에서 구글의 제미니 멀티모달 접근 방식과 앤스로픽 클로드 코워스의 자율 에이전트 접근 방식과 동시에 경쟁하고 있습니다.
하지만 Anthropic, OpenAI, Google 등 주요 기업들이 이미 탄탄한 모델 구도를 구축한 상황에서 마이크로소프트의 전략은 단순히 시장에 진입하는 것이 아니라, 자사의 개방형 생태계를 활용하여 모든 기업의 역량을 자사 플랫폼에 통합하는 것입니다.
개발자들에게 있어 이 신호는 매우 분명합니다. 미래의 경쟁력은 단일 모델에 얽매이는 것이 아니라 여러 모델을 조율하는 능력에 달려 있다는 것입니다 .
하지만 시장은 마이크로소프트의 코파일럿 업그레이드에 대해 그다지 긍정적인 반응을 보이지 않는 것 같습니다.
마이크로소프트의 주가는 그날 약 1% 상승하는 데 그쳤으며, 이번 분기에도 거의 25% 하락할 것으로 예상됩니다. 이는 2008년 금융 위기 이후 최악의 분기 실적입니다.
월스트리트가 더 우려하는 것은 실제 데이터 자체입니다. 여러 모델을 오가며 데이터를 주고받는 비용은 누가 부담하는가? 직원들이 이를 일상 업무에 실제로 통합할 수 있는가?
확실한 것은 이번 업그레이드를 통해 마이크로소프트와 오픈아이얼의 파트너십이 완전히 새롭게 재편되었다는 점입니다. 마이크로소프트 생태계에서 오픈아이얼의 입지는 이제 "유일한 비장의 카드"에서 "협상 카드 중 하나"로 바뀌었습니다.
Anthropic, OpenAI, 그리고 Google의 경우, 플랫폼 제공업체가 기능을 교체 가능한 모듈 형태로 구성하기 시작하면 모델 기능 자체가 더 이상 방어벽이 되지 않을 수 있다는 점에 주목할 필요가 있습니다.
기업용 AI는 '챗봇' 시대에서 '업무 시스템' 시대로 전환되고 있습니다.
이 전환점에서 결정적인 요소는 더 이상 벤치마크 점수가 가장 높은 사람이 아니라, 여러 모델을 통합하여 신뢰할 수 있고, 감사, 실행 가능한 워크플로를 구축할 수 있는 사람입니다.
참고 자료:
https://www.reuters.com/business/microsoft-unveils-ai-upgrades-rolls-out-copilot-cowork-early-access-customers-2026-03-30/
https://techcommunity.microsoft.com/blog/microsoft365copilotblog/introducing-multi-model-intelligence-in-researcher/4506011
https://www.microsoft.com/en-us/microsoft-365/blog/2026/03/30/copilot-cowork-now-available-in-frontier/
이 글은 위챗 공식 계정 "뉴 인텔리전스" 에서 위안위가 작성하고 36Kr의 허가를 받아 게재한 글입니다.




