Văn phòng của bạn hiện được điều khiển bởi hai trí tuệ nhân tạo: GPT để soạn thảo văn bản và Claude để xem xét, cả hai đều được Microsoft kích hoạt mặc định.

Bài viết này được dịch máy

Xem bản gốc

[Giới thiệu] Đối thủ cạnh tranh lớn nhất của Microsoft không phải là Google, mà là đối tác độc quyền trước đây của họ. Nâng cấp Copilot mới nhất mặc định sử dụng GPT để viết nội dung và Claude để đánh giá ngang hàng, trong khi khung phần mềm của Anthropic được tích hợp trực tiếp vào Office. Từ việc hợp tác với OpenAI đến việc mua lại tất cả các mô hình hàng đầu, Microsoft đang đặt cược rằng bất kể ai thắng, tất cả lưu lượng truy cập sẽ đi qua tay họ.

Kỷ nguyên của các phương pháp tiếp cận dựa trên một mô hình duy nhất đã kết thúc.

Microsoft vừa thay đổi công cụ của Copilot và giới thiệu trí tuệ đa mô hình trong Researcher.

Kể từ đó, tác nhân Nghiên cứu của Copilot sẽ mặc định gọi cả GPT và Claude.

Đây không phải là loại hệ thống "đa mô hình" mà bạn phải tự tay cắt mô hình. Thay vào đó, sau khi GPT viết bản nháp đầu tiên, Claude sẽ tự động đóng vai trò là người đánh giá chuyên nghiệp, xem xét từng điểm trước khi gửi lại cho bạn.

Một bên có nhiệm vụ "tiến lên phía trước", còn bên kia có nhiệm vụ "nhặt những gai nhọn".

Microsoft cho biết đây là một bước tiến đáng kể đối với Microsoft 365 Copilot Nghiên Cứu Chuyên Sâu Agent Researcher .

Được thiết kế để xử lý các nghiên cứu phức tạp trong quy trình làm việc, Researcher nâng cao lần độ chính xác, độ sâu và độ tin cậy với hai khả năng đa mô hình mới: Phê bình và Hội đồng.

Kết quả kiểm tra thực tế thật đáng kinh ngạc.

Trong bài kiểm tra chuẩn DRACO, kiến trúc "cạnh tranh mô hình kép" này đạt điểm cao hơn 13,8% so với Perplexity Deep Research (được trang bị Claude Opus 4.6), vốn trước đây được coi là giới hạn nghiên cứu chuyên sâu.

Nhưng đó chưa phải là tất cả.

Cùng ra mắt. Microsoft tuyên bố rằng họ đã giới thiệu nền tảng công nghệ hỗ trợ Claude Cowork vào Microsoft 365 Copilot và tích hợp độ sâu nền tảng này với Work IQ, hệ thống quản trị và phân quyền doanh nghiệp, cho phép trí tuệ nhân tạo tự động lập kế hoạch và thực hiện nhiệm vụ nhiều bước trên nhiều công cụ.

Việc này không còn đơn giản chỉ là "kết nối với API" nữa; mà là tích hợp các khả năng tiên tiến của các tác nhân thông minh bên ngoài vào hệ điều hành của chính Microsoft.

Microsoft đã công khai chiến lược của mình: thay vì đặt cược vào một mô hình duy nhất, họ đang tích hợp các mô hình tiên tiến như Anthropic và OpenAI vào khung điều phối đa mô hình Copilot.

Nói cách khác, Copilot đang nâng cấp một hệ thống thực thi và điều phối đa mô hình cho công việc doanh nghiệp.

Chức năng phê bình cho phép AI tự chấm điểm công việc của mình.

Các quy trình nghiên cứu AI trước đây có một điểm mù về cấu trúc: lập kế hoạch, truy xuất, tổng hợp và viết đều được nhồi nhét vào một mô hình duy nhất.

Việc biến mô hình thành cả cầu thủ và trọng tài gần như chắc chắn sẽ tạo ra ảo giác.

Giải pháp của Microsoft lần là tách biệt "quá trình tạo ra" và "đánh giá" thành hai nhân vật độc lập.

Cụ thể, đối với mô hình lớn, GPT chịu trách nhiệm phần đầu tiên: lập kế hoạch nhiệm vụ, truy xuất lặp đi lặp lại và soạn thảo bản nháp ban đầu; Claude chịu trách nhiệm phần thứ hai: với tư cách là người đánh giá chuyên gia, xem xét từng mục dựa trên thang đánh giá có cấu trúc (Rubric).

Thang đo này chủ yếu tập trung vào ba chiều:

Đánh giá độ tin cậy của nguồn, xem xét liệu các nguồn được trích dẫn có đáng tin cậy và có thể kiểm chứng được hay không;
Tính đầy đủ báo cáo: Kiểm tra xem tất cả các mục đích trong yêu cầu của người dùng đã được đáp ứng hay chưa;
Việc truy tìm bằng chứng một cách nghiêm ngặt đòi hỏi mọi kết luận quan trọng phải dựa trên một nguồn đáng tin cậy với trích dẫn chính xác.

Quan trọng hơn, người phản biện không được coi là "tác giả thứ hai", mà là "người đánh giá ngang hàng". Họ không viết lại hộ bạn, mà thay vào đó thúc đẩy bạn viết tốt hơn.

"Chúng tôi không chỉ đơn thuần nhồi nhét nhiều mô hình vào Copilot," Nicole Herskowitz, Phó Chủ tịch Tập đoàn Microsoft 365 và Copilot, cho biết. "Chúng tôi đang giúp khách hàng thực sự tận hưởng những lợi ích của việc các mô hình hoạt động cùng nhau."

Trong tương lai, cơ chế này sẽ nâng cấp thành hệ thống đánh giá ngang hàng hai chiều: GPT cũng sẽ có thể đánh giá các bản thảo của Claude.

Chế độ Phê bình đã là chế độ mặc định trong Researcher và không cần phải bật thủ công .

Thực ra, đây không phải là một thủ thuật kỹ thuật phức tạp nào cả; đây là lần đầu tiên hệ thống đánh giá ngang hàng, vốn đã hoạt động trong giới học thuật hàng trăm năm, được thiết kế và tích hợp vào một hệ thống trí tuệ nhân tạo .

Hãy sử dụng thiết kế kiến trúc để loại bỏ ảo tưởng, thay vì chỉ hy vọng rằng các mô hình riêng lẻ sẽ trở nên thông minh hơn.

Phân tách chuẩn DRACO, hàm lượng vàng 13,8%.

Dữ liệu không biết nói dối.

DRACO (Nghiên Cứu Chuyên Sâu Accuracy, Completeness and Objectivity) là một tiêu chuẩn được Perplexity và các nhà nghiên cứu học thuật khởi xướng vào tháng 2 năm 2026, bao gồm 100 nhiệm vụ nghiên cứu phức tạp trên 10 lĩnh vực, tất cả đều được rút ra từ các trường hợp sử dụng thực tế.

Mỗi câu hỏi được thực hiện năm lần một cách độc lập và lấy điểm trung bình. Đánh giá bao gồm độ chính xác về mặt thực tế, phạm vi và độ sâu của phân tích, chất lượng diễn đạt và chất lượng trích dẫn.

Mô hình giám khảo là GPT-5.2.

Microsoft đặc biệt nhấn mạnh rằng họ đã sử dụng cùng một giao thức và cấu hình đánh giá như trong bài báo so sánh hiệu năng để đảm bảo sự so sánh công bằng dựa trên cùng các tiêu chí.

Researcher with Critique đã đạt được sự cải thiện đáng kể +7,0 điểm (SEM±1,90) về điểm tổng thể, cao hơn 13,88% so với ứng dụng có thành tích tốt nhất trước đó, Perplexity Deep Research.

Bảng so sánh điểm chuẩn DRACO: So sánh ngang điểm số giữa các hệ thống nghiên cứu chuyên sâu khác nhau (bao gồm Researcher with Critique, Perplexity Deep Research, v.v.). Trong đó Researcher with Critique, các kết quả so sánh khác được trích dẫn từ Zhong et al., arXiv:2602.11685.

Chúng ta hãy phân tích nó thành bốn khía cạnh:

Sự cải thiện đáng kể nhất nằm ở phạm vi và độ sâu phân tích, tăng +3,33. Tiếp theo là chất lượng diễn đạt +3,04 và độ chính xác về mặt dữ liệu +2,58. Chất lượng trích dẫn cũng được cải thiện.

Tất cả các chiều đều có ý nghĩa thống kê (kiểm định t-test cặp đôi, p < 0,0001).

Điều thực sự đáng chú ý là con số +3,33. Sự gia tăng về độ sâu phân tích chứng tỏ giá trị lớn nhất của Critique không nằm ở việc sửa lỗi, mà ở khả năng thúc đẩy một góc nhìn phân tích toàn diện hơn.

Ở cấp độ ngành, những cải thiện đáng kể đã được ghi nhận ở 8 trong số 10 ngành, bao gồm các lĩnh vực cốt lõi như y tế, công nghệ và luật pháp.

Hai trường hợp ngoại lệ duy nhất là "học thuật" và "tìm kim trong đống rơm", nơi kết quả kiểm tra có sự biến động đáng kể.

Bảng đánh giá cải tiến bốn chiều theo tiêu chuẩn DRACO: Nhà nghiên cứu kèm Phê bình (đa mô hình) cho thấy sự cải thiện về phạm vi và độ sâu phân tích, chất lượng trình bày, độ chính xác về mặt dữ liệu và chất lượng trích dẫn so với Nhà nghiên cứu đơn mô hình, cũng như đóng góp của từng yếu tố vào tổng điểm cuối cùng.

13,8% nghe có vẻ là một con số.

Trong lĩnh vực nghiên cứu chuyên sâu, sự cạnh tranh rất khốc liệt. Sự khó hiểu, vốn đã đạt đến đỉnh điểm với Claude Opus 4.6, nay đã bị phá vỡ bởi sự đổi mới kiến trúc của Critique.

Khi điều bạn cần không phải là câu trả lời mà là một cuộc tranh luận.

Phê bình đề cập đến câu hỏi "làm thế nào để một báo cáo chính xác hơn".

Nhưng trong một số trường hợp, điều bạn cần không phải là một bản thảo hoàn chỉnh, mà là một cuộc tranh luận giữa hai chuyên gia.

Và đó chính là lập trường của Hội đồng.

Chọn "Model Council" trong trình chọn mô hình, và GPT cùng Claude sẽ tự động tạo ra một báo cáo hoàn chỉnh và hiển thị chúng cạnh nhau.

Tiếp theo, một mô hình đánh giá chuyên biệt đánh giá hai báo cáo và tạo ra một Thư đính kèm cung cấp phân tích chuyên sâu về quan điểm mà hai bên đồng ý, những điểm bất đồng và nhận xét độc đáo mà mỗi bên mang lại.

Ảnh chụp màn hình giao diện sản phẩm chế độ Hội đồng: Báo cáo đầy đủ do GPT và Claude tạo ra được hiển thị cạnh nhau, cùng với bản tóm tắt Thư giới thiệu do mô hình thẩm phán tạo ra.

Nhìn lên mặt bề ngoài, đó chỉ là việc "chọn một trong số nhiều" trở thành "xem tất cả", nhưng trên thực tế, nó phơi bày những điểm mù thông tin trong quá trình ra quyết định.

Những sự thật mà một mô hình có thể bỏ qua, các khuôn khổ phân tích với tỷ trọng khác nhau, các con đường lập luận thay thế... Hội đồng đã đưa tất cả những điều này ra thảo luận.

Khi lập báo cáo chiến lược hàng quý, bạn thích xem một bản báo cáo hoàn chỉnh hay hai chuyên gia đưa ra ý kiến riêng của họ, để bạn tự đưa ra đánh giá của mình?

Phê bình là một phương thức "chỉnh sửa và xem xét" ưu tiên tính hiệu quả.

Hội đồng hoạt động theo mô hình "tham vấn chuyên gia", ưu tiên việc ra quyết định.

Hai mô hình này bao quát chính xác hai kịch bản cốt lõi mà các doanh nghiệp cần sử dụng AI để nghiên cứu: sản lượng hàng ngày cần phải nhanh chóng và chính xác, và các quyết định quan trọng cần phải toàn diện và được cân nhắc kỹ lưỡng.

Copilot Cowork: Microsoft đã đưa át chủ bài của mình, Anthropic, vào Office.

Nếu như Critique and Council đã thay đổi chất lượng nghiên cứu, thì Copilot Cowork đã thay đổi cách chúng ta làm việc.

Copilot Cowork được xây dựng trực tiếp trên nền tảng công nghệ Claude Cowork của Anthropic.

Đây không phải là vấn đề "khả năng truy cập" hay "khả năng tương thích", mà là "xây dựng dựa trên nền tảng công nghệ hiện có".

Phương pháp hoạt động của nó rất đơn giản: bạn mô tả kết quả mong muốn, Copilot Cowork tự động tạo ra một kế hoạch, thực hiện suy luận logic trên các công cụ và tài liệu, hiển thị tiến độ theo thời gian thực trong suốt quá trình và bạn có thể can thiệp và hướng dẫn bất cứ lúc nào.

Giao diện Copilot Cowork: Mô tả mục tiêu → Lập kế hoạch tự động → Thực thi đa công cụ → Hiển thị tiến độ theo thời gian thực.

Với Claude được tích hợp sẵn và các chức năng gốc của Microsoft như quản lý lịch và báo cáo hàng ngày, nó bao gồm nhiều nhiệm vụ, từ các công việc lặt vặt đến việc xem xét ngân sách hàng tháng.

Các tổ chức như Capital Group đã và đang sử dụng nó, và phản hồi tập trung vào các tình huống có giá trị cao như lập kế hoạch, lên lịch trình, kết quả đầu ra và chuẩn bị cho các cuộc đánh giá của ban quản lý.

Hiện tại, sản phẩm đang được mở bán cho những người dùng tiên phong thông qua chương trình Frontier.

Điều này có nghĩa là mối quan hệ giữa Microsoft và Anthropic đã phát triển từ "nhà cung cấp mô hình" thành "cùng xây dựng nền tảng công nghệ", với việc Cowork trực tiếp tích hợp khung tác nhân của Claude vào sức mạnh của M365.

Đầu tháng này, Microsoft đã phát hành Copilot Cowork ở chế độ beta với mục tiêu "nắm bắt nhu cầu tăng trưởng của thị trường đối với các tác nhân AI tự động".

Do đó, đây không phải là bản cập nhật sản phẩm, mà là sự thay đổi về lòng trung thành ở cấp độ kiến trúc.

Tham vọng thực sự của Microsoft: từ trợ lý AI đến trung tâm điều khiển mô hình

Nhìn vào tất cả những hành động này, ý đồ chiến lược của Microsoft rất rõ ràng: họ không còn đặt cược vào chính mình hay một mô hình cụ thể nào để chiến thắng, mà thay vào đó đặt cược rằng bất kể ai thắng, lưu lượng truy cập vẫn sẽ đi qua hệ thống của họ .

Từ việc phụ thuộc độ sâu vào OpenAI đến độ sâu tích hợp công nghệ của Anthropic vào dòng sản phẩm của mình, Microsoft đang chuyển mình từ một "người chơi mẫu" thành một "lớp điều phối".

Critique cho phép GPT và Claude cộng tác, Council cho phép họ cạnh tranh, và Cowork cho phép các khả năng của tác nhân Anthropic phục vụ trực tiếp người dùng Office.

Đây là logic của nền tảng, không phải logic của mô hình.

Trên mặt trận này, Microsoft đang đồng thời cạnh tranh với phương pháp tiếp cận đa phương thức Gemini của Google và phương pháp tiếp cận dựa trên tác nhân tự động của Anthropic Claude Cowork.

Tuy nhiên, với bối cảnh mô hình đã được thiết lập bởi Anthropic, OpenAI và Google, chiến lược của Microsoft không phải là tham gia với tư cách là người chơi, mà là sử dụng hệ sinh thái mở của mình để tích hợp khả năng của tất cả các bên vào nền tảng của riêng mình.

Đối với các nhà phát triển, tín hiệu rất rõ ràng: khả năng cạnh tranh trong tương lai không nằm ở việc bị ràng buộc vào một mô hình duy nhất, mà ở khả năng phối hợp nhiều mô hình khác nhau .

Tuy nhiên, thị trường dường như không mấy mặn mà với nâng cấp Lần của Microsoft.

Giá cổ phiếu của Microsoft chỉ tăng khoảng 1% trong ngày hôm đó, và vẫn đang đối mặt với nguy cơ giảm gần 25% trong quý này: đây là hiệu suất hàng quý tồi tệ nhất kể từ cuộc khủng hoảng tài chính năm 2008.

Điều mà Phố Wall quan tâm hơn cả là dữ liệu thực tế: ai sẽ trả chi phí cho việc gọi đi gọi lại nhiều mô hình khác nhau? Liệu nhân viên có thực sự tích hợp được nó vào quy trình làm việc hàng ngày của họ?

Điều chắc chắn là nâng cấp lần đã viết lại toàn bộ mối quan hệ hợp tác giữa Microsoft và OpenAI. Vị thế của OpenAI trong hệ sinh thái của Microsoft đã thay đổi từ "lá bài chủ chốt duy nhất" thành "một lá bài trên bàn".

Đối với Anthropic, OpenAI và Google, điều đáng lưu ý là khi các nền tảng bắt đầu điều phối khả năng của bạn như mô-đun có thể thay thế, thì bản thân khả năng của mô hình có thể không còn là hệ thống bảo vệ nữa.

Trí tuệ nhân tạo trong doanh nghiệp đang chuyển mình từ kỷ nguyên "chatbot" sang kỷ nguyên "hệ thống làm việc".

Tại thời điểm bước ngoặt này, yếu tố quyết định không còn là ai có điểm chuẩn cao nhất, mà là ai có thể phối hợp nhiều mô hình thành một quy trình làm việc đáng tin cậy, kiểm toán và có thể triển khai được.

Tham khảo:

https://www.reuters.com/business/microsoft-unveils-ai-upgrades-rolls-out-copilot-cowork-early-access-customers-2026-03-30/

https://techcommunity.microsoft.com/blog/microsoft365copilotblog/introducing-multi-model-intelligence-in-researcher/4506011

https://www.microsoft.com/en-us/microsoft-365/blog/2026/03/30/copilot-cowork-now-available-in-frontier/

Bài viết này được trích từ tài khoản WeChat chính thức "New Intelligence" , do Yuan Yu biên tập và được đăng tải với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan