Trong bối cảnh cạnh tranh ngày càng gay gắt trong lĩnh vực trí tuệ nhân tạo toàn cầu, Google và OpenAI một lần nữa cùng tung ra những bản cập nhật quan trọng vào cùng một ngày, thu hút sự chú ý mạnh mẽ từ toàn ngành.
Đêm qua, Google đã phát hành phiên bản được thiết kế lại hoàn toàn của Gemini Deep Research và lần đầu tiên mở API của tác nhân nghiên cứu nhúng.
Gần như cùng lúc đó, OpenAI chính thức phát hành GPT-5.2 (tên mã là Garlic) được mong đợi từ lâu. Cuộc cạnh tranh giữa hai công ty về tương lai của các tác nhân thông minh, giới hạn khả năng của các mô hình quy mô lớn cơ bản và sự thống trị trong hệ sinh thái ứng dụng đang bước vào giai đoạn gay cấn chưa từng có.
Lần này, các hành động tấn công và phòng thủ của Google và OpenAI gần như trùng khớp chính xác trong cùng một khung thời gian, cho phép thế giới bên ngoài quan sát rõ ràng nhịp độ của cuộc đối đầu chiến lược giữa hai gã khổng lồ AI toàn cầu này.
1. Google ra mắt Deep Research Agent mới.
Công cụ Gemini Deep Research mới của Google là một tác nhân thông minh có khả năng tích hợp lượng thông tin khổng lồ và xử lý lượng lớn dữ liệu ngữ cảnh theo yêu cầu. Google cho biết khách hàng sử dụng Deep Research Agent cho nhiều nhiệm vụ khác nhau, từ thẩm định đến nghiên cứu độc tính và an toàn thuốc.
Google cũng tuyên bố sẽ sớm tích hợp Deep Research Agent mới này vào nhiều dịch vụ khác nhau của mình, bao gồm Google Search, Google Finance, ứng dụng Gemini và NotebookLM phổ biến. Điều này đánh dấu một bước tiến nữa của Google hướng tới tương lai nơi con người sẽ không còn sử dụng Google để tìm kiếm bất cứ điều gì; thay vào đó, trí tuệ nhân tạo sẽ làm việc đó thay cho họ.
Cụ thể, một Đặc vụ Nghiên cứu Chuyên sâu sở hữu những khả năng gì?
Trong bản cập nhật lần , Google không chỉ thiết kế lại Deep Research Agent ở cấp độ kiến trúc mà còn xây dựng một hệ thống nghiên cứu chuyên sâu ổn định, chính xác và có thể truy vết hơn dựa trên Gemini 3 Pro làm mô hình nền tảng cốt lõi. Những cải tiến trong Deep Research Agent mới có thể được tóm tắt trong ba lĩnh vực chính: nâng cấp mô hình, đột phá về độ ổn định suy luận và cải tiến toàn diện về khả năng tương tác .
Trước tiên , hãy nói về việc nâng cấp mô hình. Deep Research Agent mới được xây dựng hoàn toàn trên Gemini 3 Pro, mà Google coi là mô hình hàng đầu "thực tế" nhất, đáng tin cậy nhất và phù hợp nhất cho suy luận Chuỗi dài cho đến nay. Google nhấn mạnh rằng đây không chỉ là cải thiện hiệu suất mà còn là một bước nhảy vọt về chất lượng trong "độ tin cậy" của các tác nhân nghiên cứu.
Để xây dựng một tác nhân thông minh như vậy, Google đã áp dụng chiến lược huấn luyện Học tăng cường trên các quỹ đạo đa bước. Mục tiêu của nó rất rõ ràng: trong nhiệm vụ nghiên cứu phức tạp liên quan đến hàng chục hoặc hàng trăm bước, AI phải duy trì các đường dẫn suy luận ổn định, giảm khả năng ảo giác và đảm bảo tính nhất quán trong các quy trình ra quyết định liên tục.
Một trong những điểm yếu chính của LLM truyền thống trong suy luận Chuỗi dài là mỗi bước suy luận đều tạo ra lỗi tích lũy—chỉ cần một nút ảo duy nhất cũng có thể làm mất hiệu lực toàn bộ kết quả. Google nhấn mạnh rằng phiên bản Deep Research mới đã đạt được bước đột phá đáng kể về vấn đề này:
- Học tăng cường đa vòng tối ưu hóa chuỗi quyết định.
- Giảm đáng kể độ lệch logic trong Chuỗi nhiệm vụ dài.
- Một vòng lặp khép kín truy xuất-phân tích-lý luận-trích dẫn ổn định hơn
Điều này cho phép Deep Research thực hiện nhiệm vụ mà các LLM trước đây không thể thực hiện, chẳng hạn như hoàn thành toàn bộ quá trình nghiên cứu kéo dài nhiều ngày, đánh giá chính sách, tích hợp dữ liệu từ nhiều nguồn và thẩm định toàn diện.
Một ưu điểm cốt lõi khác của Deep Research Agent mới là khả năng xử lý ngữ cảnh mạnh mẽ . Được hỗ trợ bởi Gemini 3 Pro, nó có thể xử lý lượng dữ liệu lớn hơn nhiều so với trước đây, bao gồm các bài báo học thuật, báo cáo chính thức và các trang web dài. Quan trọng hơn, Google đã bổ sung một "khả năng tiêu chuẩn cấp độ nghiên cứu" cho Deep Research: nó tự động thêm các trích dẫn có thể truy vết vào mọi quan điểm và kết luận. Những trích dẫn này không chỉ là các liên kết URL, mà là các tham chiếu có cấu trúc đến các đoạn văn hoặc đoạn trích quan trọng trong văn bản gốc, đảm bảo kết quả đáng tin cậy, quan điểm có thể kiểm chứng và cho phép người dùng tiến hành các cuộc điều tra và đánh giá lần. Điều này làm cho Deep Research không chỉ "tạo ra nội dung", mà còn "cung cấp kết quả nghiên cứu với một Chuỗi bằng chứng".
Bản cập nhật lần không chỉ là nâng cấp tính năng mà còn là bản phát hành có hệ thống từ Google xoay quanh "hệ sinh thái tác nhân nghiên cứu" của họ. Bên cạnh bản cập nhật Deep Research Agent, Google cũng giới thiệu hai khả năng mới quan trọng: chuẩn DeepSearchQA mã nguồn mở dành cho các tác nhân nghiên cứu mạng và API tương tác mới.
Hiện nay, ngành công nghiệp này đang thiếu các chỉ số thống nhất để đánh giá hiệu quả của các tác nhân nghiên cứu mạng. Để chứng minh sự tiến bộ của Google, Google đã tạo ra một chuẩn mực mới. Chuẩn mực mới này, được gọi là DeepSearchQA, được thiết kế để kiểm tra hiệu suất của các tác nhân trong nhiệm vụ truy xuất thông tin phức tạp, nhiều bước. Google đã mã nguồn mở chuẩn mực này.
Địa chỉ trang web mã nguồn mở DeepSearchQA: https://www.kaggle.com/benchmarks/google/dsqa/leaderboard
DeepSearchQA bao gồm 900 nhiệm vụ " Chuỗi nhân quả" được thiết kế tỉ mỉ trên 17 lĩnh vực, mỗi bước đều dựa trên phân tích trước đó. Không giống như các bài kiểm tra dựa trên sự kiện truyền thống, DeepSearchQA đo lường tính toàn diện, yêu cầu người tham gia phải tạo ra các bộ câu trả lời đầy đủ. Điều này đánh giá cả độ chính xác và đánh giá của nghiên cứu.
Việc so sánh kết quả của pass@8 và pass@1 cho thấy giá trị của việc cho phép tác nhân khám phá nhiều đường dẫn song song để xác minh câu trả lời. Các kết quả này được tính toán trên một tập hợp con gồm 200 gợi ý từ DeepSearchQA.
Công cụ Deep Research Agent hoàn toàn mới đã đạt được kết quả vượt trội trong các bài kiểm tra "Last Test for Humans" (HLE) và DeepSearchQA, và thể hiện tốt nhất trong bài kiểm tra BrowseComp. Nó được tối ưu hóa để tạo ra báo cáo nghiên cứu chất lượng cao với chi phí thấp hơn.
Kết quả kiểm tra hiệu năng rất ấn tượng. Hệ thống được xây dựng trên nền tảng lõi Gemini 3 Pro, nhưng sử dụng quy trình làm việc của tác nhân để đạt được hiệu suất tiên tiến nhất. Dữ liệu(từ biểu đồ):
- Bài kiểm tra cuối cùng của con người (HLE): 46,4% (tốt hơn đáng kể so với 38,9% của GPT-5 Pro)
- DeepSearchQA: 66,1% (cao hơn một chút so với GPT-5 Pro với 65,2%)
- BrowseComp: 59,2% (Hiệu suất điển hình so với GPT-5 Pro)
Gemini Deep Research đã đạt được điểm số dẫn đầu là 46,4% trên toàn bộ dữ liệu"The Last Test for Humans" (HLE), 66,1% trên DeepSearchQA và con số ấn tượng 59,2% trên BrowseComp.
API Tương tác là một trong những khả năng quan trọng nhất về mặt chiến lược mà Google phát hành lần . Lần đầu tiên, nó cho phép các nhà phát triển kiểm soát hành vi, các bước suy luận, việc thực thi nhiệm vụ Chuỗi dài và lưu trữ các trạng thái trung gian của một tác nhân một cách có cấu trúc. Điều này có nghĩa là trong khi trước đây các nhà phát triển chỉ có thể "đặt câu hỏi cho mô hình", thì giờ đây họ có thể "huấn luyện tác nhân cách thực hiện nhiệm vụ".
2. Cư dân mạng nghĩ gì?
Phản ứng từ cộng đồng công nghệ sau khi Google phát hành phiên bản mới của Deep Research Agent cũng rất đáng chú ý.
Trong các chủ đề thảo luận liên quan trên Hacker News và Reddit, nhiều nhà phát triển đã bày tỏ sự đánh giá cao đối với lần của Google trong việc "thực sự biến Agent thành một sản phẩm được thiết kế chuyên nghiệp".
Trên Reddit, một số người dùng bày tỏ sự kinh ngạc trước sự tiến bộ của công nghệ:
"Thật không thể tin được! Tôi nghĩ chúng ta vẫn chưa thực sự nhận ra điều này. Sự tiến bộ mà chúng ta đã đạt được trong ba năm qua đơn giản là không thể tin nổi!"
Một số cư dân mạng chỉ ra rằng việc Google lần đầu tiên nhấn mạnh vào "các nguồn tham chiếu có thể kiểm chứng" và "sự ổn định suy luận đa bước từ đầu đến cuối" ở cấp độ sản phẩm là một bước tiến đáng kể trong lĩnh vực Trí tuệ nhân tạo.
Một người dùng, tự nhận đã tham gia vào công việc đánh giá tuân thủ trong thời gian dài, nhận xét: "Nếu Deep Research thực sự có thể đạt được kiểm toán từng Chuỗi , thì đây sẽ là lần đầu tiên một công ty lớn thực sự đưa phần mềm này từ giai đoạn thử nghiệm sang hoàn cảnh sản xuất."
Tuy nhiên, quan điểm vẫn tỏ ra thận trọng. Một người dùng Reddit chỉ trích: "Google đã chứng minh mình là tốt nhất bằng chính các tiêu chuẩn đánh giá của mình quá lần. Điều chúng ta cần là kiểm tra độc lập trên các trang web thực tế và trong nhiệm vụ thực tế."
Công cụ tìm kiếm mới của Google được phát hành cùng ngày với OpenAI GPT-5.2, vì vậy việc cư dân mạng so sánh hai cái này là điều không thể tránh khỏi.
Trên Reddit, một người dùng đã hỏi về sự khác biệt giữa Deep Research Agent này và GPT-5.2, được OpenAI phát hành cùng thời điểm. Một người dùng khác trả lời rằng chúng có mục đích sử dụng khác nhau, nhưng GPT-5.2 tốt hơn.
Để so sánh rõ ràng hơn, một số cư dân mạng cũng tìm thấy nhà nghiên cứu Sebastien Bubeck của OpenAI...
Trong một bài đăng trên LinkedIn, Sebastien Bubeck cho biết GPT-5.2 đạt 45% trong bài kiểm tra Human Last Test (HLE), trong khi tác nhân mới của Google đạt 46,4%, cao hơn một chút so với GPT-5.2.
Trong khi đó, về cuộc cạnh tranh giữa Google và OpenAI, một số người đã đưa ra những bình luận mỉa mai: "Google vừa mới phát hành Deep Research, và OpenAI ngay lập tức phát hành Garlic (GPT-5.2). Hai công ty này thực chất đang cạnh tranh nhau bằng cách tung ra những sản phẩm mới."
Một số người đã tóm tắt nhịp độ của cuộc cạnh tranh khốc liệt này như sau: "Đây không còn là cuộc chiến mô hình nữa, mà là cuộc chiến họp báo."
3. Cuộc cạnh tranh sát sao về khả năng của các mô hình đang ngày càng gay gắt.
Khả năng tạo ra một mô hình cơ bản luôn là trọng tâm cạnh tranh mang tính biểu tượng nhất của cả hai công ty.
Đầu năm 2025, Google ra mắt Gemini 3 Pro, nhằm mục đích xây dựng lại lợi thế của mình trong suy luận Chuỗi dài và các kịch bản nhiệm vụ chuyên biệt với các tính năng "thực tế" hơn, đáng tin cậy hơn và ít gây ảo giác hơn. Gemini 3 Pro nhấn mạnh vào khả năng truy xuất được nâng cao, khả năng xử lý đa phương thức và khả năng xử lý ngữ cảnh quy mô lớn, và đã thể hiện xuất sắc trong các kịch bản đòi hỏi độ tin cậy cao như nghiên cứu khoa học, luật pháp và tài chính.
Trong phiên bản mới nhất, GPT-5.2 (Garlic), OpenAI đã nâng cao tính nhất quán logic, độ ổn định khi gọi công cụ và tính tự chủ của tác nhân, từ đó cải thiện hơn nữa khả năng khái quát hóa giữa nhiệm vụ. Các bài kiểm tra hiệu năng nội bộ cho thấy GPT-5.2 vẫn giữ vững vị trí dẫn đầu so với Gemini về suy luận, tạo mã và lập lịch công cụ nhiều vòng, đặc biệt xuất sắc trong "Bài kiểm tra hiệu năng về tính nhất quán suy luận liên tục" do OpenAI tự phát triển.
Các chuyên gia trong ngành cho rằng khoảng cách về năng lực giữa hai bên đã "đạt đến mức milimét" - khoảng cách này thường chỉ thể hiện ở các tình nhiệm vụ cụ thể, chứ không phải là lợi thế toàn cầu.
Nếu mô hình cơ bản xác định liệu một tác nhân có thể suy nghĩ hay không, thì khả năng của nền tảng mà tác nhân đó sử dụng sẽ xác định liệu tác nhân đó có thể thực hiện nhiệm vụ hay không.
Lần hoàn toàn đại tu Gemini Deep Research Agent có thể được xem là một nút quan trọng trong việc chính thức gia nhập cuộc chiến về trí tuệ nhân tạo.
Đặc vụ Nghiên cứu Chuyên sâu mới có ba điểm nổi bật chính:
- Chuỗi suy luận được viết lại hoàn toàn dựa trên Gemini 3 Pro.
- Bằng cách sử dụng phương pháp huấn luyện học tăng cường nhiều bước để duy trì tính nhất quán trong quyết định xuyên suốt nhiệm vụ Chuỗi , xác suất xuất hiện ảo giác được giảm thiểu đáng kể.
- Cung cấp đầy đủ các trích dẫn Chuỗi, cho phép bạn truy tìm nguồn gốc bằng chứng cho mỗi quan điểm .
Điều này nâng cấp nó từ một "công cụ tạo báo cáo " thành một "trợ lý thông minh chuyên nghiệp có khả năng thực hiện đầy đủ nhiệm vụ nghiên cứu". Quan trọng hơn, Google đã giới thiệu API Tương tác, cung cấp khả năng kiểm soát có cấu trúc đối với hành vi của trợ lý, cho phép các nhà phát triển quản lý lịch trình và trạng thái của từng giai đoạn và nhiệm vụ của trợ lý với độ chính xác cao. Điều này có nghĩa là Deep Research Agent không còn chỉ là một tính năng trong dòng sản phẩm của Google, mà là một công cụ thực thi trợ lý đa năng.
Hệ thống tác nhân thông minh của OpenAI chú trọng hơn vào tính linh hoạt và tự do.
API Agent, OpenAI Swarm, BrowserAgent và CodeAgent đã tạo thành một khung phát triển tác nhân thông minh hoàn chỉnh. Với tính nhất quán suy luận được cải thiện của GPT-5.2, nó duy trì được những ưu điểm trong việc thực thi nhiệm vụ tự động, độ phức tạp khi gọi công cụ và khả năng thích ứng hoàn cảnh.
Cuộc cạnh tranh giữa hai bên xoay quanh việc ai sẽ kiểm soát thế hệ mô hình điện toán tiếp theo: việc phát triển phần mềm trong tương lai sẽ tập trung vào các tác nhân thông minh, và ai kiểm soát được tiêu chuẩn khung tác nhân thông minh sẽ kiểm soát thế hệ mô hình điện toán tiếp theo.
Liên kết tham khảo:
https://ai.google.dev/ Gemini-api/docs/deep-research?hl=zh-cn
https://techcrunch.com/2025/12/11/google-launched-its-deepest-ai-research-agent-yet-on-the-same-day-openai-dropped-gpt-5-2/
Bài viết này được đăng tải từ tài khoản chính thức WeChat "InfoQ" , do Dongmei biên soạn và được 36Kr cho phép xuất bản.





