Báo cáo "Nghiên cứu chuyên sâu" mới nhất của Google đã phản bác lại GPT-5.2.

avatar
36kr
12-12
Bài viết này được dịch máy
Xem bản gốc

Google và OpenAI hiện đang lao vào một cuộc chiến khốc liệt! Hai công ty đang liên tục ném đá nhiều sản phẩm mới để cạnh tranh nhau.

Đêm qua, OpenAI đã thành công phục thù thất bại Gemini 3 bằng cách sử dụng thuật toán GPT-5.2 cấp chuyên gia!

Hơn một giờ trước khi phát hành GPT-5.2, Google đã cho ra mắt phiên bản mới của Gemini Deep Research Agent .

Google đã tái thiết kế Gemini Nghiên Cứu Chuyên Sâu, giúp nó mạnh mẽ hơn bao giờ hết.

Phiên bản mới của Deep Research Agent được xây dựng trên nền Gemini 3 Pro;

Cải thiện độ chính xác và giảm ảo giác thông qua huấn luyện học tăng cường nhiều bước;

Nó có thể xử lý lượng thông tin ngữ cảnh khổng lồ và cung cấp xác minh nguồn cho mọi quan điểm được đưa ra.

Ngoài bản cập nhật tính năng Deep Research Agent , hai khả năng mới khác cũng đã được phát hành:

DeepSearchQA, một bộ công cụ đánh giá mã nguồn mở mới dành cho các tác nhân nghiên cứu mạng , xác thực tính toàn diện của các tác nhân trong nhiệm vụ nghiên cứu mạng.

Giới thiệu API tương tác hoàn toàn mới .

Mặc dù GPT-5.2 vừa mới được phát hành và chưa thể so sánh trực tiếp, nhưng Lukas Haas, quản lý sản phẩm tại Google DeepMind, đã tiết lộ trên nền tảng mạng xã hội X:

Phiên bản mới nhất của Gemini Deep Research Agent đạt 46,4% trên bài kiểm tra hiệu năng mới của Google và tương đương với GPT-5 Pro trên BrowseComp, nhưng ở mức độ thấp hơn một bậc.

Nghiên cứu chuyên sâu, thậm chí còn "độ sâu" hơn nữa.

Gemini Deep Research là một tác nhân được tối ưu hóa cho nhiệm vụ thu thập và tổng hợp ngữ cảnh dài hạn .

Cốt lõi suy luận của tác nhân sử dụng mô hình Gemini 3 Pro chính xác nhất hiện nay và đã được huấn luyện đặc biệt để giảm thiểu việc tạo ra ảo giác và tối đa hóa chất lượng báo cáo trong nhiệm vụ phức tạp.

Bằng cách mở rộng ứng dụng của học tăng cường đa bước trong tìm kiếm, tác nhân này có khả năng tự động điều hướng hoàn cảnh thông tin phức tạp với độ chính xác cao.

Gemini Deep Research đã đạt được thành tích dẫn đầu với 46,4% trên toàn bộ bộ kiểm thử Humanity's Last Exam (HLE), đạt điểm xuất sắc 66,1% trên DeepSearchQA và điểm số cao 59,2% trên bài kiểm tra BrowseComp.

DeepResearch sử dụng cơ chế lập kế hoạch nghiên cứu lặp đi lặp lại — nó xây dựng các truy vấn, xem xét kết quả, xác định các khoảng trống kiến ​​thức và tìm kiếm lại.

Phiên bản lầncải thiện đáng kể chức năng tìm kiếm trên web , cho phép nó tìm kiếm sâu hơn trong các trang web để truy xuất dữ liệu cụ thể.

Phần mềm đã được tối ưu hóa để tạo ra báo cáo được nghiên cứu kỹ lưỡng với chi phí thấp hơn.

Khác với các chatbot truyền thống, Deep Research được thiết kế như một hệ thống hoạt động lâu dài, với năng lực cốt lõi nằm ở việc xử lý nhiệm vụ phức tạp không thể thực hiện ngay lập tức.

Thảo luận ngắn gọn về nghiên cứu chuyên sâu

Nghiên cứu chuyên sâu có thể nói là chức năng được sử dụng thường xuyên nhất trong số các công cụ AI trong cuộc sống hàng ngày.

Tóm lại, chỉ với 20 đô la một tháng, bạn có thể tận hưởng lần dịch vụ "tươi sáng như bác sĩ", vậy tại sao không?

Theo quan điểm của tôi, nghiên cứu chuyên sâu là công cụ trí tuệ nhân tạo mà người bình thường có thể tận dụng hiệu quả nhất để vượt trội hơn các dịch vụ tri thức.

Nghiên cứu chuyên sâu, loại nghiên cứu chuyên sâu này, không dựa vào phương pháp tính toán thô sơ trên một mô hình duy nhất để tạo ra trí thông minh, mà dựa vào quy trình làm việc phức tạp mang tính tương tác giữa các tác nhân.

Quy trình này mô phỏng hành vi nhận thức của các chuyên gia khi đối diện các lĩnh vực không quen thuộc, và chủ yếu bao gồm bốn giai đoạn khép kín: lập kế hoạch, thực hiện, suy luận và báo cáo.

Khi người dùng gửi một chỉ thị chung chung ở cấp độ vĩ mô (chẳng hạn như "phân tích lộ trình thương mại hóa cảm biến lượng tử vào năm 2030"), DeepResearch sẽ kích hoạt mô-đun lập kế hoạch của nó trước tiên.

Dựa trên khả năng suy luận mạnh mẽ của Gemini 3 Pro, hệ thống không thực hiện tìm kiếm ngay lập tức. Thay vào đó, nó sử dụng công nghệ "gợi ý lùi một bước" để phân tích vấn đề ở cấp độ vĩ mô thành nhiều hướng nghiên cứu chi tiết hơn, chẳng hạn như mức độ trưởng thành của công nghệ, các điểm nghẽn Chuỗi cung ứng, hoàn cảnh chính sách và pháp lý, và phân tích các đối thủ cạnh tranh chính.

Quá trình lập kế hoạch này rất năng động. Trong Chuỗi, con đường thường là tuyến tính; tuy nhiên, trong DeepResearch, cây kế hoạch có mở rộng.

Nếu một khái niệm mới không lường trước được được phát hiện trong quá trình tìm kiếm ban đầu, hệ thống sẽ điều chỉnh kế hoạch nghiên cứu trong thời gian thực, bổ sung thêm các nhánh mới để khám phá chuyên sâu.

DeepSearchQA: So sánh hiệu năng cho các tác nhân nghiên cứu chuyên sâu

Trong các bài kiểm tra hiệu năng ở trên, bạn sẽ thấy một thứ gọi là DeepSearchQA.

Đây là một tiêu chuẩn mà Google đã phát triển dành riêng cho các tác nhân nghiên cứu chuyên sâu, một tiêu chuẩn hoàn toàn mới để đánh giá hiệu suất của các tác nhân trong nhiệm vụ truy xuất thông tin phức tạp, nhiều bước.

DeepSearchQA bao gồm 900 nhiệm vụ Chuỗi nhân quả được thiết kế thủ công, bao gồm 17 lĩnh vực, trong đó mỗi bước đều dựa trên phân tích trước đó.

Khác với các bài kiểm tra dựa trên thực tế truyền thống, DeepSearchQA đánh giá tính đầy đủ của nghiên cứu bằng cách yêu cầu người dùng đưa ra một bộ câu trả lời toàn diện, đồng thời kiểm tra tính chính xác của nghiên cứu và khả năng nhớ lại thông tin.

DeepSearchQA cũng có thể được sử dụng như một công cụ chẩn đoán để đánh giá hiệu quả thời gian.

Trong quá đánh giá nội bộ, Google nhận thấy hiệu suất của họ được cải thiện đáng kể khi cho phép tác nhân thực hiện nhiều bước tìm kiếm và suy luận hơn.

Việc so sánh kết quả của pass@8 và pass@1 cho thấy giá trị của việc cho phép tác nhân xác minh câu trả lời bằng cách khám phá nhiều quỹ đạo song song.

Các kết quả này được tính toán dựa trên một tập hợp con gồm 200 gợi ý từ DeepSearchQA.

API tương tác: Được thiết kế đặc biệt cho việc phát triển ứng dụng Agent.

API tương tác tích tích hợp một tập hợp các giao diện chuyên dụng được thiết kế đặc biệt cho các kịch bản phát triển ứng dụng Agent. Các giao diện này có thể xử lý hiệu quả các tác vụ quản lý ngữ cảnh phức tạp như các thông điệp xen kẽ, Chuỗi suy nghĩ, các lệnh gọi công cụ và thông tin trạng thái của chúng.

Bên cạnh bộ mô hình Gemini , API tương tác cũng cung cấp tác nhân nghiên cứu chuyên sâu Gemini tích hợp đầu tiên .

Tiếp theo, Google sẽ mở rộng Agent tích hợp sẵn và cung cấp khả năng xây dựng và giới thiệu các Agent khác, cho phép các nhà phát triển kết nối mô hình Gemini, Agent tích hợp sẵn của Google và các Agent tùy chỉnh của họ thông qua một API duy nhất .

API tương tác cung cấp một điểm cuối RESTful duy nhất để tương tác với mô hình và tác nhân.

API Tương tác mở rộng chức năng cốt lõi của generateContent, cung cấp các tính năng cần thiết cho các ứng dụng tác nhân thông minh hiện đại, bao gồm:

Trạng thái phía máy chủ tùy chọn: Khả năng chuyển giao việc quản lý lịch sử cho máy chủ. Điều này đơn giản hóa mã máy trạm, giảm lỗi quản lý ngữ cảnh và có thể giảm chi phí bằng cách cải thiện tỷ lệ truy cập bộ nhớ cache.

Một mô hình dữ liệu có thể diễn giải và kết hợp: một kiến ​​trúc rõ ràng được thiết kế đặc biệt cho các bản ghi lịch sử của các tác nhân phức tạp. Bạn có thể gỡ lỗi, thao tác, truyền phát và suy luận logic về các thông điệp, quá trình tư duy, công cụ đan xen và kết quả của chúng.

Chạy ngầm: Khả năng chuyển các vòng lặp suy luận kéo dài sang máy chủ mà không cần duy trì kết nối máy trạm .

Hỗ trợ công cụ MCP từ xa: Mô hình có thể trực tiếp gọi máy chủ Giao thức Ngữ cảnh Mô hình (MCP) như một công cụ.

Với việc ra mắt API Tương tác , Google đang cố gắng định nghĩa lại cách các nhà phát triển xây dựng ứng dụng AI, chuyển từ mô hình "yêu cầu-phản hồi không trạng thái" sang mô hình "tương tác tác nhân có trạng thái".

Hầu hết các API LLM hiện nay đều không lưu trạng thái. Các nhà phát triển phải duy trì toàn bộ lịch sử hội thoại ở máy trạm và gửi ngữ cảnh của hàng chục nghìn token trở lại máy chủ với lần yêu cầu.

Điều này không chỉ làm tăng độ trễ và chi phí băng thông, mà còn khiến việc xây dựng các tác nhân phức tạp, nhiều bước trở nên vô cùng khó khăn.

API Tương tác giới thiệu tính năng quản lý trạng thái phía máy chủ .

Các nhà phát triển chỉ cần tạo một phiên thông qua điểm cuối /interactions , và máy chủ của Google sẽ tự động duy trì toàn bộ ngữ cảnh của phiên đó, kết quả của các cuộc gọi công cụ và trạng thái suy nghĩ nội bộ của Agent.

Đó là điều tôi cho rằng đáng sợ về API mới nhất của Google.

Tính năng mang tính cách mạng nhất của API Tương tác là nó cho phép các nhà phát triển trực tiếp gọi các tác nhân cấp cao đã được Google đào tạo trước, chứ không chỉ là mô hình cơ bản.

Ví dụ, các nhà phát triển có thể tích hợp các khả năng nghiên cứu hàng đầu của Google vào phần mềm ERP, CRM hoặc phần mềm nghiên cứu của riêng họ thông qua một lệnh gọi API đơn giản (chỉ định agent=deep-research-pro-preview-12-2025).

Vì một nhiệm vụ DeepResearch có thể tiêu tốn hàng trăm nghìn token trong quá trình đọc và tạo dữ liệu, chi phí cho lần nghiên cứu chuyên sâu có thể lên tới vài đô la.

Tuy nhiên, mức giá này vẫn mang lại lợi tức đầu tư (ROI) rất cao so với số giờ hoặc thậm chí số ngày làm việc cần thiết để thay thế một chuyên viên phân tích dữ liệu cấp dưới.

DeepMind hợp tác với chính phủ Anh.

Cuối cùng, còn một tin tức nữa đáng chú ý.

Trong khi Google và OpenAI đang cạnh tranh khốc liệt, Google DeepMind đã bắt đầu hợp tác ở cấp quốc gia.

DeepMind, một gã khổng lồ về trí tuệ nhân tạo có trụ sở tại London, đang tiến hành một thử nghiệm "quản trị dựa trên trí tuệ nhân tạo" chưa từng có tiền lệ với chính phủ Anh thông qua DeepResearch và các công nghệ nền tảng của mình.

Sự hợp tác này không chỉ giới hạn ở việc nghiên cứu khoa học mà còn đi sâu vào cốt lõi của quản lý hành chính công, đạt được những tiến bộ đột phá, đặc biệt là trong việc giải quyết cuộc khủng hoảng nhà ở kéo dài và những bất hiệu quả trong quy hoạch của Vương quốc Anh.

Trích đoạn dự án: Phá vỡ "các kho dữ liệu" trong quy hoạch đô thị

Hệ thống quy hoạch đô thị của Vương quốc Anh từ lâu đã được coi là một nút thắt cản trở tăng trưởng kinh tế và xây dựng nhà ở.

Hàng năm, các hội đồng địa phương cần xử lý khoảng 350.000 đơn xin cấp phép xây dựng, và lượng lớn hồ sơ quy hoạch lịch sử vẫn còn tồn tại dưới dạng giấy tờ, bản PDF được quét hoặc bản đồ vẽ tay.

Các nhà quy hoạch thường phải mất hàng giờ để tìm kiếm trong các kho lưu trữ cũ kỹ các đường ống ngầm hoặc ranh giới khu vực được bảo vệ được vẽ ra từ nhiều thập kỷ trước.

Để giải quyết vấn đề này, DeepMind đã hợp tác với vườn ươm trí tuệ nhân tạo của chính phủ Anh (i.AI) để phát triển công cụ Extract.

Đây không phải là phần mềm nhận dạng ký tự quang học (OCR) đơn giản, mà là một hệ thống trí tuệ không gian địa lý phức tạp dựa trên khả năng suy luận đa phương thức Gemini.

Hiểu thông tin phi cấu trúc:

Phần mềm Extract trước tiên sử dụng khả năng nhận diện ngôn ngữ hình ảnh của Gemini để đọc các tài liệu được quét có chất lượng thấp. Nó không chỉ nhận dạng được văn bản mà còn hiểu được ngữ nghĩa của các chú thích viết tay (ví dụ: nhận dạng "ngày phê duyệt" thay vì "ngày nộp đơn" trong một ghi chú bên lề), đạt độ chính xác nhận dạng ngày tháng là 94%.

Suy luận trực quan và rút đa giác:

Đây là bước đột phá công nghệ cốt lõi. Gemini có thể hiểu ngôn ngữ ký hiệu trực quan trên bản đồ, chẳng hạn như phân biệt giữa ranh giới tài sản được biểu thị bằng "đường liền màu đỏ" và mương thoát nước được biểu thị bằng "đường đứt nét màu xanh". Sau khi xác định được khu vực mục tiêu, hệ thống sẽ gọi các công cụ thị giác máy tính như OpenCVSAM rút các đa giác địa lý từ hình ảnh pixel với độ chính xác của một USD kỹ thuật số, đạt được mức độ khớp hình dạng (IoU) là 90%.

Đối sánh đặc điểm không gian-thời gian:

Các bản đồ lịch sử thường sử dụng tỷ lệ và hệ quy chiếu khác với bản đồ vệ tinh hiện đại. Phần mềm Extract sử dụng thuật toán LoFTR để tìm các điểm đặc trưng chung (như nhà thờ cổ và giao lộ) giữa bản đồ cũ và hiện đại, tính toán ma trận chuyển đổi chính xác và ánh xạ chính xác các đường kẻ đỏ vẽ tay từ nhiều thập kỷ trước lên hệ tọa độ bản đồ kỹ thuật số hiện nay.

Tự động hóa toàn bộ quy trình:

Thông qua quy trình này, Extract giảm thời gian xử lý một tài liệu quy hoạch phức tạp từ trung bình 2 giờ xuống còn 40 giây đến 3 phút . Điều này có nghĩa là một hội đồng địa phương có thể số hóa hàng trăm tài liệu tồn đọng mỗi ngày, tăng hiệu quả lên gấp trăm lần.

Hiện tại, Extract đang được thử nghiệm thí điểm tại bốn khu vực, bao gồm Westminster và Hillingdon.

Chính phủ Anh dự định mở rộng chương trình này đến tất cả các hội đồng địa phương trên cả nước vào mùa xuân năm 2026.

Điều này không chỉ giúp tiết kiệm hàng ngàn giờ làm việc của nhân viên hành chính, mà quan trọng hơn, nó sẽ xây dựng một cơ sở dữ liệu quy hoạch kỹ thuật số quốc gia thống nhất, cung cấp nền tảng dữ liệu cho kế hoạch xây dựng 1,5 triệu ngôi nhà mới mà chính phủ Anh đã hứa hẹn.

Đây là một ví dụ điển hình về việc ứng dụng công nghệ DeepResearch trong một ngành công nghiệp chuyên biệt—chuyển đổi khả năng suy luận đa phương thức tổng quát thành năng suất quản lý cụ thể.

Cơ sở hạ tầng khoa học mới: Từ AlphaFold đến các phòng thí nghiệm vật liệu tự động hóa

Trong lĩnh vực khoa học cơ bản, sự hợp tác giữa DeepMind và chính phủ Anh nhằm mục đích đẩy nhanh hiệu ứng "bánh đà" của khám phá khoa học thông qua trí tuệ nhân tạo.

DeepMind đã công bố kế hoạch thành lập phòng thí nghiệm khoa học AI tự động đầu tiên tại Anh vào năm 2026 .

Hệ thống khám phá khép kín: Phòng thí nghiệm sẽ vận hành một hệ thống khép kín được điều khiển bởi Gemini và GNoME (Mạng lưới đồ thị để khám phá vật liệu). Trí tuệ nhân tạo (AI) sẽ chịu trách nhiệm thiết kế các cấu trúc tinh thể mới dựa trên các nguyên tắc hóa học lượng tử và dự đoán độ ổn định của chúng.

Tổng hợp bằng robot: Các chỉ dẫn thiết kế này được gửi trực tiếp đến một nền tảng robot hoàn toàn tự động, chịu trách nhiệm trộn nguyên liệu, tổng hợp, nung kết và kiểm tra.

Phản hồi dữ liệu: Kết quả thí nghiệm được phản hồi cho AI theo thời gian thực để điều chỉnh dự đoán cho vòng tiếp theo. Mục tiêu là rút ngắn chu kỳ khám phá các vật liệu mới (như chất siêu dẫn ở nhiệt độ phòng và chất điện phân pin hiệu suất cao) từ hàng thập kỷ xuống còn vài tháng hoặc thậm chí vài ngày. Sáng kiến ​​này phục vụ trực tiếp chiến lược NetZero và an ninh năng lượng của Vương quốc Anh.

Bên cạnh các phòng thí nghiệm phần cứng, DeepMind cũng đã mở cửa sê-ri các mô hình trí tuệ nhân tạo tiên tiến cho các nhà khoa học Anh:

An ninh quốc gia và hệ thống miễn dịch kỹ thuật số

Trong lĩnh vực an ninh, trọng tâm hợp tác đã chuyển từ "năng lực tấn công" sang "khả năng phòng thủ".

DeepMind đã hợp tác với Viện An ninh UKAI để triển khai một công cụ phòng thủ mạng dựa trên công nghệ của DeepResearch.

BigSleep (trước đây là Project Naptime): Đây là một tác nhân thông minh sử dụng LLM (Quản lý bộ nhớ hạn chế) để tìm ra các lỗ hổng ẩn trong các cơ sở mã nguồn quy mô lớn. Nó đã phát hiện thành công lỗ hổng bảo mật bộ nhớ trong cơ sở hạ tầng mã nguồn mở cốt lõi như SQLite mà các chuyên gia con người không phát hiện ra.

Code Mender, kết hợp với BigSleep, không chỉ phát hiện các lỗ hổng mà còn tự động tạo mã vá lỗi để khắc phục chúng. Vòng lặp "phát hiện - khắc phục" tự động này nhằm mục đích xây dựng một "hệ thống miễn dịch kỹ thuật số" thời gian thực cho Cơ sở hạ tầng thông tin quan trọng quốc gia (CII) của Vương quốc Anh để chống lại các cuộc tấn công mạng ngày càng tinh vi.

Trên đây lần bản cập nhật của Google cho GPT 5.2.

Cá nhân cho rằng Google vẫn là mạnh nhất.

Mặc dù GPT 5.2 đã đánh bại Gemini 3 đêm qua, nhưng nó vẫn còn hơi thua kém về khả năng đa phương thức. Có lẽ một sản phẩm có thể cạnh tranh với Nano Banana Pro sẽ xuất hiện vào cuối năm nay.

Hơn nữa, xét theo nghiên cứu chuyên sâu các tác nhân thông minh và độ sâu bố trí của DeepMind tại Anh, Google đang đi trước một bước.

Vị trí dẫn đầu này cho chúng ta thấy rõ bức tranh về sự phát triển của công nghệ trí tuệ nhân tạo:

Nguyên mẫu của Trí tuệ Nhân tạo Tổng quát (AGI) đang nổi lên từ các hộp thoại và phát triển thành các tác nhân thông minh có khả năng nhận thức, lập kế hoạch và thay đổi thế giới vật lý và kỹ thuật số.

Tham khảo:

Gemini

https://x.com/GoogleDeepMind/status/1999165701811015990

https://deepmind.google/blog/strengthening-our-partnership-with-the-uk-government-to-support-prosperity-and-security-in-the-ai-era/

Bài viết này được đăng tải từ tài khoản WeChat chính thức "New Intelligence" , tác giả: Ding Hui, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận