Deep Research ra mắt: AI không còn là công cụ tìm kiếm đơn thuần nữa mà trở thành đối tác nghiên cứu của bạn

Bài viết này được dịch máy
Xem bản gốc
Kết thúc tìm kiếm, bắt đầu nghiên cứu.

Tác giả:One Useful Thing

Biên dịch: TechFlow

Trong cuối tuần vừa qua, chúng ta đã thấy được một số dấu hiệu của tương lai. Trong một thời gian dài, tôi đã thảo luận về hai cuộc cách mạng quan trọng của Trí tuệ nhân tạo (AI): sự trỗi dậy của Tác nhân tự chủ (Autonomous Agents) và sự phát triển của các Hệ thống suy luận (Reasoners) mạnh mẽ kể từ khi OpenAI ra mắt mô hình o1. Hai hướng phát triển này cuối cùng đã hội tụ, tạo ra một kết quả đáng kinh ngạc - các hệ thống AI không chỉ có thể tiến hành nghiên cứu với độ sâu và chi tiết như các chuyên gia con người, mà còn có thể hoàn thành công việc với tốc độ máy móc. Đại diện của sự hội tụ này là Deep Research của OpenAI, nó đã vẽ ra bức tranh tương lai cho chúng ta. Tuy nhiên, để hiểu tại sao tất cả những điều này lại quan trọng, chúng ta cần bắt đầu từ những điều cơ bản: Hệ thống suy luận và Tác nhân thông minh.

Hệ thống suy luận (Reasoners)

Trong những năm gần đây, khi bạn sử dụng trò chuyện chatbot, cách hoạt động của nó thường rất đơn giản: bạn nhập câu hỏi, hệ thống sẽ tạo ra phản hồi từng Token. Vì AI chỉ có thể "suy nghĩ" trong quá trình tạo ra những Token này, các nhà nghiên cứu đã phát triển nhiều kỹ thuật để nâng cao khả năng suy luận của nó. Ví dụ, bằng cách nhắc nhở AI "suy luận từng bước trước khi trả lời", được gọi là Chain-of-Thought Prompting, đã cải thiện đáng kể hiệu suất của AI.

Sự xuất hiện của các Hệ thống suy luận đã tự động hóa quá trình này. Trước khi trả lời câu hỏi, hệ thống sẽ tạo ra các "Token suy luận" (các bước suy luận), sau đó mới đưa ra câu trả lời cuối cùng. Cách tiếp cận này mang lại hai bước tiến quan trọng.

Trước tiên, các công ty AI có thể huấn luyện các Hệ thống suy luận bằng cách sử dụng các ví dụ về những người giải quyết vấn đề xuất sắc, giúp quá trình "suy nghĩ" của AI trở nên hiệu quả hơn. Cách huấn luyện này có thể tạo ra các chuỗi suy luận chất lượng cao hơn so với những gì con người có thể cung cấp, cho phép các Hệ thống suy luận giải quyết các vấn đề phức tạp hơn, đặc biệt là trong các lĩnh vực như toán học và logic, nơi mà các chatbot truyền thống thường kém hiệu quả.

Thứ hai, một đặc điểm nổi bật của các Hệ thống suy luận là: càng "suy nghĩ" lâu, chất lượng câu trả lời càng cao (mặc dù tốc độ cải thiện sẽ giảm dần theo thời gian). Điều này rất quan trọng, vì trước đây, cách duy nhất để cải thiện hiệu suất của AI là huấn luyện các mô hình quy mô lớn hơn, điều này đòi hỏi rất nhiều dữ liệu và tài nguyên. Các Hệ thống suy luận cho thấy rằng chỉ cần cho phép AI tạo ra nhiều bước suy luận hơn khi trả lời câu hỏi (tức là tính toán trong quá trình suy luận), có thể cải thiện đáng kể hiệu suất mà không cần tăng tài nguyên huấn luyện mô hình.

Bài kiểm tra trả lời câu hỏi không sử dụng Google (GPQA) ở cấp độ nghiên cứu sinh là một tập hợp các câu hỏi trắc nghiệm nhằm đánh giá khả năng suy luận của AI. Ngay cả những nghiên cứu sinh có quyền truy cập Internet, tỷ lệ trả lời đúng của họ chỉ là 34% trong các lĩnh vực không chuyên, trong khi trong các lĩnh vực chuyên môn, tỷ lệ này có thể lên đến 81%. Bài kiểm tra này cho thấy cách các mô hình suy luận có thể thúc đẩy nhanh chóng khả năng của AI (nguồn dữ liệu từ đây).

Vì các Hệ thống suy luận vẫn là một công nghệ mới nổi, khả năng của chúng đang phát triển nhanh chóng. Chỉ trong vài tháng, chúng ta đã chứng kiến sự tiến bộ đáng kể từ chuỗi o1 của OpenAI đến mô hình mới o3. Trong khi đó, DeepSeek r1 của Trung Quốc đã cải thiện hiệu suất và giảm chi phí thông qua các phương pháp sáng tạo, và Google cũng đã ra mắt hệ thống suy luận đầu tiên của họ. Đây chỉ là khởi đầu - trong tương lai, chúng ta sẽ thấy nhiều Hệ thống suy luận mạnh mẽ hơn xuất hiện, và có thể sẽ nhanh hơn dự kiến.

Tác nhân (Agents)

Về định nghĩa của Tác nhân AI, các chuyên gia vẫn chưa đạt được sự thống nhất. Tuy nhiên, chúng ta có thể đơn giản hiểu nó là "một hệ thống AI được giao một mục tiêu và có thể tự động hoàn thành mục tiêu đó". Hiện nay, các phòng thí nghiệm AI lớn đang cạnh tranh quyết liệt để phát triển các Tác nhân đa năng - một hệ thống có thể xử lý bất kỳ nhiệm vụ nào. Tôi đã đề cập đến một số ví dụ sớm như DevinClaude, những tác nhân có khả năng thao tác máy tính nhất định. Gần đây, OpenAI vừa ra mắt Operator, có thể là Tác nhân đa năng hoàn thiện nhất cho đến nay.

Video dưới đây (được phát ở tốc độ 16 lần) minh họa tiềm năng to lớn của các Tác nhân đa năng cũng như những hạn chế hiện tại của chúng. Tôi đã giao cho Operator một nhiệm vụ: đọc bài đăng Substack mới nhất của tôi trên OneUsefulThing, sau đó truy cập Google ImageFX, thiết kế một hình ảnh phù hợp và gửi lại cho tôi. Ban đầu, Operator thể hiện rất tốt - nó tìm chính xác trang web của tôi, đọc bài viết, điều hướng đến ImageFX (tạm dừng để tôi nhập thông tin đăng nhập) và thành công tạo ra một hình ảnh. Tuy nhiên, các vấn đề nhanh chóng nổi lên, chủ yếu ở hai khía cạnh: một là Operator bị ngăn cản bởi các giới hạn bảo mật của OpenAI để không thể tải tệp, hai là xảy ra hỗn loạn trong quá trình thực hiện nhiệm vụ. Tác nhân đã thử các giải pháp khác nhau, như sao chép vào bảng nhớ tạm, tạo liên kết trực tiếp, thậm chí là đào sâu vào mã nguồn của trang web. Tuy nhiên, tất cả những nỗ lực này đều không thành công - một số do giới hạn của trình duyệt của OpenAI, một số do Tác nhân hiểu sai nhiệm vụ. Quan sát quá trình kiên trì nhưng cuối cùng thất bại này không chỉ tiết lộ những hạn chế của hệ thống hiện tại, mà còn gợi ra những suy nghĩ về cách các Tác nhân sẽ ứng phó khi gặp trở ngại trong thế giới thực.

Mặc dù Operator phơi bày những hạn chế của các Tác nhân đa năng, nhưng điều này không có nghĩa là các Tác nhân không có giá trị. Hiện nay, các Tác nhân chuyên sâu vào một lĩnh vực cụ thể đã thể hiện giá trị kinh tế đáng kể. Những Tác nhân này dựa trên công nghệ Mô hình ngôn ngữ lớn (LLM) hiện tại và có thể đạt được những kết quả đáng kinh ngạc trong các lĩnh vực cụ thể. Ví dụ, sản phẩm mới của OpenAI, Deep Research, là một mẫu điển hình của một Tác nhân chuyên sâu.

Deep Research

Deep Research của OpenAI (lưu ý không nhầm lẫn với Deep Research của Google, sẽ được giới thiệu chi tiết sau) là một Tác nhân chuyên sâu vào lĩnh vực nghiên cứu. Nó dựa trên hệ thống Reasoner o3 chưa được công bố của OpenAI và được trang bị các công cụ và chức năng chuyên dụng. Đây là một trong những ứng dụng AI ấn tượng nhất mà tôi đã thấy gần đây.

Để thể hiện khả năng của nó, tôi đã đặt cho nó một chủ đề: khi nào thì các công ty khởi nghiệp nên ngừng khám phá và bắt đầu mở rộng? Đây là một câu hỏi khá kỹ thuật và gây tranh cãi trong lĩnh vực nghiên cứu của tôi. Tôi yêu cầu Deep Research nghiên cứu các nghiên cứu học thuật liên quan, tập trung phân tích các bài báo chất lượng cao và các thử nghiệm đối chứng ngẫu nhiên (RCTs), xử lý các tranh cãi về định nghĩa và mâu thuẫn giữa kiến thức thông thường và kết luận nghiên cứu. Cuối cùng, nó cần trình bày một kết quả chi tiết để thảo luận ở cấp độ nghiên cứu sinh.

, mà là nguồn tài liệu học thuật hợp pháp và chất lượng cao, bao gồm cả nghiên cứu tiên phong của đồng nghiệp Saerom (Ronnie) Lee và Daniel Kim của tôi. Khi tôi nhấn vào các liên kết trích dẫn, chúng không chỉ dẫn đến các bài báo liên quan, mà còn thường xuyên chuyển trực tiếp đến các phần trích dẫn được làm nổi bật cụ thể. Mặc dù vẫn còn một số hạn chế - chỉ có thể truy cập nội dung mà nó có thể tìm thấy và đọc trong vài phút, và vẫn không thể truy cập các bài báo bị chặn bởi tường thu phí - nhưng đây đã là một bước nhảy vọt cơ bản của trong việc xử lý tài liệu học thuật.

Đáng chú ý là, tháng trước Google cũng đã ra mắt một sản phẩm cùng tên là Deep Research (thở dài). Hệ thống của Google cung cấp nhiều trích dẫn hơn, nhưng chất lượng nguồn trích dẫn thì không đồng đều, thường là sự pha trộn của các trang web khác nhau (không thể truy cập thông tin trả phí và sách là một thách thức chung đối với tất cả các ). Khác với nghiên cứu của OpenAI, hệ thống của Google dường như thu thập tất cả các tài liệu một lần, thay vì từng bước khám phá. Hơn nữa, do sản phẩm của Google hiện tại dựa trên mô hình Gemini 1.5 cũ (không có khả năng suy luận), nội dung tóm tắt của nó cũng mang tính bề mặt hơn, mặc dù nhìn chung vẫn chắc chắn và không có lỗi rõ ràng. Có thể nói, nó thể hiện như một tác phẩm của một sinh viên đại học rất xuất sắc.

Để hiểu rõ hơn về điều này: cả nghiên cứu của OpenAI và Google đều có thể hoàn thành công việc thường mất con người vài giờ. Sự khác biệt là, hệ thống của OpenAI đạt đến mức phân tích gần với trình độ nghiên cứu sinh tiến sĩ, trong khi hệ thống của Google giống như một tác phẩm của một sinh viên đại học xuất sắc. Trong tuyên bố chính thức của OpenAI, họ đưa ra một số tuyên bố táo bạo và sử dụng biểu đồ để chỉ ra rằng của họ có thể xử lý 15% các dự án nghiên cứu có giá trị kinh tế cao và 9% các dự án nghiên cứu có giá trị cực kỳ cao. Mặc dù phương pháp luận cụ thể của những dữ liệu này chưa được công bố, cần phải giữ một số ho怀nghi, nhưng dựa trên trải nghiệm sử dụng thực tế của tôi, những tuyên bố này không hoàn toàn là quá đáng. Deep Research thực sự có thể hoàn thành các phân tích phức tạp và có giá trị trong vài phút, thay vì mất vài giờ. Xét đến tốc độ tiến bộ của công nghệ, tôi tin rằng Google sẽ không để khoảng cách này tồn tại quá lâu. Trong vài tháng tới, chúng ta có thể sẽ chứng kiến sự cải thiện nhanh chóng về khả năng của các nghiên cứu.

Sự phát triển đồng bộ về công nghệ

Dựa trên xu hướng phát triển hiện tại, các phòng thí nghiệm lớn đang xây dựng không chỉ là đơn giản ghép các công nghệ lại với nhau, mà là thông qua tương tác để đạt hiệu quả cao hơn. Các hệ thống suy luận (Reasoners) cung cấp khả năng phân tích logic mạnh mẽ, trong khi các hệ thống 赋予những khả năng suy luận này khả năng hành động thực tế. Hiện tại, chúng ta đang ở thời đại của các chuyên sâu, như Deep Research, tập trung vào các nhiệm vụ cụ thể, bởi vì ngay cả những hệ thống suy luận tiên tiến nhất hiện nay vẫn chưa đáp ứng được yêu cầu về khả năng tự chủ phổ quát. Tuy nhiên, "chuyên sâu" không có nghĩa là bị hạn chế - những hệ thống này đã có thể hoàn thành các công việc phức tạp mà trước đây chỉ có thể được thực hiện bởi các nhóm chuyên gia cao cấp hoặc các công ty tư vấn chuyên nghiệp.

Tất nhiên, điều này không có nghĩa là các chuyên gia và công ty tư vấn sẽ bị thay thế. Trái lại, khi họ chuyển từ thực hiện công việc trực tiếp sang phối hợp và xác minh kết quả của các hệ thống , khả năng phán đoán chuyên môn của họ sẽ trở nên quan trọng hơn. Nhưng mục tiêu của các phòng thí nghiệm không chỉ dừng lại ở đó. Họ hy vọng sẽ giải quyết được vấn đề của các tự chủ phổ quát thông qua các mô hình mạnh mẽ hơn, để chúng vượt ra khỏi các nhiệm vụ chuyên sâu và trở thành những lực lượng lao động kỹ thuật số tự chủ thực sự. Những này không chỉ có thể tự động duyệt web, mà còn có thể xử lý nhiều dạng dữ liệu khác nhau (như văn bản, hình ảnh và âm thanh) và thực hiện các hành động có ý nghĩa trong thế giới thực. Mặc dù hiệu suất của Operator cho thấy chúng ta vẫn chưa hoàn toàn đạt được mục tiêu này, nhưng thành công của Deep Research đã cho thấy chúng ta đang tiến dần đến đó.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
1
Thêm vào Yêu thích
Bình luận