Vào ngày 23 tháng 7, Sequoia Capital đã tổ chức một buổi đối thoại với các thành viên của đội ngũ OpenAI ChatGPT Agent để thảo luận về những đổi mới công nghệ và tiềm năng tương lai của công nghệ này. Buổi đối thoại được đồng tổ chức bởi Sonya Huang và Lauren Reeder, hai đối tác của Sequoia Capital, và có sự tham dự của Isa Fulford, Casey Chu và Edward Sun, các thành viên của đội ngũ OpenAI đã tham gia sự kiện ra mắt ChatGPT Agent.
Trong buổi trò chuyện này, họ đã chia sẻ quy trình phát triển ChatGPT Agent và thảo luận về cách ChatGPT Agent kết hợp những ưu điểm của Nghiên cứu chuyên sâu và Operator để đạt được hiệu quả thực thi nhiệm vụ đa miền. Họ cũng thảo luận về các biện pháp bảo mật của ChatGPT Agent và nhiều tình huống ứng dụng khác nhau.
Theo tầm nhìn của OpenAI, ChatGPT Agent sẽ có khả năng phán đoán độc lập mạnh mẽ hơn, có thể cung cấp các dịch vụ tùy chỉnh dựa trên thói quen và nhu cầu của từng người dùng, đồng thời hỗ trợ nhiều phương thức giao tiếp như giọng nói, văn bản và hình ảnh. Trong tương lai, OpenAI sẽ tạo ra một tác nhân siêu thông minh tổng quát có thể xử lý hầu hết mọi nhiệm vụ con người có thể thực hiện trên máy tính.
Sau đây là phiên bản tóm tắt của cuộc trò chuyện:
Người dẫn chương trình: Hôm nay, chúng ta sẽ thảo luận về sự phát triển của các tác nhân AI với Fulford, Casey Chu và Zhiqing Sun từ đội ngũ OpenAI. Các bạn đã phát triển một tác nhân ChatGPT mới. Xin hãy giới thiệu các chức năng cốt lõi và những đột phá lớn của nó.
Fulford: Cảm ơn bạn đã mời chúng tôi tham gia chương trình. ChatGPT Agent là một nỗ lực hợp tác giữa Deep Research và đội ngũ Operator. Trợ lý AI này có khả năng thực hiện nhiệm vụ phức tạp, nhiều bước, có thể mất đến một giờ. Chúng tôi đã trang bị cho nó một hoàn cảnh máy tính ảo tích hợp duyệt văn bản, duyệt hình ảnh, truy cập thiết bị đầu cuối và tích hợp API, tất cả đều chia sẻ trạng thái, tương tự như cách nhiều ứng dụng chia sẻ một hệ thống tệp khi con người sử dụng máy tính.
Thiết kế này cho phép ChatGPT Agent xử lý linh hoạt nhiều nhiệm vụ phức tạp, cải thiện đáng kể hiệu quả và khả năng. Chúng tôi đặc biệt hài lòng với hiệu suất của mô hình này trong các cuộc trò chuyện nhiều vòng, có thể xử lý nhiệm vụ liên tục và không ngừng cải thiện. Trong tương lai, chúng tôi hy vọng sẽ tiếp tục cải thiện các chức năng cá nhân hóa và bộ nhớ để ChatGPT Agent có thể thực hiện nhiệm vụ mà không cần sự chủ động của người dùng.
1 Sự ra đời và tiến hóa
Người dẫn chương trình: Bạn có thể chia sẻ câu chuyện khởi nguồn của dự án này không? Nó bắt đầu như thế nào?
Cathy Chu: Dự án này bắt nguồn từ sự kết hợp giữa Deep Research và Operator. Vào tháng 1 năm 2025, chúng tôi đã phát hành Operator, có khả năng thực hiện nhiệm vụ Internet như mua sắm trực tuyến.
Hai tuần sau, chúng tôi ra mắt Deep Research, tập trung vào việc duyệt và tổng hợp thông tin web để tạo ra báo cáo nghiên cứu chi tiết kèm trích dẫn. Khi vạch ra lộ trình phát triển tương lai, chúng tôi nhận ra rằng hai sản phẩm này có thể bổ trợ cho nhau.
Operator xử lý tốt các tương tác trực quan, chẳng hạn như nhấn các thành phần trên trang web, trong khi Deep Research xử lý tốt hơn thông tin văn bản, chẳng hạn như đọc các bài viết dài. Phản hồi của người dùng cho thấy họ muốn Deep Research truy cập nội dung trả phí, và Operator đã có khả năng này. Do đó, việc kết hợp cả hai là một lựa chọn tự nhiên.
Sun Zhiqing: Đội ngũ của chúng tôi đã đạt được bước tiến vượt bậc về năng lực nhờ việc hợp nhất kiến trúc của Deep Research và Operator. Tất cả các công cụ đều chia sẻ trạng thái, và người dùng có thể dễ dàng chuyển đổi giữa phân tích văn bản, duyệt trực quan và thực thi mã. Chúng tôi không lập trình sẵn các mẫu sử dụng của công cụ, mà thay vào đó sử dụng học tăng cường để mô hình tự khám phá chiến lược tốt nhất trên hàng nghìn máy ảo.
Phương pháp này cho phép ChatGPT Agent cộng tác với người dùng trong nhiều giờ, đặt ra những câu hỏi làm rõ và chấp nhận chỉnh sửa trong nhiệm vụ, mở rộng đáng kể cách thức tương tác với các tác nhân AI. Chúng tôi cũng phải đối mặt với những thách thức như bảo mật và độ phức tạp nhiệm vụ, chẳng hạn như việc chọn ngày, vốn vẫn là một bài toán khó đối với AI. Bước đột phá đạt được bởi một đội ngũ nhỏ thông qua việc sàng lọc dữ liệu cẩn thận cho thấy sự phát triển của AI đã bước vào một giai đoạn mới, nơi mà những hiểu biết sâu sắc về sản phẩm cũng quan trọng như sức mạnh tính toán.
Fulford: ChatGPT Agent có khả năng thực hiện nhiệm vụ con người thường mất lượng lớn thời gian. Chúng tôi cung cấp cho nó một hoàn cảnh máy tính ảo bao gồm nhiều công cụ: trình duyệt văn bản (tương tự như công cụ Nghiên cứu Sâu) để truy cập thông tin trực tuyến hiệu quả; trình duyệt trực quan (tương tự như công cụ Operator) có thể tương tác với giao diện người dùng đồ họa, hỗ trợ các thao tác như nhấn, nhập biểu mẫu, cuộn và kéo; và công cụ đầu cuối để chạy mã, phân tích tệp và tạo đầu ra như bảng tính hoặc slide.
Ngoài ra, thông qua tích hợp API, ChatGPT Agent có thể truy cập các dịch vụ như GitHub, Google Drive, SharePoint, v.v. Tất cả các công cụ đều chia sẻ trạng thái, tương tự như hệ thống tệp được chia sẻ của các ứng dụng trên máy tính. Thiết kế này cho phép ChatGPT Agent phản hồi linh hoạt nhiệm vụ phức tạp và cung cấp hỗ trợ mạnh mẽ cho người dùng.
Người dẫn chương trình: Bạn có thể chia sẻ chi tiết về quá trình kết hợp này không? Làm thế nào để đạt được hiệu ứng "1+1 lớn hơn 2"?
Cathy Chu: Đội ngũ chúng tôi đã phát triển Operator và Deep Research riêng biệt. Operator xử lý tốt các tương tác trực quan, chẳng hạn như nhấn vào trang web hoặc điền biểu mẫu, nhưng lại không tốt khi đọc các bài viết dài; Deep Research xử lý tốt việc duyệt và tổng hợp thông tin văn bản một cách hiệu quả, nhưng lại gặp khó khăn khi xử lý các yếu tố trực quan có tính tương tác cao. Chúng tôi nhận thấy người dùng đã thử nhiệm vụ kiểu Deep Research trên Operator, chẳng hạn như "tìm hiểu về du lịch rồi đặt vé".
Do đó, việc kết hợp cả hai là một lựa chọn tự nhiên. Chúng tôi không chỉ hợp nhất hai công cụ mà còn bổ sung thêm các công cụ đầu cuối, công cụ tạo hình ảnh và chức năng gọi API để cho phép ChatGPT Agent thực hiện nhiều nhiệm vụ hơn. Ví dụ: công cụ đầu cuối có thể chạy lệnh tính toán, công cụ tạo hình ảnh có thể thêm các yếu tố trực quan vào slide, và lệnh gọi API có thể tạo bài thuyết trình PowerPoint.
Sun Zhiqing: Sự kết hợp này nâng cao đáng kể khả năng của ChatGPT Agent. Ví dụ, nó có thể tìm kiếm thông tin hiệu quả bằng trình duyệt văn bản, sau đó chuyển sang trình duyệt trực quan để xem hình ảnh hoặc các yếu tố tương tác, hoặc thậm chí chạy mã trong thiết bị đầu cuối để tạo ra các hiện vật. Tất cả các công cụ đều chia sẻ trạng thái, cho phép ChatGPT Agent vận hành các ứng dụng khác nhau một cách liền mạch như con người.
Thành viên đội ngũ của chúng tôi là Eric đã phân tích lời nhắc của người dùng trên Operator và phát hiện ra rằng nhiều nhiệm vụ liên quan đến các yêu cầu kiểu Nghiên cứu sâu, chẳng hạn như "tìm hiểu về chuyến đi rồi đặt vé", điều này càng khẳng định thêm tính cần thiết của sự kết hợp này.
2 Khả năng thực hiện nhiệm vụ đa kịch bản
Người điều phối: Các ứng dụng cụ thể của ChatGPT Agent là gì? Người dùng sử dụng nó như thế nào?
Fulford: Chúng tôi cố tình thiết kế một tác nhân mở, có tên là ChatGPT Agent, để khuyến khích người dùng khám phá tiềm năng của nó. Chúng tôi đã đào tạo nó về nhiệm vụ Nghiên cứu Sâu, chẳng hạn như tạo báo cáo chi tiết; nhiệm vụ của Người vận hành, chẳng hạn như đặt vé máy bay hoặc mua sắm trực tuyến; và nhiệm vụ Phân tích Dữ liệu , chẳng hạn như tạo bảng tính hoặc slide. Với tính linh hoạt của nó, chúng tôi hy vọng người dùng sẽ khám phá ra nhiều ứng dụng bất ngờ cho nó.
Ví dụ, người dùng Deep Research đã vô tình phát hiện ra tính năng tìm kiếm mã. Chúng tôi hy vọng ChatGPT Agent có thể đóng vai trò quan trọng trong cả trường hợp người dùng cá nhân và doanh nghiệp, chẳng hạn như hỗ trợ người dùng chuyên nghiệp tạo báo cáo chi tiết hoặc lập kế hoạch hoạt động cho người dùng cá nhân. Dù người dùng cá nhân phải chờ 30 phút để nhận báo cáo chi tiết hay người dùng doanh nghiệp sử dụng tại nơi làm việc, ChatGPT Agent đều có thể đáp ứng.
Cathy Chu: Cá nhân tôi sử dụng ChatGPT Agent để xử lý dữ liệu trong Google Docs và tạo slide dữ liệu. Một trường hợp thú vị khác là tôi sử dụng nó để nghiên cứu những phát triển mới trong lĩnh vực DNA cổ đại. Vì thông tin trong lĩnh vực này còn phân tán và thiếu tham khảo toàn diện, ChatGPT Agent có thể thu thập thông tin từ Internet và tổng hợp thành báo cáo hoặc slide, giúp công việc của tôi đơn giản hóa đáng kể.
Sun Zhiqing: Tôi sử dụng nó cho mua sắm trực tuyến, đặc biệt là trong các trường hợp cần duyệt trực quan, chẳng hạn như xem hình ảnh sản phẩm hoặc chọn kiểu dáng thông qua bộ lọc tìm kiếm. Nó cũng rất hữu ích cho việc lập kế hoạch hoạt động, chẳng hạn như lên lịch chuyến đi hoặc sự kiện. Nhiệm vụ mua sắm yêu thích của tôi là mua quần áo, vì nhiều trang web yêu cầu trình duyệt trực quan để xử lý bộ lọc tìm kiếm hoặc xem hình ảnh sản phẩm.
Người dẫn chương trình: Bạn cũng đã trình bày một trường hợp thú vị trước đây, bạn có thể chia sẻ không?
Fulford: Chắc chắn rồi! Các đồng nghiệp của chúng tôi đã yêu cầu ChatGPT Agent ước tính định giá của OpenAI dựa trên thông tin web và tạo ra một mô hình tài chính, bao gồm bảng tính, phân tích tóm tắt và các slide trình bày kết quả. Nhiệm vụ này mất 28 phút, cho thấy khả năng xử lý nhiệm vụ dài của nó. Những dự đoán của ChatGPT Agent khá táo bạo, và chất lượng của các slide rất ấn tượng!
Cathy Chu: Trường hợp này mở ra một mô hình mới: người dùng có thể thoát sau khi đề xuất nhiệm vụ, và ChatGPT Agent sẽ quay lại với một báo cáo chi tiết sau một khoảng thời gian. Khi ChatGPT Agent trở nên tự chủ hơn, thời gian nhiệm vụ có thể dài hơn, đây là một ví dụ điển hình.
Người điều hành: 28 phút đã là quá dài rồi! Bạn có nhiệm vụ nào dài hơn không? Làm thế nào để đảm bảo ChatGPT Agent không bị chệch hướng khi chạy trong thời gian dài?
Sun Zhiqing: Gần đây tôi đã chạy một nhiệm vụ kéo dài một giờ, có lẽ là nhiệm vụ dài nhất mà chúng tôi từng thấy. Để đảm bảo tính ổn định, chúng tôi đã phát triển các công cụ mở rộng độ dài ngữ cảnh của ChatGPT Agent, giúp nó ghi lại tiến trình nhiệm vụ và hoàn thành từng bước nhiệm vụ phức tạp.
Ngoài ra, chúng tôi đã thiết kế một cơ chế tương tác linh hoạt giữa người và máy tính để người dùng có thể sửa lỗi cho ChatGPT Agent, cung cấp hướng dẫn bổ sung hoặc yêu cầu cập nhật trạng thái bất cứ lúc nào. Ví dụ: người dùng có thể yêu cầu ChatGPT Agent tóm tắt tiến trình hiện tại hoặc thêm hướng dẫn như "Tôi chỉ muốn đôi giày thể thao màu xanh".
Fulford: Mô hình cộng tác này mô phỏng cách mọi người giao tiếp qua Slack. ChatGPT Agent sẽ yêu cầu cấp quyền hoặc giải thích khi cần, chẳng hạn như yêu cầu sự đồng ý của người dùng khi thực hiện hành động phá hoại hoặc yêu cầu đăng nhập.
Giao diện của chúng tôi cũng cho phép người dùng giám sát hoạt động của ChatGPT Agent theo thời gian thực và thậm chí tiếp quản hoàn cảnh máy tính ảo sau khi hoàn tất nhiệm vụ , chẳng hạn như đăng nhập vào tài khoản hoặc nhập thông tin thẻ tín dụng. Trải nghiệm"theo dõi đồng nghiệp vận hành và tiếp quản bất cứ lúc nào" này rất trực quan và nâng cao cảm giác kiểm soát của người dùng đối với ChatGPT Agent.
3 Đào tạo và đột phá
Người điều phối: Về mặt kỹ thuật, ChatGPT Agent được đào tạo như thế nào?
Casey Chu: Chúng tôi đã sử dụng công nghệ học tăng cường (RL) để cung cấp cho nó trình duyệt văn bản, trình duyệt GUI, thiết bị đầu cuối, công cụ tạo hình ảnh, v.v. trong hoàn cảnh máy ảo .
Chúng tôi thiết kế nhiệm vụ phức tạp để cho phép ChatGPT Agent khám phá chiến lược sử dụng công cụ tốt nhất thông qua các thử nghiệm và thưởng dựa trên chất lượng và hiệu quả hoàn thành nhiệm vụ. Ví dụ: ChatGPT Agent có thể tìm kiếm thông tin nhà hàng bằng trình duyệt văn bản trước, sau đó sử dụng trình duyệt GUI để xem hình ảnh món ăn và tình trạng đặt chỗ, hoặc tải dữ liệu từ trang web và xử lý trong thiết bị đầu cuối. Thiết kế công cụ trạng thái chia sẻ này cho phép ChatGPT Agent chuyển đổi công cụ một cách liền mạch và hoàn thành nhiều nhiệm vụ khác nhau.
Fulford: Không giống như cách sử dụng công cụ trước đây, tất cả các công cụ đều chia sẻ trạng thái, tương tự như cách con người sử dụng nhiều ứng dụng trên máy tính. Thiết kế này cho phép ChatGPT Agent xử lý hiệu quả nhiệm vụ tương tác như Internet, hệ thống tệp và mã. Thay vì chỉ định trước các quy tắc sử dụng công cụ, chúng tôi để mô hình tự khám phá chiến lược tốt nhất thông qua học tăng cường, và hiệu quả gần như kỳ diệu. Học tăng cường yêu cầu ít dữ liệu hơn nhiều so với tiền huấn luyện, và chúng tôi dạy cho mô hình các kỹ năng mới thông qua các tập dữ liệu chất lượng cao được lựa chọn cẩn thận.
Sun Zhiqing: Học tăng cường rất hiệu quả dữ liệu, và chúng tôi chỉ cần một lượng nhỏ bộ dữ liệu chất lượng cao để dạy các kỹ năng mới. Ví dụ, chúng tôi đã tạo ra một tập hợp nhiệm vụ đa dạng, bao gồm tìm kiếm thông tin chuyên sâu, viết báo cáo dài, v.v. Chỉ cần chất lượng đầu ra có thể được đánh giá, học tăng cường có thể cải thiện hiệu suất một cách hiệu quả. Để hàm Operator hoạt động tốt, chúng tôi đã đầu tư lượng lớn thời gian trong hai hoặc ba năm qua để cho phép mô hình hiểu các yếu tố trực quan và tương tác trên trang, đặt nền móng cho ChatGPT Agent hiện tại.
Người dẫn chương trình: Phương pháp học tăng cường này có phải là phương pháp chuẩn để OpenAI đào tạo các tác nhân AI không?
Fulford: Chúng tôi cho rằng phương pháp này có tiềm năng rất lớn. Phiên bản lần là sản phẩm khả thi tối thiểu (MVP) mà đội ngũ chúng tôi đã cùng nhau phát triển, nhưng nó đã cho thấy những tính năng mạnh mẽ. Ví dụ, tính năng tạo trình chiếu rất tốt, nhờ vào nỗ lực của nhiều thành viên đội ngũ. Chúng tôi tin rằng chúng tôi có thể cải thiện nó hơn nữa bằng cách sử dụng cùng một công nghệ, nhưng có thể cần phải áp dụng các công nghệ khác.
Cathy Chu: Phương pháp này thật tuyệt vời, thuật toán học tăng cường tương tự cũng được áp dụng cho Deep Research, Operator, và giờ là máy tính sử dụng ChatGPT Agent. Chúng tôi đã đạt được những kết quả này trong một thời gian ngắn, và vẫn còn nhiều điều cần cải thiện trong tương lai.
Người dẫn chương trình: Có phương pháp tính tương tác trong học tăng cường không?
Zhiqing Sun: Chúng tôi tập trung vào hiệu suất toàn diện, từ lời nhắc nhở đến hoàn thành nhiệm vụ. ChatGPT Agent hoạt động tốt trong việc tương tác với người dùng, một phần nhờ chúng tôi kết hợp các quỹ đạo nhiệm vụ đa dạng vào quá trình đào tạo. Người dùng có thể can thiệp bất cứ lúc nào để giải thích hoặc chỉnh sửa, và ChatGPT Agent có thể điều chỉnh hành vi dựa trên phản hồi.
Người điều phối: Dự án World of Bits ban đầu (một nền tảng đào tạo AI tổng quát do OpenAI phát triển) đã thử sử dụng học tăng cường để điều khiển đường di chuyển của chuột, nhưng vấn đề quá phức tạp. Vậy điều gì đã thay đổi để giải quyết vấn đề này?
Sun Zhiqing: Quá trình phát triển ChatGPT Agent có thể bắt nguồn từ dự án World of Bits năm 2017, mà chúng tôi gọi đùa là "World of Bits 2". Thay đổi lớn nhất là sự gia tăng quy mô đào tạo. Dù là tiền đào tạo hay học tăng cường, khối lượng tính toán có thể đã tăng lên hàng trăm nghìn lần. Sự gia tăng quy mô dữ liệu và sức mạnh tính toán đã cho phép chúng tôi đạt được mục tiêu của mình.
4 Cách ngăn ngừa “mất kiểm soát”
Người điều hành: ChatGPT Agent đảm bảo tính bảo mật và độ tin cậy như thế nào khi thực hiện các hoạt động bên ngoài?
Fulford: Vì ChatGPT Agent có thể tương tác với thế giới bên ngoài, chẳng hạn như truy cập trang web hoặc gọi API, nên bảo mật là mối quan tâm cốt lõi.
So với chế độ chỉ đọc của Deep Research, ChatGPT Agent có thể gây ra rủi ro lớn hơn, chẳng hạn như thực hiện các hành động phá hoại bất ngờ trong khi hoàn thành nhiệm vụ, chẳng hạn như mua 100 tùy chọn khác nhau để đảm bảo sự hài lòng của người dùng. Vì vậy , chúng tôi đã triển khai các biện pháp bảo mật nhiều lớp, bao gồm thử nghiệm Red Team nội bộ và bên ngoài, hệ thống giám sát thời gian thực (tương tự như phần mềm diệt vi-rút) và các giao thức để phản ứng nhanh với các mối đe dọa mới . Chúng tôi đặc biệt chú trọng đến các vấn đề nghiêm trọng như rủi ro sinh học, chẳng hạn như ngăn chặn ChatGPT Agent bị sử dụng để chế tạo vũ khí sinh học.
Cathy Chu: Internet đầy rẫy rủi ro, bao gồm các cuộc tấn công Phishing, gian lận và các mối đe dọa khác. Các mô hình của chúng tôi đã được đào tạo để nhận diện một số rủi ro, nhưng đôi khi chúng có thể quá vội vàng hoàn thành nhiệm vụ và bị lừa. Chúng tôi đã phát triển một hệ thống giám sát thời gian thực để kiểm tra hành vi của các Đại lý ChatGPT. Nếu phát hiện các hoạt động đáng ngờ (chẳng hạn như truy cập các trang web bất thường), nhiệm vụ sẽ bị tạm dừng ngay lập tức.
Ngoài ra, chúng tôi còn có các giao thức để nhanh chóng ứng phó với các mối đe dọa mới, tương tự như việc cập nhật phần mềm diệt vi-rút. Nhờ nỗ lực giảm thiểu của đội ngũ rủi ro doanh nghiệp, chúng tôi đã tiến hành nhiều tuần thử nghiệm nhóm đỏ để đảm bảo mô hình không thể bị sử dụng cho các mục đích gây hại.
Fulford: Đào tạo bảo mật là một nỗ lực liên đội ngũ, bao gồm đội ngũ bảo mật, quản trị, pháp lý, nghiên cứu và kỹ thuật. Chúng tôi đã triển khai các biện pháp bảo vệ ở mọi cấp độ và sẽ tiếp tục lặp lại để giải quyết các mối đe dọa mới. Ví dụ: chúng tôi đảm bảo ChatGPT Agent sẽ yêu cầu quyền của người dùng trước khi thực hiện các hành động nhạy cảm (chẳng hạn như đăng nhập vào tài khoản ngân hàng).
5 Đội ngũ sau hậu trường
Người điều phối: Đội ngũ phát triển hợp tác như thế nào? Quy mô ra sao?
Fulford: Đội ngũ của chúng tôi là sự hợp nhất giữa đội ngũ nghiên cứu và ứng dụng của Deep Research và Operator, và tổng số nhân sự không lớn. Ban đầu, đội ngũ Deep Research chỉ có 3-4 người, còn đội ngũ Operator có khoảng 6-8 người, cộng thêm một đội ngũ kỹ thuật và thiết kế sản phẩm xuất sắc do Yash Kumar dẫn đầu. Các đội ngũ nghiên cứu và ứng dụng làm việc chặt chẽ với nhau, và tập trung vào kịch bản người dùng, từ việc xác định tính năng sản phẩm đến đào tạo mô hình. Sự hợp tác đội ngũ nhỏ này đã giúp chúng tôi đạt được những kết quả đáng chú ý trong thời gian ngắn.
Cathy Chu: Ranh giới giữa nhóm nghiên cứu và đội ngũ ứng dụng không quá khắt khe. Các kỹ sư ứng dụng tham gia đào tạo mô hình, còn các nhà nghiên cứu cũng tham gia triển khai mô hình . Sự hợp tác liên ngành này khiến dự án tràn đầy sức sống và bầu không khí làm việc đội ngũ rất tốt. Fulford và tôi là bạn cũ, và sự thấu hiểu ngầm này cũng thúc đẩy đội ngũ.
Sun Zhiqing: Một đội ngũ nhỏ có thể làm nên những điều tuyệt vời. Chúng tôi đã hoàn thành dự án này chỉ trong vài tháng, và nhóm nghiên cứu và đội ngũ ứng dụng đã cùng nhau xác định các tính năng sản phẩm ngay từ đầu để đảm bảo chúng hướng đến người dùng. Mặc dù ChatGPT Agent vẫn chưa đạt được đầy đủ tất cả các mục tiêu, nhưng khuôn khổ này cho phép chúng tôi lặp lại quy trình một cách nhanh chóng.
Người dẫn chương trình: Thách thức lớn nhất trong quá trình đào tạo là gì?
Sun Zhiqing: Tính ổn định của quá trình đào tạo là một thách thức lớn. Nghiên cứu chuyên sâu chỉ liên quan đến việc duyệt văn bản và Python, trong khi ChatGPT Agent cần xử lý nhiều công cụ mới cùng lúc, chẳng hạn như trình duyệt GUI, thiết bị đầu cuối, công cụ tạo hình ảnh và lệnh gọi API, tất cả đều chạy trong cùng một hoàn cảnh máy ảo. Chúng tôi cần chạy hàng nghìn máy ảo để truy cập mạng cùng lúc và thường gặp phải các vấn đề như trang web ngừng hoạt động, hạn chế API hoặc không đủ dung lượng mạng .
Ví dụ, một số trang web có thể tạm thời không khả dụng do quá tải lưu lượng truy cập, hoặc các lệnh gọi API có thể không thành công do giới hạn tốc độ, điều này đòi hỏi chúng tôi phải bổ sung các cơ chế mạnh mẽ vào quá trình huấn luyện để đảm bảo ChatGPT Agent có thể xử lý những tình huống bất thường này. Bất chấp những thách thức này, chúng tôi đã huấn luyện thành công mô hình bằng cách tối ưu hóa hoàn cảnh máy ảo và cải thiện thuật toán huấn luyện, giúp nó hoạt động tốt trong nhiều nhiệm vụ khác nhau.
Fulford: Trong tương lai, chúng tôi hy vọng sẽ cải thiện hơn nữa khả năng đối thoại đa chiều, khả năng cá nhân hóa và chức năng ghi nhớ của ChatGPT Agent. Hiện tại, tất cả nhiệm vụ đều do người dùng khởi tạo, nhưng chúng tôi hình dung ChatGPT Agent sẽ có khả năng tự động xác định nhu cầu của người dùng và chủ động thực hiện nhiệm vụ trong tương lai. Ví dụ: nó có thể dự đoán nhu cầu dựa trên lịch sử hành vi của người dùng, tự động tạo báo cáo hoặc lập kế hoạch hoạt động.
Chúng tôi cũng đang khám phá các giao diện người dùng và chế độ tương tác mới, chẳng hạn như các tương tác trực quan hơn ngoài trò chuyện, lệnh thoại hoặc giao diện đồ họa, để nâng cao trải nghiệm người dùng. Ngoài ra, chúng tôi có kế hoạch tối ưu hóa việc quản lý ngữ cảnh của ChatGPT Agent để duy trì tính nhất quán của nhiệm vụ trong nhiệm vụ dài hạn, đồng thời giảm sự phụ thuộc vào tài nguyên điện toán.
Cathy Chu: Về mặt lập trình, tôi thấy ChatGPT Agent rất tuyệt vời cho việc tìm kiếm mã và chỉnh sửa mã nhỏ vì nó đọc tài liệu chính xác và giảm thiểu ảo giác. Ví dụ, nó có thể truy cập GitHub thông qua API, tìm kiếm một kho lưu trữ mã cụ thể và rút các đoạn mã liên quan. Tôi sử dụng nó cho nhiệm vụ lập trình tương tác như o3, trong khi Codex phù hợp hơn để giải quyết các vấn đề được xác định rõ ràng. Người dùng sẽ tìm thấy nhiều trường hợp sử dụng mới, chẳng hạn như tính năng tìm kiếm mã được người dùng Deep Research phát hiện.
Trong tương lai, chúng tôi hy vọng ChatGPT Agent có thể được cải tiến hơn nữa trong nhiệm vụ lập trình, chẳng hạn như hỗ trợ gỡ lỗi mã phức tạp hơn hoặc tự động tạo ứng dụng hoàn chỉnh. Ngoài ra, chúng tôi đang nghiên cứu cách giúp ChatGPT Agent hiểu rõ hơn ý định của người dùng, chẳng hạn như tự động suy đoán các hàm mà người dùng muốn trong quá trình chỉnh sửa mã mà không cần hướng dẫn chi tiết.
6. Xây dựng một siêu trí tuệ tổng quát
Người điều phối: Bạn sẽ phát triển các đại lý phụ chuyên biệt, chẳng hạn như đại lý phân tích tài chính hoặc đại lý lập kế hoạch sự kiện, hay bạn sẽ gắn bó với viễn cảnh mong đợi của một siêu đại lý duy nhất?
Fulford: Chúng tôi muốn xây dựng một siêu trí tuệ tổng quát. Nếu một đặc vụ có thể linh hoạt sử dụng tất cả các công cụ khi cần, giống như một tổng tham mưu trưởng toàn năng, thì đó sẽ là một giải pháp đơn giản và hiệu quả.
Dữ liệu đào tạo của chúng tôi cho thấy có sự chuyển giao tích cực giữa nhiệm vụ khác nhau. Ví dụ, các kỹ năng tương tác trực quan học được trong nhiệm vụ mua sắm có thể được áp dụng cho điều hướng web trong nhiệm vụ nghiên cứu. Do đó, mô hình tác nhân đơn lẻ có nhiều tiềm năng hơn về mở rộng và tính linh hoạt. Chúng tôi hy vọng rằng thông qua quá trình tối ưu hóa liên tục, ChatGPT Agent có thể xử lý liền mạch nhiều nhiệm vụ khác nhau, từ các truy vấn đơn giản đến quy trình làm việc phức tạp, giảm sự phụ thuộc của người dùng vào nhiều mô hình chuyên dụng .
Cathy Chu: Mặc dù các mô hình tùy chỉnh có thể có giá trị thị trường khi ra mắt sản phẩm, nhưng xét về mặt đào tạo, các tổng đài viên có thể tận dụng tốt hơn khả năng chuyển giao kỹ năng. Ví dụ: ChatGPT Agent có thể sử dụng thiết bị đầu cuối để tính toán ngân sách cho nhiệm vụ mua sắm mà không cần các công cụ phân tích tài chính chuyên dụng. Chúng tôi cũng đang tìm hiểu cách cải thiện hơn nữa khả năng khái quát hóa của nó thông qua học tăng cường, chẳng hạn như cho phép nó nhanh chóng thích ứng khi gặp nhiệm vụ mới mà không cần lượng lớn dữ liệu đào tạo bổ sung. Trong tương lai, ChatGPT Agent có thể tự động điều chỉnh các mẫu hành vi của mình bằng cách học hỏi từ phản hồi của người dùng để cải thiện hơn nữa độ chính xác của việc hoàn thành nhiệm vụ .
Sun Zhiqing: Mục tiêu của chúng tôi là để ChatGPT Agent xử lý hầu hết nhiệm vụ con người thực hiện trên máy tính. Người dùng thậm chí có thể yêu cầu nó "thử kiếm tiền trực tuyến", mặc dù việc thực hiện hiện tại vẫn chưa hoàn hảo. Chúng tôi sẽ cải thiện chất lượng và độ chính xác của việc hoàn thành nhiệm vụ thông qua triển khai lặp lại. Ví dụ, chúng tôi dự định tối ưu hóa quy trình ra quyết định của ChatGPT Agent trong nhiệm vụ phức tạp, giảm khả năng xảy ra lỗi và cải thiện khả năng thích ứng của nó trong hoàn cảnh động. Ngoài ra, chúng tôi hy vọng sẽ liên tục cải thiện hiệu suất của ChatGPT Agent thông qua phản hồi của người dùng và dữ liệu sử dụng thực tế, giúp nó thông minh và hiệu quả hơn trong việc xử lý nhiệm vụ liên miền.
Người dẫn chương trình: Nhìn về tương lai, viễn cảnh mong đợi của bạn dành cho ChatGPT Agent là gì?
Fulford: Chúng tôi cung cấp cho ChatGPT Agent một bộ công cụ đáp ứng hầu hết nhiệm vụ mà con người có thể thực hiện trên máy tính. Chúng tôi sẽ nỗ lực cải thiện hiệu suất của mô hình trên nhiều nhiệm vụ khác nhau, tối ưu hóa trải nghiệm tương tác của người dùng và khám phá các chế độ tương tác mới, chẳng hạn như các chức năng bộ nhớ được cá nhân hóa hơn hoặc khởi tạo nhiệm vụ tự động.
Chúng tôi hy vọng ChatGPT Agent sẽ có khả năng tự động nhận biết và phản hồi nhu cầu của người dùng trong tương lai. Ví dụ: ChatGPT Agent có thể tự động lên lịch họp dựa trên lịch trình của người dùng hoặc đề xuất các giải pháp được cá nhân hóa dựa trên sở thích lịch sử.
Casey Chu: Chúng tôi rất hào hứng với việc cải thiện giao diện và trải nghiệm người dùng. Tương tác dựa trên trò chuyện hiện tại chỉ là điểm khởi đầu, và có thể sẽ có nhiều phương pháp tương tác sáng tạo hơn trong tương lai, chẳng hạn như giao diện nhập liệu bằng cử chỉ hoặc đa phương thức.
Chúng tôi hy vọng người dùng sẽ khám phá những tính năng mới của ChatGPT Agent, chẳng hạn như tính năng tìm kiếm mã được người dùng Deep Research phát hiện. Ví dụ, ChatGPT Agent đã vượt qua chuẩn mực của con người trong nhiệm vụ khoa học dữ liệu , nhờ vào công trình nghiên cứu của đồng nghiệp John Blackman về bảng tính và phân tích dữ liệu. Trong tương lai, chúng tôi dự định sẽ cải thiện hơn nữa khả năng xử lý và trực quan hóa dữ liệu của ChatGPT Agent, chẳng hạn như tự động tạo bảng điều khiển tương tác.
Sun Zhiqing: Kể từ khi ra mắt Operator vào tháng 1, chúng tôi đã cải thiện đáng kể độ chính xác của nhấn và điền biểu mẫu, mặc dù vẫn còn nhiều điểm cần cải thiện nhiệm vụ như chọn ngày. Chúng tôi cung cấp cho ChatGPT Agent một bộ công cụ tổng quát, bao gồm hầu hết nhiệm vụ con người thực hiện trên máy tính. Thách thức trong tương lai là đảm bảo mô hình hoạt động tốt trên tất cả nhiệm vụ và phát triển các mô hình tương tác mới, chẳng hạn như tương tác giọng nói tự nhiên hơn hoặc các công cụ cộng tác thời gian thực. Chúng tôi mong muốn người dùng hình thành mối quan hệ cộng tác tự nhiên hơn với ChatGPT Agent và mở ra một kỷ nguyên mới của các tác nhân AI.
Người dẫn chương trình: Cảm ơn bạn rất nhiều vì đã chia sẻ! Xin chúc mừng sản phẩm mới đã ra mắt và tôi rất mong được chứng kiến thêm nhiều hiệu năng tuyệt vời của nó!
Bài viết này được trích từ tài khoản công khai WeChat "Tencent Technology" , do Wu Ji dịch, Helen biên tập và 36Kr xuất bản với sự cho phép.





