AI Agent (đại lý AI) là một lĩnh vực rất được chú ý trong ngành công nghiệp AI và crypto trong năm nay. Kể từ khi hệ thống AI "Computer Use" của Anthropic, có thể thao tác giao diện máy tính như con người, ra mắt vào cuối tháng 10 năm ngoái, sự phát triển của AI Agent đã mở ra nhiều khả năng hơn nữa.
Và ngày hôm nay, OpenAI - ông lớn của AI sinh ra (generative AI) cũng chính thức ra mắt AI Agent đầu tiên của mình, có tên là "Operator", trở thành chủ đề nóng hổi trong cộng đồng AI.
Phạm vi chức năng và sử dụng của Operator
Theo như được biết, Operator là một AI Agent có thể tự động điều khiển trình duyệt, thực hiện các nhiệm vụ khác nhau cho người dùng. Người dùng chỉ cần mô tả công việc cần hoàn thành, Operator sẽ xử lý phần còn lại, như đặt phòng khách sạn và nhà hàng trên Booking.com, đặt hàng tạp hóa và đồ ăn nhanh trên UBER, điền biểu mẫu, giúp bạn tìm danh sách mua sắm, tạo meme... Nó có thể xử lý nhiều nhiệm vụ cùng lúc (giống như khi chúng ta mở nhiều tab trên trình duyệt).
Ngoài ra, nó còn có thể ghi nhớ sở thích và cài đặt của người dùng, cung cấp dịch vụ cá nhân hóa hơn; người dùng cũng có thể can thiệp vào quá trình vận hành, điều chỉnh hoạt động hoặc kết thúc nhiệm vụ.
Ngoài sự tiện lợi của các tính năng, Operator cũng rất coi trọng quyền riêng tư và an ninh của người dùng. Phía chính thức cho biết người dùng có thể xóa toàn bộ lịch sử duyệt web và đăng xuất khỏi tất cả các trang web bằng một nút bấm. Đồng thời, OpenAI cung cấp tùy chọn cài đặt riêng tư, người dùng có thể chọn tắt tính năng "cải thiện mô hình" để tránh dữ liệu của họ được sử dụng để huấn luyện mô hình.
Operator hiện đang ở phiên bản xem trước nghiên cứu, chỉ dành cho người dùng chuyên nghiệp ở khu vực Hoa Kỳ (với phí đăng ký 200 USD/tháng), người dùng có thể truy cập qua địa chỉ Operator.ChatGPT.com. Trong tương lai, nó sẽ được mở rộng cho người dùng Plus, Teams và Enterprise.
Nguyên lý hoạt động
Operator hoạt động dựa trên mô hình mới được gọi là "Computer-Using Agent (CUA)". CUA kết hợp khả năng xử lý hình ảnh của GPT-4o với suy luận cấp cao mang lại từ học tăng cường, được đào tạo chuyên biệt để tương tác với giao diện người dùng đồ họa (GUI), chẳng hạn như các nút, menu và trường văn bản trên màn hình.
Thông qua chụp ảnh màn hình, Operator có thể "nhìn thấy" nội dung giao diện và thực hiện thao tác chuột và bàn phím để "tương tác", từ đó thực hiện các thao tác trên trang web mà không cần tích hợp API.
Khi gặp thách thức hoặc lỗi, Operator sẽ sử dụng khả năng suy luận để tự sửa chữa; nếu không thể giải quyết vấn đề, nó sẽ chuyển quyền kiểm soát lại cho người dùng, đảm bảo hoạt động diễn ra trơn tru và có thể phối hợp với người dùng để hoàn thành nhiệm vụ.
OpenAI cho biết đã thiết lập hợp tác với một số đối tác, bao gồm DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber và các đối tác khác, để đảm bảo Operator đáp ứng nhu cầu thực tế trong khi tuân thủ các quy định đã định.
Giới hạn của Operator
Tuy nhiên, theo chia sẻ của nhà sáng lập Greg Isenberg trên Twitter, Operator cũng có một số hạn chế. Ví dụ, nó không thể xử lý các nhiệm vụ liên quan đến thanh toán hoặc đăng nhập, có thể bị kẹt trong giao diện phức tạp, không thể xử lý CAPTCHA (mã xác minh), và số lần sử dụng mỗi ngày cũng có giới hạn. Ngoài ra, thời gian ra mắt tại khu vực châu Âu vẫn chưa được xác định, theo CEO của OpenAI Sam Altman, vẫn "cần một khoảng thời gian".
Nhìn về tương lai, Operator sẽ mở API để hỗ trợ các nhà phát triển, đồng thời tiếp tục tăng cường chức năng và mở rộng phạm vi người dùng, cuối cùng sẽ tích hợp tính năng này trực tiếp vào ChatGPT.



