Yiannis Antoniou, Phòng thí nghiệm49: Nhà điều hành OpenAI khởi động kỷ nguyên của các tác nhân AI trên trình duyệt

avatar
AI News
01-24
Bài viết này được dịch máy
Xem bản gốc

OpenAI đã giới thiệu Operator, một công cụ tích hợp một cách trơn tru với trình duyệt web để thực hiện các tác vụ một cách tự động. Từ việc điền vào các biểu mẫu đến đặt mua tạp hóa, Operator hứa hẹn sẽ đơn giản hóa các hoạt động trực tuyến lặp đi lặp lại bằng cách tương tác trực tiếp với các trang web thông qua các thao tác nhấp chuột, gõ phím và cuộn trang.

Được thiết kế xung quanh một mô hình mới được gọi là Computer-Using Agent (CUA), Operator kết hợp khả năng nhận dạng tầm nhìn của GPT-4o với các khả năng lập luận nâng cao - cho phép nó hoạt động như một "con người trong trình duyệt" ảo. Tuy nhiên, với tất cả những đổi mới của nó, các chuyên gia trong ngành vẫn thấy có chỗ để cải thiện.

Yiannis Antoniou, Trưởng phòng AI, Dữ liệu và Phân tích tại công ty tư vấn chuyên ngành Lab49, đã chia sẻ những hiểu biết của mình về ý nghĩa và vị trí của Operator trong bối cảnh cạnh tranh của các hệ thống AI đại diện.

AI đại diện thông qua một giao diện quen thuộc

"Thông báo của OpenAI về Operator, cuộc tiến công mới nhất của họ vào cuộc chiến AI đại diện, vừa hấp dẫn vừa chưa hoàn chỉnh," Antoniou, người có hơn 20 năm kinh nghiệm thiết kế hệ thống AI cho các công ty dịch vụ tài chính, cho biết.

Headshot of Yiannis Antoniou, Head of AI, Data, and Analytics at specialist consultancy Lab49, for an article on how OpenAI operator is kickstarting the era of browser AI agents.

"Rõ ràng chịu ảnh hưởng từ hệ thống Sử dụng Máy tính của Anthropic Claude, được giới thiệu vào tháng 10 năm ngoái, Operator đơn giản hóa trải nghiệm bằng cách loại bỏ nhu cầu về cơ sở hạ tầng phức tạp và tập trung vào một giao diện quen thuộc: trình duyệt web."

Bằng cách thiết kế Operator để hoạt động trong một môi trường mà người dùng đã hiểu, trình duyệt web, OpenAI tránh được nhu cầu về các API hoặc tích hợp riêng biệt.

"Bằng cách khai thác giao diện phổ biến nhất trên thế giới, OpenAI nâng cao trải nghiệm người dùng và thu hút sự quan tâm ngay lập tức từ công chúng nói chung. Cách tiếp cận này tập trung vào trình duyệt tạo ra tiềm năng lớn cho việc áp dụng rộng rãi, điều mà Anthropic - mặc dù có lợi thế tiên phong - đã gặp khó khăn trong việc đạt được."

Khác với một số hệ thống cạnh tranh có thể cảm thấy mang tính kỹ thuật hoặc chuyên ngành trong ứng dụng của chúng, khung cảnh tập trung vào trình duyệt của Operator làm giảm rào cản gia nhập và là một bước tiến trong nỗ lực của OpenAI nhằm dân chủ hóa AI.

Cách tiếp cận độc đáo về khả năng sử dụng và bảo mật

Một trong những đặc điểm nổi bật của Operator là sự nhấn mạnh vào khả năng thích ứng và bảo mật, được thực hiện thông qua các giao thức con người trong vòng lặp. Antoniou công nhận những tính năng sử dụng hữu ích này nhưng lưu ý rằng vẫn cần phải làm thêm nhiều việc.

"Về mặt kiến trúc, tích hợp trình duyệt của Operator gần như giống hệt với hệ thống của Claude. Cả hai đều liên quan đến việc chụp ảnh màn hình của trình duyệt người dùng và gửi chúng để phân tích, cũng như kiểm soát màn hình thông qua các thao tác gõ phím và di chuột ảo. Tuy nhiên, Operator giới thiệu những điểm chạm về khả năng sử dụng đáng chú ý.

"Các tính năng như hướng dẫn tùy chỉnh cho các trang web cụ thể thêm một lớp cá nhân hóa, và sự nhấn mạnh vào các biện pháp bảo vệ con người trong vòng lặp để ngăn chặn các hành động không được phép - như mua hàng, gửi email hoặc nộp đơn xin việc - cho thấy OpenAI nhận thức được các rủi ro bảo mật tiềm ẩn do các trang web độc hại gây ra, nhưng vẫn cần phải làm thêm nhiều việc để làm cho hệ thống này an toàn rộng rãi trong nhiều kịch bản khác nhau."

OpenAI đã triển khai một khuôn khổ an toàn đa lớp cho Operator, bao gồm chế độ chiếm quyền kiểm soát để nhập dữ liệu an toàn, xác nhận của người dùng trước các hành động đáng kể và các hệ thống giám sát để phát hiện hành vi độc hại. Hơn nữa, người dùng có thể xóa dữ liệu duyệt web và quản lý cài đặt quyền riêng tư trực tiếp trong công cụ.

Tuy nhiên, Antoniou nhấn mạnh rằng những biện pháp này vẫn đang trong quá trình phát triển - đặc biệt là khi Operator gặp phải các nhiệm vụ phức tạp hoặc nhạy cảm.

OpenAI Operator tiếp tục dân chủ hóa AI

Antoniou cũng thấy việc ra mắt Operator là một khoảnh khắc then chốt đối với bức tranh AI dành cho người tiêu dùng, mặc dù vẫn còn ở giai đoạn đầu.

"Nhìn chung, đây là một nỗ lực đầu tiên tuyệt vời trong việc xây dựng một hệ thống đại diện dành cho người dùng hàng ngày, được thiết kế xung quanh cách họ tự nhiên tương tác với công nghệ. Khi hệ thống này phát triển - với các khả năng bổ sung và các biện pểm kiểm soát bảo mật mạnh mẽ hơn - bản phát hành giới hạn này, với giá 200 USD/tháng, sẽ là một nền tảng thử nghiệm.

"Một khi đã hoàn thiện và mở rộng sang các gói đăng ký rẻ hơn và phiên bản miễn phí, Operator có tiềm năng để mở ra kỷ nguyên của các đại lý hướng đến người tiêu dùng, tiếp tục dân chủ hóa AI và nhúng nó vào cuộc sống hàng ngày."

Ban đầu được thiết kế dành cho người dùng Pro với mức giá cao, Operator cung cấp cho OpenAI cơ hội học hỏi từ những người sớm áp dụng và hoàn thiện các khả năng của nó.

Antoniou lưu ý rằng mặc dù 200 USD/tháng có thể chưa đủ để biện minh cho giá trị của hệ thống này đối với phần lớn người dùng, nhưng việc đầu tư để làm cho Operator mạnh mẽ và dễ tiếp cận hơn có thể dẫn đến những lợi thế cạnh tranh đáng kể cho OpenAI trong dài hạn.

"Nó có đáng 200 USD/tháng không? Có lẽ chưa. Nhưng khi hệ thống này phát triển, rào cản của OpenAI sẽ lớn dần, khiến cho các đối thủ cạnh tranh khó theo kịp. Bây giờ, thách thức quay trở lại với Anthropic và Google - cả hai đều đã chứng minh được các khả năng tương tự trong các sản phẩm chuyên ngành hoặc dành cho kỹ sư - để phản hồi và ở trong cuộc chơi," ông kết luận.

Khi OpenAI tiếp tục hoàn thiện Operator, tiềm năng để cách mạng hóa cách mọi người tương tác với công nghệ trở nên rõ ràng. Từ các hợp tác với các công ty như Instacart, DoorDash và Uber đến các trường hợp sử dụng trong khu vực công, Operator nhằm mục tiêu cân bằng giữa đổi mới và niềm tin, sự an toàn.

Trong khi những hạn chế và giá cả ban đầu có thể ngăn cản việc áp dụng rộng rãi trong thời gian này, những rào cản này có thể chỉ là tạm thời khi OpenAI cam kết nâng cao khả năng sử dụng và tính tiếp cận với thời gian.

Xem thêm: OpenAI tranh luận chống lại việc xóa dữ liệu ChatGPT tại tòa án Ấn Độ

Muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo trong ngành? Hãy kiểm tra AI & Big Data Expo diễn ra tại Amsterdam, California và London. Sự kiện toàn diện này được tổ chức đồng thời với các sự kiện hàng đầu khác bao gồm Intelligent Automation Conference, BlockX, Digital Transformation WeekCyber Security & Cloud Expo.

Khám phá các sự kiện công nghệ doanh nghiệp sắp tới và các webinar khác được cung cấp bởi TechForge tại đây.

Bài viết Yiannis Antoniou, Lab49: OpenAI Operator khởi động kỷ nguyên của các đại lý AI trình duyệt đã xuất hiện lần đầu trên AI News.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
2
Thêm vào Yêu thích
1
Bình luận