OpenAI首款AI代理「Operator」来了!帮你购物、订票、叫外送…解决繁琐网路任务

AI 代理(agent)是今年 AI 产业和加密领域都十分重视的赛道。自去年 10 月底 Anthropic 的「Computer Use」:一个能像人类一样操作电脑介面的 AI 系统问世后,AI 代理的发展又展开更广泛的想像。

而在今日,生成式人工智慧(AI)龙头 OpenAI 也正式推出自己的首个 AI 代理「Operator」,成为 AI 社群的重磅话题。

Operator 功能与使用范围

据了解,Operator 是一个可以自主控制浏览器,为用户执行各种任务的 AI 代理。用户只需描述想要完成的任务,Operator 就可以处理剩下的工作,像是上 Booking.com 预订旅行和餐厅、上 UBER 订购杂货和外卖、表单填写、帮你搜集购物清单、创建迷因…可以同时处理多项任务(就像我们在浏览器开多个分页)。

此外,它还能记住用户的偏好和设定,提供更个性化的服务;用户也能随时介入操作,调整操作或终止任务。

除了功能的便利性外,Operator 同样重视用户的隐私安全。官方称用户可以删除所有浏览记录,并一键登出所有网站。同时,OpenAI 提供了隐私设定选项,用户可以选择关闭「改善模型」功能,避免其数据被用于模型训练。

Operator 目前是研究预览版,仅对美国地区的专业版用户开放(订阅费用为每月 200 美元),用户可以透过该网址 Operator.ChatGPT.com 访问。未来将扩展至 Plus、Teams 和 Enterprise 用户。

运作原理

Operator 基于名为「Computer-Using Agent (CUA)」的新模型运作。CUA 将 GPT-4o 的视觉处理能力与强化学习带来的高级推理结合起来,专门训练来与图形用户界面 (GUI) 互动,例如萤幕上的按钮、菜单和文字栏位。

透过截图,Operator 可以「看见」界面内容,并通过使用滑鼠和键盘的操作来「互动」,从而实现无需 API 整合的网页操作。

当遇到挑战或出错时,Operator 会运用推理能力进行自我修正;如果无法解决问题,则会将控制权交还给用户,确保操作流畅并能与用户协同完成任务。

OpenAI 表示,已经与一些合作伙伴建立合作,包括 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等,以确保 Operator 在遵守既定规范的同时满足实际需求。

Operator 限制

不过,据创业家 Greg Isenberg 分享,Operator 也有一些限制。例如它无法处理付款或登录相关的任务、可能会在复杂界面中卡住、对 CAPTCHAs(验证码)无能为力,且每天的使用次数有限。此外,欧洲地区的推出时间尚未确定,根据 OpenAI CEO Sam Altman 的说法,还「需要一段时间」。

展望未来,Operator 将开放 API,为开发者提供支持,同时持续增强功能并扩大用户覆盖范围,未来将把该功能直接整合进 ChatGPT。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
1
评论