Yiannis Antoniou，Lab49：OpenAI Operator 开启浏览器 AI 代理时代

01-24

本文为机器翻译

展示原文

OpenAI发布了Operator,这是一款可以与网络浏览器无缝集成的工具,可以自主执行任务。从填写表格到订购杂货,Operator承诺通过直接与网站进行点击、输入和滚动来简化重复的在线活动。

Operator围绕一种名为计算机使用代理(CUA)的新模型而设计,结合了GPT-4o的视觉识别和先进的推理能力,使其能够充当虚拟的"浏览器中的人"。然而,尽管创新丰富,行业专家仍然认为还有改进的空间。

专业咨询公司Lab49的人工智能、数据和分析主管Yiannis Antoniou分享了他对Operator的重要性和在代理人工智能系统竞争格局中的定位的见解。

"OpenAI宣布推出Operator,这是其在代理人工智能战争中的最新尝试,既令人着迷又不完整,"拥有20多年为金融服务公司设计人工智能系统经验的Antoniou说。

"很明显,Operator受到了Anthropic Claude的计算机使用系统(于去年10月推出)的影响,通过消除对复杂基础设施的需求,并专注于一个熟悉的界面:浏览器,简化了体验。"

通过设计Operator在用户已经熟悉的环境网络浏览器中运行,OpenAI避免了对专门的API或集成的需求。

"通过利用世界上最流行的界面,OpenAI增强了用户体验,并立即引起了普通大众的兴趣。这种以浏览器为中心的方法为广泛采用创造了巨大的潜力,这是Anthropic尽管拥有先发优势,但一直难以实现的。"

与一些可能在应用中感到技术性或专业性的竞争系统不同,Operator的浏览器框架降低了进入门槛,是OpenAI民主化人工智能努力的一步。

Operator的一大特点是强调适应性和安全性,通过人工参与的协议来实现。Antoniou承认这些周到的可用性功能,但指出还需要更多工作。

"从架构上看,Operator的浏览器集成与Claude的系统非常相似。两者都涉及对用户浏览器的截图并发送进行分析,以及通过虚拟键盘和鼠标动作控制屏幕。然而,Operator引入了周到的可用性功能。

"像为特定网站定制指令这样的功能增加了个性化层面,而对未经授权的操作(如购买、发送电子邮件或申请工作)采取人工参与的安全保障,表明OpenAI意识到恶意网站带来的潜在安全风险,但要使这个系统在各种情况下都广泛安全,还需要更多工作。"

OpenAI为Operator实施了多层安全框架,包括安全输入模式、用户在重大操作前的确认以及检测对抗性行为的监控系统。此外,用户还可以直接在该工具中删除浏览数据和管理隐私设置。

然而,Antoniou强调,这些措施仍在不断发展,特别是当Operator遇到复杂或敏感的任务时。

Antoniou还认为,Operator的发布是消费者人工智能格局的一个关键时刻,尽管它仍处于早期阶段。

"总的来说,这是一个为普通用户构建代理系统的出色尝试,围绕他们与技术自然互动的方式设计。随着系统的发展,增加功能和更强大的安全控制,这个限量推出的200美元/月的定价将作为一个测试平台。

"一旦成熟并扩展到较低的订阅层和免费版本,Operator有望引领消费者代理的时代,进一步民主化人工智能,并融入日常生活。"

Operator最初针对专业用户以高价定位,为OpenAI提供了一个机会,可以从早期采用者那里学习并完善其功能。

Antoniou指出,虽然200美元/月可能还无法证明该系统对大多数用户的价值,但投资使Operator更强大和可访问,可能会为OpenAI带来长期的竞争优势。

"值200美元/月吗?也许还不值。但随着系统的发展,OpenAI的护城河将变得更深,使竞争对手更难追赶。现在,挑战又回到了Anthropic和谷歌身上,他们都在专业或面向工程师的产品中展示了类似的功能,需要做出回应并保持在游戏中,"他总结道。

随着OpenAI不断完善Operator,改变人们与技术互动方式的潜力变得显而易见。从与Instacart、DoorDash和Uber等公司的合作,到公共部门的使用案例,Operator旨在在创新与信任和安全之间取得平衡。

虽然目前的局限性和定价可能会阻碍广泛采用,但随着OpenAI致力于随时间提高可用性和可访问性,这些障碍可能只是暂时的。

想从行业领导者那里了解更多关于人工智能和大数据的知识吗?查看在阿姆斯特丹、加州和伦敦举办的人工智能&大数据博览会。这个全面的活动与其他领先的活动如智能自动化大会、BlockX、数字化转型周和网络安全&云计算博览会同时举办。

在这里探索由TechForge提供的其他即将到来的企业技术活动和网络研讨会链接。

本文最初发表于AI News。