微软的免费人工智慧在网页浏览方面击败了 OpenAI 和谷歌

本文为机器翻译
展示原文

想象一下,你只需告诉电脑帮你查找度假租赁房源,比较五个网站,填写预订表格,然后确认离海滩最近的那间。你就可以去泡杯咖啡了。等你回来的时候,一切都已经搞定了。这就是“计算机使用代理”的魅力所在——人工智能可以读取你的浏览器屏幕,像真人一样点击、滚动和输入,而且无需任何特殊插件。

OpenAI率先尝试了这种模式,推出了Operator ,于2025年1月上线,每月收费200美元,之后被并入ChatGPT Agent,并于同年8月关闭。谷歌也有Gemini 2.5 Computer Use。两者都是专有的、基于云的,运行成本高昂。

本周,微软研究院发布了一款名为Fara1.5的微型模型——在重要的基准测试中,它击败了这两款模型。

该系列模型有三种规模:40亿、90亿和270亿参数,全部基于Qwen3.5构建,Qwen3.5是阿里巴巴的基础模型,微软针对浏览器环境进行了微调,所有权重均已公开。(参数决定了AI模型的知识广度,更广义地说,意味着更高的容量。)

要实现这一目标,需要从头开始重新思考整个开发流程。“我们最初提出了一个简单的问题:如何才能让一个小型模型真正擅长智能体任务?”AI Frontiers 团队写道。“答案涵盖了整个生命周期——数据生成、训练目标、模型设计和编排都必须协同重新设计,而不是孤立地进行。”

Online-Mind2Web 是微软希望在这项任务中取得卓越成就的关键基准。它测试人工智能代理在 136 个热门实时网站上正确完成 300 项不同的真实世界任务的频率,这些任务包括比较产品、填写表格和预订服务等,并以在实际不断变化的互联网环境中正确完成任务的百分比来衡量。

Fara1.5-27B 得分 72%。OpenAI Operator 得分 58.3%。谷歌的Gemini 2.5 Computer Use 得分 57.3%。作为最佳专有替代方案,Yutori 的 Navigator n1 得分 64.7%。即使是中等规模的 Fara1.5-9B,得分也达到了 63.4%,超过了 OpenAI 和谷歌。

开源竞争对手的表现也同样不尽如人意。阿里巴巴的 GUI-Owl-1.5 拥有 80 亿个参数,得分仅为 48.6%。AI2 的 MolmoWeb 得分为 35.3%。微软之前的 Fara-7B 得分为 34.1%——这意味着在参数量相近的情况下,新版本的得分几乎是前代的两倍。

在 WebVoyager 上,第二个衡量实时网络任务成功率的基准测试也取得了同样的成绩,Fara1.5-27B 达到了 88.6%,略高于 OpenAI Operator 的 87.0%,并击败了 H 公司拥有 300 亿参数的 Holo2 的 83.0%。

秘诀在于训练流程。微软使用名为 FaraGen1.5 的系统来生成训练数据。巧妙之处在于:他们使用 OpenAI 的 GPT-5.4 模型作为“教师代理”来演示如何完成浏览器任务。这些演示就成为了 Fara1.5 的训练数据。本质上,你是在用 OpenAI 最强大的模型来训练一个与之竞争的开源模型。

他们还创建了六个功能齐全的虚拟网站,这些网站模拟了真实的网站——包括电子邮件客户端、日历和电商平台——这样模型就可以在不接触真实账户的情况下练习需要登录或执行不可逆操作(例如实际发送电子邮件或预订机票)的任务。这被称为合成领域训练,也是 Fara1.5 比其前代版本更好地处理“门禁”任务的重要原因之一。

每个模型的设计初衷都是在执行无法撤销的操作之前停下来询问用户。“平衡诸如关键点之类的强大安全措施与流畅的用户体验至关重要,”微软研究院高级产品经理Yash Lara 告诉VentureBeat 。“拥有像微软研究院的Magentic-UI这样的用户界面至关重要,它能让用户在必要时进行干预,同时也有助于避免用户产生审批疲劳。”

这一点很重要,因为 OpenAI 在推出 ChatGPT Agent 时并没有隐瞒其中的风险。“当您将 ChatGPT Agent 登录到网站或启用连接器时,它将能够访问来自这些来源的敏感数据,例如电子邮件、文件或帐户信息,”该公司写道

Fara1.5 通过 MagenticLite 运行所有操作,这是一个沙盒浏览器环境,它会记录每个操作,并允许用户随时停止代理。

浏览器人工智能领域竞争激烈——谷歌的Gemini (Chrome浏览器)、Perplexity的Comet、Anthropic的Claude(Chrome浏览器)等都在竞争之列。Fara1.5的优势在于其开放性:公开权重、 GitHub上开源的推理代码,并且可以在用户控制的硬件上运行。Fara1.5-9B现已在Azure AI Foundry上线;4B和27B版本也将很快推出。微软表示,下一步计划将Fara1.5的应用范围扩展到浏览器之外的桌面和企业软件领域。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论