微軟的免費人工智慧在網頁瀏覽方面擊敗了 OpenAI 和谷歌

本文為機器翻譯
展示原文

想象一下,你只需告訴電腦幫你查找度假租賃房源,比較五個網站,填寫預訂表格,然後確認離海灘最近的那間。你就可以去泡杯咖啡了。等你回來的時候,一切都已經搞定了。這就是“計算機使用代理”的魅力所在——人工智能可以讀取你的瀏覽器屏幕,像真人一樣點擊、滾動和輸入,而且無需任何特殊插件。

OpenAI率先嚐試了這種模式,推出了Operator ,於2025年1月上線,每月收費200美元,之後被併入ChatGPT Agent,並於同年8月關閉。谷歌也有Gemini 2.5 Computer Use。兩者都是專有的、基於雲的,運行成本高昂。

本週,微軟研究院發佈了一款名為Fara1.5的微型模型——在重要的基準測試中,它擊敗了這兩款模型。

該系列模型有三種規模:40億、90億和270億參數,全部基於Qwen3.5構建,Qwen3.5是阿里巴巴的基礎模型,微軟針對瀏覽器環境進行了微調,所有權重均已公開。(參數決定了AI模型的知識廣度,更廣義地說,意味著更高的容量。)

要實現這一目標,需要從頭開始重新思考整個開發流程。“我們最初提出了一個簡單的問題:如何才能讓一個小型模型真正擅長智能體任務?”AI Frontiers 團隊寫道。“答案涵蓋了整個生命週期——數據生成、訓練目標、模型設計和編排都必須協同重新設計,而不是孤立地進行。”

Online-Mind2Web 是微軟希望在這項任務中取得卓越成就的關鍵基準。它測試人工智能代理在 136 個熱門實時網站上正確完成 300 項不同的真實世界任務的頻率,這些任務包括比較產品、填寫表格和預訂服務等,並以在實際不斷變化的互聯網環境中正確完成任務的百分比來衡量。

Fara1.5-27B 得分 72%。OpenAI Operator 得分 58.3%。谷歌的Gemini 2.5 Computer Use 得分 57.3%。作為最佳專有替代方案,Yutori 的 Navigator n1 得分 64.7%。即使是中等規模的 Fara1.5-9B,得分也達到了 63.4%,超過了 OpenAI 和谷歌。

開源競爭對手的表現也同樣不盡如人意。阿里巴巴的 GUI-Owl-1.5 擁有 80 億個參數,得分僅為 48.6%。AI2 的 MolmoWeb 得分為 35.3%。微軟之前的 Fara-7B 得分為 34.1%——這意味著在參數量相近的情況下,新版本的得分幾乎是前代的兩倍。

在 WebVoyager 上,第二個衡量實時網絡任務成功率的基準測試也取得了同樣的成績,Fara1.5-27B 達到了 88.6%,略高於 OpenAI Operator 的 87.0%,並擊敗了 H 公司擁有 300 億參數的 Holo2 的 83.0%。

秘訣在於訓練流程。微軟使用名為 FaraGen1.5 的系統來生成訓練數據。巧妙之處在於:他們使用 OpenAI 的 GPT-5.4 模型作為“教師代理”來演示如何完成瀏覽器任務。這些演示就成為了 Fara1.5 的訓練數據。本質上,你是在用 OpenAI 最強大的模型來訓練一個與之競爭的開源模型。

他們還創建了六個功能齊全的虛擬網站,這些網站模擬了真實的網站——包括電子郵件客戶端、日曆和電商平臺——這樣模型就可以在不接觸真實賬戶的情況下練習需要登錄或執行不可逆操作(例如實際發送電子郵件或預訂機票)的任務。這被稱為合成領域訓練,也是 Fara1.5 比其前代版本更好地處理“門禁”任務的重要原因之一。

每個模型的設計初衷都是在執行無法撤銷的操作之前停下來詢問用戶。“平衡諸如關鍵點之類的強大安全措施與流暢的用戶體驗至關重要,”微軟研究院高級產品經理Yash Lara 告訴VentureBeat 。“擁有像微軟研究院的Magentic-UI這樣的用戶界面至關重要,它能讓用戶在必要時進行干預,同時也有助於避免用戶產生審批疲勞。”

這一點很重要,因為 OpenAI 在推出 ChatGPT Agent 時並沒有隱瞞其中的風險。“當您將 ChatGPT Agent 登錄到網站或啟用連接器時,它將能夠訪問來自這些來源的敏感數據,例如電子郵件、文件或帳戶信息,”該公司寫道

Fara1.5 通過 MagenticLite 運行所有操作,這是一個沙盒瀏覽器環境,它會記錄每個操作,並允許用戶隨時停止代理。

瀏覽器人工智能領域競爭激烈——谷歌的Gemini (Chrome瀏覽器)、Perplexity的Comet、Anthropic的Claude(Chrome瀏覽器)等都在競爭之列。Fara1.5的優勢在於其開放性:公開權重、 GitHub上開源的推理代碼,並且可以在用戶控制的硬件上運行。Fara1.5-9B現已在Azure AI Foundry上線;4B和27B版本也將很快推出。微軟表示,下一步計劃將Fara1.5的應用範圍擴展到瀏覽器之外的桌面和企業軟件領域。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論