OpenAI首款AI代理「Operator」來了!幫你購物、訂票、叫外送…解決繁瑣網路任務

AI 代理(agent)是今年 AI 產業和加密領域都十分重視的賽道。自去年 10 月底 Anthropic 的「Computer Use」:一個能像人類一樣操作電腦介面的 AI 系統問世後,AI 代理的發展又展開更廣泛的想像。

而在今日,生成式人工智慧(AI)龍頭 OpenAI 也正式推出自己的首個 AI 代理「Operator」,成為 AI 社群的重磅話題。

Operator 功能與使用範圍

據了解,Operator 是一個可以自主控制瀏覽器,為用戶執行各種任務的 AI 代理。用戶只需描述想要完成的任務,Operator 就可以處理剩下的工作,像是上 Booking.com 預訂旅行和餐廳、上 UBER 訂購雜貨和外賣、表單填寫、幫你搜集購物清單、創建迷因…可以同時處理多項任務(就像我們在瀏覽器開多個分頁)。

此外,它還能記住用戶的偏好和設定,提供更個性化的服務;用戶也能隨時介入操作,調整操作或終止任務。

除了功能的便利性外,Operator 同樣重視用戶的隱私安全。官方稱用戶可以刪除所有瀏覽記錄,並一鍵登出所有網站。同時,OpenAI 提供了隱私設定選項,用戶可以選擇關閉「改善模型」功能,避免其數據被用於模型訓練。

Operator 目前是研究預覽版,僅對美國地區的專業版用戶開放(訂閱費用為每月 200 美元),用戶可以透過該網址 Operator.ChatGPT.com 訪問。未來將擴展至 Plus、Teams 和 Enterprise 用戶。

運作原理

Operator 基於名為「Computer-Using Agent (CUA)」的新模型運作。CUA 將 GPT-4o 的視覺處理能力與強化學習帶來的高級推理結合起來,專門訓練來與圖形用戶界面 (GUI) 互動,例如螢幕上的按鈕、菜單和文字欄位。

透過截圖,Operator 可以「看見」界面內容,並通過使用滑鼠和鍵盤的操作來「互動」,從而實現無需 API 整合的網頁操作。

當遇到挑戰或出錯時,Operator 會運用推理能力進行自我修正;如果無法解決問題,則會將控制權交還給用戶,確保操作流暢並能與用戶協同完成任務。

OpenAI 表示,已經與一些合作夥伴建立合作,包括 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等,以確保 Operator 在遵守既定規範的同時滿足實際需求。

Operator 限制

不過,據創業家 Greg Isenberg 分享,Operator 也有一些限制。例如它無法處理付款或登錄相關的任務、可能會在複雜界面中卡住、對 CAPTCHAs(驗證碼)無能為力,且每天的使用次數有限。此外,歐洲地區的推出時間尚未確定,根據 OpenAI CEO Sam Altman 的說法,還「需要一段時間」。

展望未來,Operator 將開放 API,為開發者提供支持,同時持續增強功能並擴大用戶覆蓋範圍,未來將把該功能直接整合進 ChatGPT。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
1
評論