Yiannis Antoniou，Lab49：OpenAI Operator 開啟瀏覽器 AI 代理時代

01-24

本文為機器翻譯

展示原文

OpenAI釋出了Operator,這是一款可以與網路瀏覽器無縫整合的工具,可以自主執行任務。從填寫表格到訂購雜貨,Operator承諾透過直接與網站進行點選、輸入和滾動來簡化重複的線上活動。

Operator圍繞一種名為計算機使用代理(CUA)的新模型而設計,結合了GPT-4o的視覺識別和先進的推理能力,使其能夠充當虛擬的"瀏覽器中的人"。然而,儘管創新豐富,行業專家仍然認為還有改進的空間。

專業諮詢公司Lab49的人工智慧、資料和分析主管Yiannis Antoniou分享了他對Operator的重要性和在代理人工智慧系統競爭格局中的定位的見解。

"OpenAI宣佈推出Operator,這是其在代理人工智慧戰爭中的最新嘗試,既令人著迷又不完整,"擁有20多年為金融服務公司設計人工智慧系統經驗的Antoniou說。

"很明顯,Operator受到了Anthropic Claude的計算機使用系統(於去年10月推出)的影響,透過消除對複雜基礎設施的需求,並專注於一個熟悉的介面:瀏覽器,簡化了體驗。"

透過設計Operator在使用者已經熟悉的環境網路瀏覽器中執行,OpenAI避免了對專門的API或整合的需求。

"透過利用世界上最流行的介面,OpenAI增強了使用者體驗,並立即引起了普通大眾的興趣。這種以瀏覽器為中心的方法為廣泛採用創造了巨大的潛力,這是Anthropic儘管擁有先發優勢,但一直難以實現的。"

與一些可能在應用中感到技術性或專業性的競爭系統不同,Operator的瀏覽器框架降低了進入門檻,是OpenAI民主化人工智慧努力的一步。

Operator的一大特點是強調適應性和安全性,透過人工參與的協議來實現。Antoniou承認這些周到的可用性功能,但指出還需要更多工作。

"從架構上看,Operator的瀏覽器整合與Claude的系統非常相似。兩者都涉及對使用者瀏覽器的截圖併發送進行分析,以及透過虛擬鍵盤和滑鼠動作控制螢幕。然而,Operator引入了周到的可用性功能。

"像為特定網站定製指令這樣的功能增加了個性化層面,而對未經授權的操作(如購買、傳送電子郵件或申請工作)採取人工參與的安全保障,表明OpenAI意識到惡意網站帶來的潛在安全風險,但要使這個系統在各種情況下都廣泛安全,還需要更多工作。"

OpenAI為Operator實施了多層安全框架,包括安全輸入模式、使用者在重大操作前的確認以及檢測對抗性行為的監控系統。此外,使用者還可以直接在該工具中刪除瀏覽資料和管理隱私設定。

然而,Antoniou強調,這些措施仍在不斷發展,特別是當Operator遇到複雜或敏感的任務時。

Antoniou還認為,Operator的釋出是消費者人工智慧格局的一個關鍵時刻,儘管它仍處於早期階段。

"總的來說,這是一個為普通使用者構建代理系統的出色嘗試,圍繞他們與技術自然互動的方式設計。隨著系統的發展,增加功能和更強大的安全控制,這個限量推出的200美元/月的定價將作為一個測試平臺。

"一旦成熟並擴充套件到較低的訂閱層和免費版本,Operator有望引領消費者代理的時代,進一步民主化人工智慧,並融入日常生活。"

Operator最初針對專業使用者以高價定位,為OpenAI提供了一個機會,可以從早期採用者那裡學習並完善其功能。

Antoniou指出,雖然200美元/月可能還無法證明該系統對大多數使用者的價值,但投資使Operator更強大和可訪問,可能會為OpenAI帶來長期的競爭優勢。

"值200美元/月嗎?也許還不值。但隨著系統的發展,OpenAI的護城河將變得更深,使競爭對手更難追趕。現在,挑戰又回到了Anthropic和谷歌身上,他們都在專業或面向工程師的產品中展示了類似的功能,需要做出回應並保持在遊戲中,"他總結道。

隨著OpenAI不斷完善Operator,改變人們與技術互動方式的潛力變得顯而易見。從與Instacart、DoorDash和Uber等公司的合作,到公共部門的使用案例,Operator旨在在創新與信任和安全之間取得平衡。

雖然目前的侷限性和定價可能會阻礙廣泛採用,但隨著OpenAI致力於隨時間提高可用性和可訪問性,這些障礙可能只是暫時的。

想從行業領導者那裡瞭解更多關於人工智慧和大資料的知識嗎?檢視在阿姆斯特丹、加州和倫敦舉辦的人工智慧&大資料博覽會。這個全面的活動與其他領先的活動如智慧自動化大會、BlockX、數字化轉型周和網路安全&雲計算博覽會同時舉辦。

在這裡探索由TechForge提供的其他即將到來的企業技術活動和網路研討會連結。

本文最初發表於AI News。