微軟開源創新框架:可將DeepSeek-R1等模型變成AI Agent
Odaily星球日報訊 微軟在官網發佈了視覺 Agent 解析框架 OmniParser 最新版本 V2.0,可將 DeepSeek-R1、GPT-4o、Qwen-2.5VL 等模型,變成可在計算機使用的 AI Agent。與 V1 版本相比,V2 在檢測較小的可交互 UI 元素時準確率更高、推理速度更快,延遲降低了 60%。在高分辨率 Agent 基準測試 ScreenSpot Pro 中,V2+GPT-4o 的準確率達到了驚人的 39.6%,而 GPT-4o 原始準確率只有 0.8%,整體提升非常大。除了 V2,微軟還開源了 omnitool,這是一個基於 Docker 的 Windows 系統,涵蓋屏幕理解、定位、動作規劃和執行等功能,也是將大模型變成 Agent 的關鍵工具。(金十)
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享




