以下是對視覺語言模型 (VLM) 和視頻動作模型 (VAM) 之間區別的精彩分析。 VLM 和 VAM 功能強大,在感知、檢索、搜索和語義理解方面表現出色。 如果你想查找、分類或推斷世界中的事物,VLM 無可匹敵。 但物理人工智能在其他方面存在不足:運動、因果關係和動態性。 這就是視頻數據和世界模型發揮作用的地方。 它們學習的是世界如何隨時間演變,而不僅僅是物體的名稱。 未來並非只有 VLM 或世界模型,而是兩者兼備。 VLM 用於理解和檢索現實,世界模型用於模擬現實、測試現實並訓練其中的智能體。 不同的工具,不同的層面,但目標相同:打造真正能在現實世界中工作的機器。 twitter.com/AlirezaGhods2/stat...
本文為機器翻譯
展示原文
來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享





