Alireza Ghods的想法

01-28

本文为机器翻译

展示原文

以下是对视觉语言模型 (VLM) 和视频动作模型 (VAM) 之间区别的精彩分析。 VLM 和 VAM 功能强大，在感知、检索、搜索和语义理解方面表现出色。如果你想查找、分类或推断世界中的事物，VLM 无可匹敌。但物理人工智能在其他方面存在不足：运动、因果关系和动态性。这就是视频数据和世界模型发挥作用的地方。它们学习的是世界如何随时间演变，而不仅仅是物体的名称。未来并非只有 VLM 或世界模型，而是两者兼备。 VLM 用于理解和检索现实，世界模型用于模拟现实、测试现实并训练其中的智能体。不同的工具，不同的层面，但目标相同：打造真正能在现实世界中工作的机器。 twitter.com/AlirezaGhods2/stat...