本文为机器翻译
展示原文

以下是对视觉语言模型 (VLM) 和视频动作模型 (VAM) 之间区别的精彩分析。 VLM 和 VAM 功能强大,在感知、检索、搜索和语义理解方面表现出色。 如果你想查找、分类或推断世界中的事物,VLM 无可匹敌。 但物理人工智能在其他方面存在不足:运动、因果关系和动态性。 这就是视频数据和世界模型发挥作用的地方。 它们学习的是世界如何随时间演变,而不仅仅是物体的名称。 未来并非只有 VLM 或世界模型,而是两者兼备。 VLM 用于理解和检索现实,世界模型用于模拟现实、测试现实并训练其中的智能体。 不同的工具,不同的层面,但目标相同:打造真正能在现实世界中工作的机器。 twitter.com/AlirezaGhods2/stat...

来自推特
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论