尽管人工智能备受关注,但即使是最先进的视觉语言模型——GPT-4o、Claude Sonnet 3.7和Gemini 2.5 Pro,也难以应对这个几十年的挑战:玩经典第一人称射击游戏毁灭战士。
周四,一个新的研究项目推出了VideoGameBench,这是一个人工智能基准测试,旨在测试最先进的视觉语言模型是否能仅凭屏幕上看到的内容来玩和击败20款流行视频游戏。
"根据我们的经验,当前最先进的视觉语言模型在玩视频游戏时严重受阻,因为推理延迟很高,"研究人员说。"当代理截取屏幕截图并询问视觉语言模型应该采取什么行动时,等到响应返回时,游戏状态已经发生了重大变化,行动不再相关。"
研究人员表示,他们使用经典的Game Boy和MS-DOS游戏,因为这些游戏的视觉效果简单,输入方式多样,如鼠标和键盘或游戏手柄,这比基于文本的游戏更能测试视觉语言模型的空间推理能力。
VideoGameBench由计算机科学家和人工智能研究员Alex Zhang开发。游戏套件包括魔兽争霸II、帝国时代和波斯王子等经典游戏。
据研究人员称,延迟响应在毁灭战士等第一人称射击游戏中最为棘手。在这些快节奏的环境中,屏幕截图中可见的敌人可能已经移动,甚至已经接近玩家,而模型尚未采取行动。
对于软件开发人员来说,毁灭战士长期以来一直是测试游戏环境中技术能力的试金石。割草机、比特币,甚至人体肠道细菌都以不同程度的成功对抗地狱恶魔。现在轮到人工智能了。
"让毁灭战士从90年代的阴影中走向现代光明的,不是其引人入胜的游戏性,而是其诱人的计算设计,"麻省理工学院生物技术研究员Lauren Ramlan此前对Decrypt表示。"建立在id Tech 1引擎上,该游戏的设计只需最基本的设置就可以玩。"
除了难以理解游戏环境外,这些模型often未能执行基本的游戏内操作。
"我们观察到代理经常难以理解其行动(如向右移动)在屏幕上的转换,"研究人员说。"我们测试的所有前沿模型中最一致的失败是无法可靠地控制文明和魔兽争霸II等游戏中的鼠标,而在这些游戏中,精确和频繁的鼠标移动至关重要。"
为了更好地了解当前人工智能系统的局限性,VideoGameBench强调了在动态且复杂的环境中评估其推理能力的重要性。
"与未解决的数学证明和奥林匹克级数学问题等极其复杂的领域不同,玩视频游戏并不是超人的推理任务,但模型仍然难以解决它们,"他们说。





