Physical Intelligence 引进 MEMS 架构,为机器人提供执行现实世界任务所需的内存

本文为机器翻译
展示原文
Physical Intelligence 引进 MEMS 架构,为机器人提供完成现实世界任务所需的内存

多年来,真正能帮上忙的家用机器人的梦想似乎近在咫尺。机器人已经可以执行诸如「清洗煎锅」、「折衣服」或「做三明治」之类的指令。在实验室环境下,这些系统展现了令人印象深刻的灵巧性和精确度。然而,尽管机器人基础模型取得了快速发展,但一个根本性的功能却一直缺少:记忆。

能够执行单一任务的机器人与能够完成一项工作的机器人截然不同。清洁整个厨房、烹饪一顿饭或准备食谱所需的食材,需要的不仅仅是零散的技能,还需要连贯性——记住已经完成的工作、接下来需要完成的工作以及所有物品的位置。如果没有这种连贯性,即使是最强大的机器人也会变得出乎意料地无能。

物理智慧领域的研究人员现在正试图用一种名为多尺度具身记忆(MEM)的新架构来解决这一挑战——该系统旨在赋予机器人短期记忆和长期记忆,以便它们能够执行持续数分钟而不是数秒的任务。

研究结果暗示了一个重要的问题:机器人技术的未来可能更多地取决于更好的认知架构,而不是更好的机械手。

现代机器人已经拥有相当丰富的运动技能。它们可以抓取易碎物品、操作工具,并在杂乱的环境中穿梭。但如果让机器人打扫整个厨房——擦拭台面、收纳食品杂货、洗碗、整理餐具——它们的局限性就会很快显现出来。

问题不在于技能本身,而是如何协调这些技能。复杂的任务需要持续的感知能力。机器人必须记住它已经打开过哪些橱柜,锅盖放在哪里,或是否已经洗过碗碟。它还必须追踪移出视野的物体,并在执行新动作的同时保持对环境的感知。

人类认知能够毫不费力地做到这一点。而机器直到最近才开始具备这种能力。要储存机器人几分钟甚至几小时内观察到的每一个现象,在计算上是不可行的。但丢弃这些资讯会导致混乱的行为——重复犯错、遗忘步骤,或做出与先前决策相矛盾的行为。在机器人研究中,这种挑战有时被称为“因果混淆”,即系统错误地解读过去的事件并强化错误的行为。

结果:机器人虽然在简短的演示中看起来令人印象深刻,但在完成现实世界的任务时却举步维艰。

用于物理智能的记忆系统

MEM架构透过引入多层储存结构来解决这个问题。该系统并非将所有数据平均存储,而是将存储分为两种互补的形式:

短期视觉记忆利用高效的视讯编码架构捕捉近期的观察结果。这使得机器人能够理解运动、跨帧追踪物体,并记住几秒钟前发生的事件——这对于翻转烤起司三明治或清洗餐具等精确操作至关重要。

同时,长期概念记忆以自然语言储存任务进度。机器人不会无限期地记住原始视觉数据,而是会写下简短的文字「笔记」来描述发生的事情——例如「我把锅子放进了水槽」或「我从冰箱里拿出了牛奶」。

这些摘要会成为机器人推理过程的一部分。实际上,机器会建构出自己对任务的叙述。系统的推理引擎随后会同时决定两件事:下一步要执行什么操作以及哪些资讯值得记住。这种组合使得该模型能够追踪长达十五分钟的任务——远远超过以往大多数机器人演示的时间。

MEM技术最引人入胜的功能之一是情境适应。机器人会犯错,这是不可避免的。但大多数机器人系统会不断重复这些错误,因为它们没有失败记忆。

简单的实验就能明显看出差异。在一个测试中,机器人试图拿起一根扁平的筷子。如果没有记忆功能,机器人会重复尝试同样的抓取方式,但都失败了。启用记忆功能后,机器人会记住失败的尝试,并尝试不同的方法——最终成功。

另一个例子是打开冰箱门。仅凭视觉数据,机器人无法立即判断冰箱门该朝哪个方向打开。没有记忆功能的系统只会一遍又一遍地重复相同的动作。而有记忆功能的机器人会先尝试一个方向,记住失败的结果,然后再尝试另一边。

这些细微的调整蕴含著深刻的意义:也就是在任务过程中进行学习的能力。机器人不再完全依赖训练数据,而是能够即时调整。

研究人员对这套具备记忆功能的系统进行了评估,任务难度逐渐增加。首先是一个相对简单的挑战:制作烤起司三明治。这需要短期记忆来掌握时间,同时也要完成一些精细的物理步骤,例如翻面包和装盘。

接下来是后勤任务:为食谱取食材。机器人必须记住它已经收集了哪些物品,它们的位置,以及抽屉和橱柜是否已关好。最后,它迎来了最具挑战性的场景:清洁整个厨房。

这意味著要把物品放回原位,洗碗,擦拭台面,并记录房间里哪些部分已经清洁过了。

具有结构化记忆的模型明显优于没有结构化记忆的版本,表现出更高的可靠性和任务完成率。

这一差异体现了机器人技术的关键转变。研究人员现在不再优化孤立的动作,而是建立能够持续执行工作流程的系统。

为什么说记忆是机器人技术的下一个前沿领域?

MEM 的更广泛意义在于,机器人技术正步入一个新阶段。几十年来,该领域一直专注于感知和控制:帮助机器感知世界并操控物体。而近年来,大型多模态模型显著提升了机器人理解指令和执行复杂运动行为的能力。

但随著这些能力的成熟,瓶颈已经转移。下一个挑战是认知连续性——使机器人能够在长时间运行中保持目标一致性。像MEM这样的记忆系统为这种连续性提供了支撑。机器人不再是逐一做出反应,而是可以维护一个关于自身行为、决策和环境的内在叙事。正是这种叙事使得复杂的行为得以涌现。

如果这种方法继续发展下去,其影响将远远超出厨房清洁。未来的机器人可能需要遵循持续数小时甚至数天的指令。想像一下,你告诉智慧家居助理:

“我晚上6点到家——请做好晚饭,并在周三打扫房子。”

执行这样的请求需要解析冗长的指令、规划子任务、记住进度,并在出现问题时进行调整。

要长时间保存每次动作的原始视讯记录是不可能的。因此,机器人很可能会依赖层级式记忆系统,将经验压缩成越来越抽象的表征。

MEMS是迈向这种架构的早期步骤。它表明,提升机器人表现的关键可能不在于更强大的马达或更灵敏的感测器,而是更强大的记忆能力以及对记忆内容进行推理的能力。如果机器人最终能够记住它们正在做的事情,它们或许也最终能够完成任务。

文章《物理智慧引入MEMS架构,为机器人提供执行现实世界任务所需的记忆体》最初发表于元宇宙 Post

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论