谷歌机器人现在可以思考、搜索网络并自学新技巧

avatar
Decrypt
09-28
本文为机器翻译
展示原文

Google DeepMind 本周推出了两款人工智慧模型,旨在让机器人比以往更加智慧。升级后的Gemini Robotics 1.5 及其配套的Gemini Robotics-ER 1.5 不再专注于关注评论,而是让机器人能够思考问题、在互联网上搜索信息,并在不同的机器人代理之间传递技能。

谷歌表示,这些模型标志著“能够以智能和灵巧的方式应对物理世界的复杂性的基础性一步”

谷歌在公告中表示:“Gemini Robotics 1.5 标志著我们在解决物理世界中的通用人工智能 (AGI) 问题方面迈出了重要的一步。通过引入代理功能,我们正在超越那些对命令做出反应的模型,并创建能够真正推理、规划、主动使用工具和进行泛化的系统。”

「泛化」这个术语很重要,因为模型很难做到这一点。

由这些模型驱动的机器人现在可以执行各种任务,例如按颜色分类衣物、根据线上天气预报打包行李箱,或查看当地的垃圾回收规定以正确丢弃垃圾。现在,身为人类,你可能会说:「这又怎么样?」 但要做到这一点,机器需要一种名为泛化的能力——将知识应用于新情况的能力。

机器人——以及一般的演算法——通常都很难做到这一点。例如,如果你教一个模型折一条裤子,它就无法折一件T恤,除非工程师事先对每个步骤进行程式设计。

新模型改变了这一切。它们能够捕捉线索、解读环境、做出合理假设,并执行过去机器无法完成(或至少极为困难)的多步骤任务。

但「更好」并不意味著「完美」。例如,在一项实验中,团队向机器人展示了一组物品,并要求它们将它们扔进正确的垃圾桶。机器人利用摄影机识别每件物品,并在线上调取旧金山最新的回收指南,然后自动将它们放入理想的垃圾桶,就像当地人一样。

这个过程结合了线上搜寻、视觉感知和逐步规划,能够做出超越传统机器人的情境感知决策。记录的成功率在 20% 到 40% 之间;虽然不理想,但对于一个之前从未理解过这些细微差别的模型来说,这还是令人惊讶的。

谷歌如何将机器人变成超级机器人

两个模式分工协作。 Gemini Robotics-ER 1.5 就像大脑一样,负责确定需要做什么,并制定逐步计划。当它需要资讯时,Gemini Gemini 1.5,由后者负责实际的物理动作。

更从技术角度来说,新的Gemini Robotics 1.5 是一个视觉-语言-动作 (VLA) 模型,可以将视觉资讯和指令转化为运动命令,而新的Gemini Robotics-ER 1.5 是一个视觉-语言模型 (VLM),可以创建多步骤计划来完成任务。

例如,当机器人对衣物进行分类时,它会透过一系列思维链进行内部推理:理解「按颜色分类」意味著白色衣物放入一个分类箱,彩色衣物放入另一个分类箱,然后分解出拿起每件衣物所需的具体动作。机器人可以用简单的英语解释其推理过程,使其决策不再像黑盒子那么复杂。

Google执行长桑达尔·皮查伊(Sundar Pichai)对X专案发表了看法,他指出,新模型将使机器人能够更好地推理、提前规划、使用搜寻等数位工具,并将学习成果从一种机器人迁移到另一种机器人。他称这是Google「迈向真正有用的通用机器人的下一大步」。

全新Gemini Robotics 1.5 型号将使机器人能够更好地推理、提前规划、使用「搜寻」等数位工具,并将学习成果从一种机器人迁移到另一种机器人。我们朝著真正有用的通用机器人迈出了重要的一步——您可以看到机器人如何推理…pic.twitter.com/kw3HtbF6Dd

- Sundar Pichai (@sundarpichai) 2025 年 9 月 25 日

此次发布让谷歌与特斯拉、Figure AI 和波士顿动力等开发人员共同成为焦点,尽管每家公司采取了不同的方法。特斯拉专注于其工厂的大规模生产,马斯克承诺在 2026 年实现数千台量产。波士顿动力凭借其后空翻机器人 Atlas,持续突破机器人运动能力的极限。同时,谷歌则押注于能让机器人无需特定编程即可适应任何情况的人工智慧。

时机至关重要。美国机器人公司正在推动国家机器人战略,包括设立一个专注于推动该产业发展的联邦办公室,而中国正将人工智慧和智慧机器人列为国家重点发展方向。中国是全球最大的工厂和其他工业环境中机器人市场,根据总部位于德国的国际机器人联合会的数据,到2023年,中国将有约180万台机器人投入运作。

DeepMind 的方法不同于传统的机器人编程,传统的机器人编程需要工程师一丝不苟地写出每个动作的程式码。相反,这些模型透过演示进行学习,并能够随时调整。如果物体从机器人的手中滑落,或是有人在执行任务的过程中移动了某个物体,机器人就会毫不犹豫地进行调整。

这些模型建立在 DeepMind 3 月的早期研究成果之上,当时机器人只能处理诸如拉开袋子拉链或折叠纸张之类的单一任务。现在,它们正在处理许多对人类来说具有挑战性的任务,例如在查看天气预报后,为旅行打包合适的行李。

对于想要进行实验的开发者来说,有两种不同的可用性方案。 Gemini Robotics-ER 1.5 已于周四透过 Google AI Studio 中的Gemini API 发布,这意味著任何开发者都可以使用该推理模型进行建置。Gemini行动模式Gemini Robotics 1.5 则仅供「精选」(可能意味著「富有」)合作伙伴使用。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
47
收藏
17
评论