欢迎第1,179 位新加入“不无聊”社群的成员阅读我们的最新文章!加入我们,与256,826 位聪明好学的读者一起订阅吧!
嗨,朋友们👋,
星期四快乐!我很高兴为大家带来世界上第一篇不枯燥的合作文章(合作文章?这里需要点什么),这篇文章是我和我的朋友、 Standard Bots的联合创始人兼首席执行官Evan Beard共同撰写的。
埃文是启动这个项目的最佳人选。
我认识埃文大约20年了,这真是不可思议。我们一起上杜克大学,一起在校园里唯一一家正规的创业公司工作(这家公司现在还在!),甚至还一起赢得了雷曼兄弟案例竞赛(这让我们有机会在雷曼兄弟倒闭前去那里面试)。
毕业后,埃文直接投身科技行业。他曾是YC早期创业营的一员,那时YC规模还很小。他和阿什顿·库彻一起创办了一家公司。我对科技行业一直很感兴趣,也一直很喜欢和埃文聊天,所以我们会在同学聚会上碰面,然后各自发展。2023年9月,一位共同的朋友给我发邮件说:“有一家公司你应该关注一下,叫Standard Bots 。”我查了一下,结果发现,这家公司竟然是埃文·比尔德创立的!
自从重新联系上后,埃文成了少数几个我会问他一些关于机器人的傻问题的人之一。他曾在美国国会就机器人技术作证。去年,他还在英伟达的GTC大会主舞台上发表了演讲。他甚至还在A24出品的电影《宝贝女孩》中与妮可·基德曼一起参与了机器人数据采集的拍摄!埃文对机器人了如指掌。
这些问题真是愚蠢至极!机器人这个领域一直让我感到畏惧。随着估值飙升,我基本上避免撰写或投资机器人相关内容,因为我对自己在这个领域的了解还不够自信,不敢妄下断言。
这正是这些合作撰写的文章的意义所在!
埃文毕生致力于实现他关于如何打造一家机器人公司的特定信念。他采取了一种与该领域那些更受追捧的公司不同的策略¹ ,这种策略就像一个俄罗斯套娃,中间藏着一个超级模特——外表并不十分吸引人,但随着你一层层剥开,它变得越来越性感,直到你看到中心,你会惊叹:“哇!”
所以,不妨放点机器人摇滚乐……
让我们开始吧。
今天的“不无聊”节目由…… Framer赞助播出
Framer赋予设计师超能力。
Framer是一款以设计为先、无需代码的网站搭建工具,让任何人都能在几分钟内搭建出一个可用于生产环境的网站。无论您是从模板还是空白画布开始,Framer 都能让您完全掌控创作过程,无需任何编码。您可以添加动画、一键本地化,并与整个团队实时协作。您甚至可以使用内置分析功能进行 A/B 测试和点击追踪。
Framer现推出首月免费试用 cossays 的服务,让您亲身体验我们的产品。无需聘请开发人员,即可使用 Framer 构建属于您自己的线上世界,以此表达您对Framer的感谢。
访问 Framer.com 即可免费启动。使用优惠码 NOTBORING 即可免费体验 Framer Pro 一个月。
机器人迈出许多小步,人类迈出一大步
与埃文·比尔德合著的文章
我的行业普遍认为,机器人技术的价值将会得到巨大飞跃式的释放。
意思是:机器人现在还没什么用,但是如果投入足够的GPU、模型、数据和博士来解决这个问题,你就会跨越某个门槛,跨过这个门槛,你就会遇到可以走进任何房间并执行任何指令的机器人。
无论从金钱价值还是智商分数来看,这都是主流观点。我称之为“巨跃式”观点。
持有这些信念的人们所取得的进步令人振奋。在网上,你可以看到机器人行走、 后空翻、跳舞、拆箱、做饭、叠衣服、 洗碗的视频。这简直就是《杰森一家》里的场景。机器人时代的胜利似乎指日可待。胜利的彼岸,是财富、力量和富足。
因此,秉持这种理念的公司,无论是制造模型还是完整的机器人,都获得了过去几年机器人领域数十亿美元风险投资中的绝大部分。这还不包括特斯拉从自身资产负债表中投入到其人形机器人Optimus研发中的资金。
只有当你开始在实验室外部署机器人时,另一件事才会变得显而易见:机器人技术的进步并非取决于单一的突破。没有任何一项基础性创新能够突然间实现世界自动化。
我们终将实现世界的自动化。但我认为,进步将通过克服变异性的梯度来实现。
将这些变量相乘,其范围可能非常巨大² 。这是因为现实生活中人类工作的范畴极其复杂。一个简单的检验方法是:一个人不可能胜任所有的人类工作。
大多数实际工作并非完全重复,但也并非完全没有尽头。它们有结构、有限制,也存在不可避免的变化,这令弗雷德里克·温斯洛·泰勒、亨利·福特以及此后无数的实业家都感到懊恼。不同的零件、略微变形的盒子、不均匀的照明、磨损的灯具,还有附近做着不可预测之事的人们。
机器人也是如此。
一方面,你可以进行运动回放。机器人每次都以相同的方式从 A 点移动到 B 点。无需任何智能。目前绝大多数工业机器人都是这样工作的。你保存一个位置,然后再保存另一个,再保存下一个,机器人就会永远沿着这条路径行进。这就像 Excel 中的“录制宏”功能。只要没有任何变化,它就能完美运行。
另一个极端是像麦当劳员工那样的场景。每三分钟就要换一个岗位:先做汉堡,再炸薯条,然后收银,最后打扫卫生。任务完全不同,顺序不可预测,还要与人互动,环境混乱。通用物理智能的梦想是制造出一种机器人,它能够走进这样的环境,然后……开始工作。
自动化是极端,自主性是极端。几乎所有具有经济价值的工作都介于这两个极端之间。
从自动化到麦当劳机器人能够完全取代工人,这中间蕴藏着数量惊人的工作岗位。
我认为,正是通过在这一领域迈出这些小步,我们今天才能释放巨大的经济价值。
这就是我的公司Standard Bots所押注的。
Standard Bots 是一家生产原生 AI 机器人的垂直整合型公司。我们目前专注于制造业和物流行业的客户。我们为客户构建了一套完整的解决方案,用于训练机器人 AI 模型,涵盖数据收集、审核和标注,以及模型训练和部署。而且,我们致力于让这些工具易于使用,即使是普通的制造工人也能轻松上手。
在充斥着各种不切实际的“登月计划”的市场中,我们的策略或许显得保守。即便目前营收达到数千万美元,与未来那数万亿美元、足以带来无限财富的终极目标相比,也显得微不足道。
并非如此。
我们今天正在打造一家真正的企业,因为我们相信这是最有可能让我们首先实现富足的最终状态的方式。
两种策略:大跃进还是小步走
如果你相信在某个阈值之外蕴藏着大量极具经济价值的任务,那么最佳策略就是直奔目标。让你的团队在实验室里埋头苦干。扩展模型。扩展计算资源。不要被那些可能拖慢你进度的部署工作分散注意力。大胆尝试。
如果您和我们一样相信,经济上有价值的工作种类繁多,其中许多工作现在都可以由机器人完成,那么最好的办法就是尽早让机器人投入使用并开始工作。
每次部署都能让你了解自己在模型发展过程中所处的位置。成功表明模型稳定,失败表明模型存在问题,两者都会告诉你下一步应该着手修复哪些方面。你需要不断迭代,一步一步来。
在顶尖的法学硕士(LLM)实验室中,数据为王的理念已被广泛接受。最佳的数据策略是循序渐进地构建数据体系,每次只针对一个用例。你并不需要“更多”的数据。你真正需要的是多样性(3) 、政策契合度(4)和课程设置(5) 。迭代式地构建数据体系是针对任何给定的资金预算,优化这三个维度优质数据的策略。在你的机器人上进行实际部署可以确保政策契合度(这是其他任何方法都无法实现的),市场可以智能地筛选课程,而这两者都能提供丰富且具有经济意义的多样性。
多年的部署经验让我们吸取了这一教训。
每当机器人技术发展到涵盖自动化和自主性之间的其他工作领域时,它也会催生出另一类工作岗位、另一类客户群体、另一部分市场份额。一步一个脚印地来。
以拧螺丝为例。使用端到端人工智能来寻找螺丝或螺栓,远比尝试将所有部件精确地放置在预先设定的固定位置要容易得多。对于学习系统而言,搜索和反馈的成本很低。我们的机器人可以移动螺丝刀,直到感觉它位于正确的位置。它会轻轻晃动螺丝刀,感受它何时落入槽中。如果滑脱,它会进行调整。当我们的机器人掌握了如何拧螺丝后,它就能解锁一系列与拧螺丝相关的任务。然后我们开始执行这些任务,并学习每项任务的具体细节。
我们边做边学,随着时间的推移不断进步。很多机器人并不完美,但它们仍然有用。机器人要发挥作用并没有什么神奇的门槛需要跨越。
那不是我们的假设,而是市场告诉我们的。
工业机器人市场规模庞大且发展成熟。全球领先的机械臂制造商发那科(FANUC)年收入约为60亿美元。ABB 的机器人部门在2024年的收入也达到了24亿美元。2015年被泰瑞达(Teradyne)收购的优傲机器人(Universal Robots)年收入也高达数亿美元。
这些系统虽然能用,但适用范围非常有限。公司要花数周时间才能完成集成。团队要聘请专家来编写那些脆弱的运动序列。一旦任务发生变化,这些专家还得再次付费,重新编写整个程序。机器人一遍又一遍地重复着相同的动作,而且只有在环境完全不变的情况下才能正常工作。
尽管存在种种摩擦,顾客依然持续购买这些机器人!这就是市场的声音。即使是有限且缺乏灵活性的自动化也能创造足够的价值,从而催生出整个产业。低变异性的自动化领域已经支撑了数十亿美元的业务。
在机器学习领域,进步很少来自一次性的飞跃。它源于梯度上升:在环境反馈的指导下,不断进行小幅、持续的改进。
我们的计划并非直接从实验室演示跳到通用智能机器人。相反,我们的计划是逐步适应现实世界的变化,并尽可能全面地把握其特性。
客户很满意,因为我们的技术部署起来比传统自动化更容易,调整起来也更便宜。虽然我们还没有能够自动化任何任务的通用智能 AI 模型,但我们已经能够以其他任何机器人公司都无法企及的可变性水平来自动化工作。
如今,我们通过在现场部署机器人来收集数据,从而获得报酬,这些数据对于改进我们的模型至关重要。这其中就包括最有价值的数据:机器人发生故障时的干预数据。
当我们发现新的极端情况时,我们可以对整个可变机器人系统进行迭代。这是因为我们实现了完全垂直整合,涵盖了数据采集、模型、固件和物理机械臂。
我们的计划是靠“吞噬频谱”来赚钱。在此过程中,我们计划收集其他人无法获取的数据。然后,我们将利用这些专为我们的机器人量身定制的数据,快速迭代整个系统,从而在那些采取大步快跑策略之前,实现普遍的经济效益。
我们的赌注背后有很多背景信息。首先也是最重要的一点是,你需要明白机器人技术发展受制于数据。
机器人技术面临数据瓶颈
只要我们拥有大量有效数据,机器人就能很好地自主工作。例如,如下面的视频所示,它们可以切割植物片段并重新种植以进行克隆。
这有点反直觉,因为这几乎与大型语言模型(LLM)面临的挑战截然相反。像你我这样的普通AI用户体验到的是,模型不断改进,LLM会自动掌握更多知识。
但LLM(学习逻辑模型)相对来说比较容易。整个互联网本身就是一个现成的训练语料库。互联网上的信息量远超你的想象。你向LLM提出的任何问题,互联网上可能都已经有人问过并回答过了。难点在于构建能够从所有这些信息中学习的架构。
机器人技术面临的问题恰恰相反。
这些架构基本已经存在。过去几年,随着大型语言模型中的关键理念被应用于物理系统,机器人学习领域取得了真正的突破。例如,丰田研究院的扩散策略表明,将机器人控制策略视为生成模型可以显著提高机器人学习灵巧操作技能的速度。这种方法的巧妙之处在于,它借鉴了主要用于图像生成的架构,该架构中的模型通过迭代的方式学习去除噪声,如下面的GIF动画所示……
……然后,他们却将其应用于生成机器人夹爪的路径。一个在某个领域行之有效的方法,应用到另一个领域后,结果出乎意料的好——效果相当不错。
开启这一新时代的进步并非一蹴而就,而是点滴积累的结果。例如,研究人员称之为“动作分块”的技术,它让模型预测未来需要移动的一系列点,而不仅仅是一个点。这极大地提升了性能和流畅度。
视觉-语言-动作模型(例如RT-2)将网络规模的语义理解与机器人数据相结合,将高级指令转化为物理动作。ALOHA Unleashed等系统表明,基于 Transformer 的模仿学习能够使真实机器人通过观看演示来处理复杂的多阶段任务,例如系鞋带和分类物品。而新兴的基于扩散的基础模型(例如RDT-1B)则表明,在大规模、多样化的机器人数据集上进行训练能够实现跨实例的零样本泛化和少样本学习。
但这些论文也都发现了类似的现象。要想让这些卓越的创新以合理的成功率实现,你需要特定机器人执行特定任务、在特定环境下运行的数据。
如果你训练一个机器人叠衬衫,然后让它叠一件衬衫,它能成功。把衬衫放在不同的环境、不同的桌子上、不同的光线下,它依然能成功。这个模型已经学会了在“叠衬衫”这个范围内进行泛化。但是,如果你让它挂外套、叠毛巾,或者做任何与叠衬衫截然不同的事情,它就失败了。它并不笨,只是从未见过有人做过这些事。
机器人可以在其训练分布范围内进行插值,但在分布范围之外则难以处理。线性逻辑模型(LLM)也是如此。只不过它们的训练数据集非常庞大,以至于分布范围之外的数据已经很少了。
这个问题不太可能通过增加计算能力或改进算法来解决。这是这些模型工作原理的一个根本特性:它们需要你希望它们做的事情的示例。
另一种方法是拍摄人们做你希望机器人做的所有事情的视频。研究表明,这里存在生命迹象。
例如,Skild 已经证明,机器人可以通过视频学习如何完成几项常见的家务,每项任务只需要一小时的机器人数据。
这是一个令人振奋的进展,在此基础上,就在本周,Skild宣布完成由软银领投的 14 亿美元 C 轮融资,公司估值超过 140 亿美元。
最终,通用视频或许能提升模型的初始性能。但即便对于简单的家庭取放任务(工业任务则需要更多数据),最终策略的制定仍然需要机器人自身的数据。首先,机器人需要三维数据,包括扭矩和力,而且这些数据需要随时间变化。它们几乎需要“感知”运动。视频无法提供这些数据,文本更是如此。
这有点像读很多书更容易写出一本好书,但看很多高尔夫视频对实际打高尔夫并没有多大帮助。
如果我想学打高尔夫,我就需要真正走出去,用身体挥杆。同样地,
收集数据的最佳方法是使用硬件。为此,有许多不同的收集方法:领航-跟随机械臂、带有传感器的手持设备、手套和可穿戴设备、虚拟现实和远程操作,以及直接操作,即实际移动机械臂并抓取物体。
这些方法都可行,各有优缺点。我们通常会结合使用多种方法。
但我们还是继续用高尔夫球来打比方吧。用任何人体练习都比看视频好,但用自己的身体练习才是最好的。因为那才是我真正要用的身体。
同样,即使是来自其他机器人的数据,其价值也远不及来自自身硬件的数据。如果你的数据和硬件不匹配,你需要的数据量将是原来的100倍甚至1000倍。如果我想改进我的机器人,但我没有自己的机器人,我可以使用类似的机器人来观察其活动。但要想有效,我需要大量的类似机器人。
这是通用机器人模型面临的众多挑战之一。
真正实现巨大飞跃需要什么
针对我迄今为止以及接下来要提出的所有论点,最明显的反驳论点是:虽然巨跃模型目前尚未在现实世界中得到应用,但随着实验室不断取得突破,它们无疑会实现这一目标。魔法的匮乏可不是什么好事!
尽管在这个领域投入了巨额资金,但令人惊讶的是,公众对“巨跃”方法的实际含义却鲜有深入思考。
他们下的是什么赌注或哪组赌注?我们应该如何看待这些赌注?
Standard Bots 采取的方法很艰难。它常常进展缓慢,令人沮丧。从外部来看,存在着巨大的风险:我们付出了所有这些努力,结果有一天醒来,却发现某个大型实验室已经……破解了难题。但我对我们的方法充满信心,因为我认为“巨跃”式的思维方式无法带来真正意义上的突破,我想解释一下原因。
可以肯定的是,你会在机器人推特上继续看到越来越神奇的推销信息:
“我们可以用YouTube视频进行训练。不需要机器人数据!”
“我们可以通过模拟生成缺失的数据!”
“我们正在打造一个世界级的典范。零失败机器人技术势在必行!”
其中一些观点甚至方向正确。很多热议背后确实存在着实实在在的进展。但同时,噪音也很多。
再说一遍,我的观点带有偏见。但我同时也投入了时间和金钱来支持这种偏见。所以,以下是我对目前情况的看法——谷歌、物理智能(Pi 或 π)和 Skild 在实验室里为了实现真正的飞跃,究竟在做什么——从(别说出来,别说出来)第一性原理出发。
模型迈出第一步
许多现代机器人和人工智能浪潮都是以同样的方式开始的:预先训练感知能力,从零开始学习动作。也就是说,先教机器人如何感知,然后让它通过感知来学习。
以丰田研究院的扩散策略为例。视觉编码器(将像素转换成模型可用信息的部分)使用互联网规模的图像进行预训练,但动作模型最初基本上是空的。
从“空白”状态开始……并不理想,因为该模型尚未具备研究人员所说的感知-行动基础。它还没有学会所见与所作所为之间的紧密联系:
在相机空间中“向左移动”应该意味着在现实世界中向左移动。
用两根手指夹住杯子的把手或杯沿,但不能像蹒跚学步的孩子用叉子喝汤那样戳杯子的中心。
接触是物理学,而非简单的几何学。当你与世界互动时,世界会发生改变。
这个适应阶段基本上就是幼儿阶段:我看到这个世界,我努力探索这个世界,有时我会成功,但大多数时候我会失败。
但大多数认真负责的团队都能在几天内收集到足够的机器人数据,从而奠定基本基础。目前为止,一切顺利。
如何训练机器人
假设你想训练一个机器人完成一项任务。你需要这样做:
1. 获取数据
2. 训练模型
3. 评估和持续改进
获取数据:您可以在实验室、现实世界、模拟环境中进行远程操作,也可以从互联网或生成的视频中学习。每种方法都有其自身的优缺点,机器人公司花费大量时间思考和试验这些优缺点。
训练模型:您打算从零开始构建模型,还是依赖预训练模型进行引导?如果您要构建的模型规模较小,从零开始训练会更容易。大型模型通常包含完整的训练流程和流程,包括预训练、训练中期和训练后阶段。预训练教会机器人关于世界运行规律的基础知识(一般物理、运动、光照)。训练后则赋予模型特定的功能。
在语言学习模型(LLM)领域,预训练教会模型词语在训练分布中的关系,即学习它们的潜在表征。后训练(例如使用 instructGPT、RLHF 和 Codex)则使模型能够部署到聊天代理或代码编写等应用场景。后训练还可以通过强化学习(RL)优化轨迹,从而提高机器人的速度、成本和准确性。事实上,LLM 领域中许多关于强化学习的讨论最初都源于机器人特定任务策略。
听起来都很棒,但你仍然需要数据。关键问题是:如何获取数据?
视频梦想(及其局限性)
巨跃者提出了两大解决方案,以证明他们将如何获得所需的数据。
第一种是现有的全互联网视频。
模型显然从视频中学到了一些东西:物体的永久性、粗略的几何形状、潜在的物理结构,以及能够幻觉出它们从未见过的物体的背面(这要么非常酷,要么非常令人不安,取决于你与现实的关系)。
所以为什么不先看看 YouTube,了解世界,然后再……从事机器人研究呢?
首先思考一下:人类能从观看视频中学到什么?又有哪些东西是他们学不到的?
视频有很多用途:
轨迹和顺序:视频非常擅长展示运动弧线和动作步骤的顺序。
可供性与目标:你观察别人转动旋钮,就会明白旋钮是用来转动的,开关是用来按下的。
时机和节奏:时机对于运动、集结或任何本质上属于编排范畴的活动都至关重要。视频也包含时机信息。
如果你正在学习抓握,视频可以向你展示:伸手→向下→并拢手指→抬起。
它还可以显示工具的使用情况:杯子的倾斜角度、锤子的挥动方式,以及人们通过滑动物体而不是抬起物体来“作弊”的方式。
但视频无法承载某些类型的数据:质量、力、顺应性、摩擦力、刚度、接触动力学。
人类有时可以通过视觉推断出其中一些信息,但这仅仅是因为我们依靠的是毕生积累的切身经验。机器人则没有这种先验经验。
研究人员迈克尔·卡达斯和埃德·奥布莱恩对超过2200名参与者进行了实验,研究人们观看教学视频学习诸如太空步、杂耍和飞镖等体育技能时的反应。结果令人震惊:
随着人们观看视频数量的增加,他们的自信心急剧上升。与此同时,他们的实际表现几乎没有变化,甚至有所下降。
这就是体验上的差距。视频告诉你该怎么做,但不会告诉你做起来是什么感觉。你可以看别人跳太空步一整天,但你仍然感受不到地板是如何摩擦你的鞋子的,有多少压力传递到你的脚趾,以及如何在不摔倒的情况下控制力度。
机器人的处境比人类更糟。至少我们人类还有先验知识,而机器人只有传感器和数学能力。
如果你不仔细观察,看起来好像给机器人播放网络视频真的奏效了。
仔细观看Skild的“边看边学”演示。只有最简单的任务才需要“一小时的人类数据”。更精彩的演示则隐藏在视频中间,没有这个标签。而且这些视频并非随意从YouTube上下载的,而是精心收集的、由头戴式摄像头拍摄的第一视角视频。这样做真的比直接使用机器人容易得多吗?
简而言之,视频不足以满足需求的原因主要有三点:
报道范围:互联网视频无法报道工业环境中那种怪异、受限、对抗性的现实。
数据效率:仅从视频中学习通常需要比从机器人收集的数据中学习多几个数量级的数据,因为如果没有具身感知,从像素到动作的映射就缺乏约束。
缺失的力:两个表面看起来可能完全相同,但其运动方式却截然不同。视频无法区分摩擦力。机器人用一种有趣的方式发现了这一点。
然后,你仍然会遇到转换问题:人手不是机器人夹爪,运动学不同,比例不同,柔顺性不同,除非你用你将要部署的确切末端执行器进行训练,否则就会出现系统误差。
这就是为什么很多公司最终悄悄地回归远程操作的原因。
人类视频对预训练很有用。但基础薄弱的数据会带来真正的代价:你可以努力攀登高峰,也可以长时间原地打转,然后称之为进步。
好吧,看来YouTube上的视频用处不大。那模拟呢?
世界模式适用和不适用的方面
仿真和强化学习是另一大希望。如果机器人能够在模拟真实世界物理环境的仿真环境中进行自主训练,那么训练出的策略应该可以迁移到现实世界的真实机器人身上。公平地说,仿真技术目前在某些方面确实非常出色,尤其是在刚体动力学方面。
英伟达一直在大力推进这项技术在移动方面的应用。迪士尼的作品(在詹森于2025年GTC大会上的主题演讲中有所展示)展现了将优秀的物理引擎与良好的控制相结合所能产生的奇妙效果:在模拟器中,人形机器人能够行走、翻滚、恢复(动作优美流畅)。
成功可归结为两个要素:
物理特性易于处理:模拟器可以处理刚体、接触和重力场。您可以随机化地形、生成障碍物,并训练出稳健的行走策略,而无需接触真实世界。
目标很明确:强化学习需要奖励。
对于步行而言,回报显而易见:行进距离、稳定性、能量消耗、速度。
对于动画来说,这甚至更简单:匹配参考动作而不会出错。
因此,运动学是机器学习的理想领域,因为它满足了三个条件:你可以模拟物理过程、衡量目标,并且在出现问题时可以免费重置。
然后,人们试图从步行推断到工厂工作,结果一切都失败了。
当你在现实世界中做实际的事情时,物理学就会变得复杂。实际任务涉及软材料、变形包装、流体、电缆布线、与磨损相关的摩擦、严格的公差以及以接触为主的结果。
你可以模拟其中的一部分,但要全面而精确地实现,则需要耗费大量精力进行手工操作。而且,你仍然无法模拟生产环境中遇到的各种极端情况。所以,还不如直接做实际的。
在实际任务中,奖励变得脆弱不堪,甚至难以捉摸。“做个三明治”并非一个可量化的任务。即使是“把这个零件放好”也充满了各种限制:不能撕破,不能洒出来,要对齐,滑落时要找回,不能卡住,不能刮花表面,不能做那些在模拟环境中有效但在现实生活中会损坏机器的事情。
Waymo 就是一个很好的例子。Waymo 如今大量运用模拟技术,但早在世界模型出现之前,人类驾驶汽车的真实世界数据收集就已经开始了。你还记得在 Waymo 首次进行自动驾驶之前,谷歌的员工驾驶着那些看起来有点傻的汽车四处收集数据,耗费了多少时间吗?正如该公司在最近的一篇博文中写道:“这种海量的真实世界全自动驾驶经验是无可替代的——无论进行多少模拟、手动驾驶数据收集,或者由测试驾驶员进行操作,都无法复制 Waymo Driver 在完全自主驾驶时所遇到的各种情况和反应。 ”
你需要先在现实世界中收集这些数据,然后在模拟环境中重现并放大它们。这就是你如何获得最后几个“9”的方法。
还有重置。重新开始需要付出什么。
在模拟环境中,重置是免费的。但在现实中,重置需要付出劳动。行走是个例外,因为重置只需“重新站起来”,但如果你想让机器人通过反复试验学会制作三明治,就必须有人:清理、补充材料、重置、再次尝试,如此循环往复,永无止境,最终让人失去活下去的动力。你当初选择成为机器人研究员,可不是为了给一个半成品机器人收拾残局。
因此,仿真虽然有价值,但仍然无法取代真实数据的收集。仿真最有价值的用途是在部署之后:当真实机器人出现实际故障模式时,仿真可以用来重现和模拟这些罕见情况。
这就让我们回到了基本原理。
那么,训练机器人的最佳方法是什么?(就像训练人类一样)
想想你是如何训练一个人的。
对于简单的任务,文字描述就足够了。对于稍微复杂一些的任务,清单会很有帮助。但大多数实际的工厂工作并非如此简单。你需要协调一致、把握时机、做出判断、具备应急能力,以及应对“偶尔发生的情况”的能力。
这时,演示就奏效了。它是传递意图最有效、信息量最丰富的方式。这就是为什么技工们要先当学徒的原因。
机器人也是如此。只要学习信号质量高,机器人花几分钟甚至几小时学习一项任务都没关系。
训练时间不必为零。
这就引出了我们一直在说的:巨大的飞跃不是,也不可能是建筑上的飞跃。
所谓“大跃进”,即模型突然间见多识广、无所不能的境界,并不存在。它诱人且令人向往(或许部分原因在于它总是遥不可及)。但它并不存在。即使是最聪明的人类也需要训练和指导。陶哲轩需要数年时间才能成为一名焊接专家。
我们认为答案很简单,就是要花时间收集正确的数据。收集机器人专用、任务专用、高保真度的数据,即使这意味着要减少一些花哨的网络演示。
由此可得出三点:
您始终需要特定于机器人的数据。
传达任务的最有效方法是演示(远程操作或直接操作)。
一旦拥有了强大的特定领域数据,来自无关任务的低质量视觉数据就没什么帮助了。
语言逻辑模型之所以神奇,是因为它们能够对人类文本的全部分布进行插值。机器人则没有这种优势。
需要澄清的是,我的观点并非认为视频、模拟和更先进的模型没有用处。它们显然很有用。我的观点是,即便使用了这些工具,仍然需要收集正确的数据。
为了完成一项特定的工作——比如卡车装卸、生物样本制备或奶牛体温检查——你需要有关该特定工作的数据,而最好是这些数据是在你自己的硬件上生成的。
而要从事任何工作(这是通用体能智能的承诺),你需要能够从事许多具体的工作,这意味着你仍然需要每项具体工作的数据,或者至少需要那些看起来非常相似以至于你可以可靠地进行概括的工作的数据。
结果是,虽然利用所有这些数据可能可以制造出功能全面的机器人,但收集所有这些数据比人们意识到的要困难得多,而且将这些数据推广到你已有的数据之外也困难得多(事实上,这还没有被证明是可能的)。
这就造成了先有鸡还是先有蛋的问题:
如果没有数据(以及特定类型的数据),就无法真正测试用例。
不进行用例测试,就无法以高保真度的方式获取数据。
这就是我们认为机器人技术进步是循序渐进而不是突飞猛进的主要原因。无论如何,你都需要收集所有数据!
如果你相信这一点,那么下一步就显而易见了……
收集数据即可获得报酬
那么,你们如何收集这些数据呢?你们是制造成千上万个机器人——在我们的例子中是机械臂——并搭建场景供它们练习吗?
如果你认为机器人需要达到一定的能力水平才能具有经济价值,这或许是最佳方案。但我们已经驳斥了这种观点。发那科、ABB、优傲机器人等公司仅凭基础自动化就创造了数十亿美元的收入。
客户们习惯了那些需要大量昂贵实施工作且编程极其繁琐的老式机器人。我们意识到,我们可以与他们竞争并赢得市场。
我们制造的武器性能更优,自动化程度更高,应用场景也比目前的确定性软件更广泛。而且,我们的成本更低。
为新客户部署机器人只需几个简单的步骤和几个小时。而且流程越来越简便。硬件和软件的费用可以预先收取。我们的毛利润在 60 天内就能覆盖获客成本。
至关重要的是,当出现问题时,我们会远程操控系统进入运行环境,纠正错误,而最重要的是,我们会从问题中吸取教训。(对了,我们拥有使用AR头显收集机器人AI模型训练数据的专利的独家使用权。)
本周早些时候,a16z American Dynamism 的投资者 Oliver Hsu 撰写了一篇文章,探讨了从实验室到现实世界所面临的非常现实的挑战。
在论文和实验室里,成功率达到95%的机器人听起来很棒。但在工厂里,如果一项任务每天要重复执行1000次,那就意味着每天会有50次故障。这就像《我爱露西》里巧克力生产线上的表演一样糟糕。即使是98%的成功率,也意味着每天会有20次停机。99%的成功率也意味着每天10次停机。如果一个员工一周内犯这么多错,你肯定会开除他。
据奥利弗称,生产环境需要接近 99.9% 的可靠性——每天一次干预,甚至每隔几天一次干预——这决定了你是需要雇人来修复机器人的错误,还是让它自行运行。
他说得对。95% 的确不够好……除非你像我们一样解决问题,并随着时间的推移不断改进。在这种情况下,95% 就是一个很好的起点!
如果你准备好远程操控并解决剩下的5%的问题(而我们正是这样做的),那么95%的成功率对于第一天来说已经足够好了。我们可以派遣机器人去完成那些确定性自动化机器人无法完成的任务。这使我们能够通过承接我们大部分都能处理的应用场景来不断拓展业务范围,并将人工干预视为一种服务和数据收集机制。机器人处理它力所能及的事情,人类则在遇到疑难问题时介入,而这些纠正措施又会反馈到训练中。
这种方法效果显著。通过从构成这5%实际挑战的每一个案例中吸取经验,我们可以在部署后的几周内将失败率降低到接近0%。
了解机器人出错的原因至关重要。用人类的演示来训练机器人时,会存在不匹配:人类遵循自身的状态分布,而机器人则会进入人类从未展现过的状态。更好的做法是允许机器人出错,然后迅速采取行动解决问题。
通过与每位客户的合作,我们了解他们的使用案例,训练我们的模型,获取持续的数据,从失败中吸取教训,并改进我们的模型。
在某个特定阶段,某个用例基本上就得到了解决。我们已经处理完了这部分需求。我们可以继续处理下一个用例,应对更多变化。
到目前为止,我们解决的每一个用例,以及由此对软件、固件、硬件和模型所做的改进,似乎都让我们更容易吞并相邻的频谱部分。
对我们方法的一个常见误解是,它意味着每个用例都需要从头开始。事实并非如此。记住螺丝刀的例子。
随着每个用例的解决,这些基础能力都会得到提升。这使得后续任务变得更加容易。随着时间的推移,相同的核心技能(例如拧螺丝)会以不同的组合反复出现,这些共享技能也会不断积累。
理想情况下,整个过程会越来越快。而且现在看来,这似乎正是即将发生的事情。
这就是标准机器人的工作原理。我们通过学习获得报酬。我们之所以能进步更快,是因为我们被迫与现实世界互动。
因牛体温被迫分开
我跟帕基(他非要我把这事写进去)讲了我们一位新销售员第一天上班的事。他接到一个农场的电话,想用我们的机器人给奶牛量体温。体温异常是奶牛出现健康问题最早、成本最低的预警信号。
具体做法是,用温度计插入牛的肛门。根据牛的生长阶段,每周一次、每月一次或介于两者之间进行测量。美国有9000万头牛。根据测量周期计算(每头牛大约需要一分钟),这相当于可以安装一千台机器人。
另一个不适合用人形机器人的原因是,它们造价会非常昂贵。埃隆·马斯克本人曾预测,到2040年,人形机器人的数量将达到100亿,每个造价在2万到2.5万美元之间。其中大约一半的成本来自腿部,而腿部在农场里很可能成为累赘,因为很容易滑倒。
还有另一个重要原因,那就是:人形生物如今并不存在。
除了少数玩具演示之外,人形机器人目前在实际应用中并不存在。而真正意义上的智能机器人,目前更是完全没有出现。
侧边栏:那么类人生物呢?(这里定义为有腿的双足生物)
人形机器人的前景对许多投资者(尤其是百汇风险投资公司)来说极具吸引力。这也不难理解。“世界是为人类API而创造的。” 这话听起来很美好,某种程度上也确实如此。
但这种梦想与现实产生了令人不安的冲突。正如我最近在《华尔街日报》关于特斯拉Optimus的报道中所说:“对于人形机器人来说,如果断电,它本身就不稳定,可能会摔倒砸到人。”而且“对于工厂、仓库或农业来说,腿通常不如轮子好用。”
我这么说是有动机的,所以别全信我的话。在同一篇文章中,作者写道:“在特斯拉公司内部,一些制造工程师质疑Optimus在工厂里的实际用途。虽然这款机器人能够胜任诸如物品分拣之类的单调工作,但这些前工程师认为,大多数工厂工作最好还是由外形专为特定任务设计的机器人来完成。”(顺便一提,我们的模块化设计正是如此。感谢特斯拉的工程师们。)
特斯拉的工程师们并非孤例。那些经营工厂、更注重自身业务而非产品演示的人看不到投资回报率,这就是为什么像Figure这样的公司将重心转向家庭领域的原因。这才是梦想。家用机器人就像是家政阿姨罗西。但要把机器人放在家里,和孩子们一起生活,它们必须非常可靠。
为了让人形机器人真正在家中发挥作用,我们想提出“家庭评估”的概念。
这个类人机器人需要在家里和一群活泼好动的八岁孩子一起玩耍,他们会想方设法绊倒、翻滚、滑倒它——而且不能伤到他们。即使是人类,当孩子们在楼梯上跳到你背上时,也很难保持平衡。就算你摔倒在他们身上,至少你还有柔软的血肉之躯。机器人就没那么幸运了。用强化学习来训练这种类人机器人难度更大,但在我们把它带回家之前,我们需要亲眼见证这一点。6
有一些有趣的家居解决方案与我们的论点不谋而合。Matic和Neo都在利用不同的视角,通过学习用户家中的各种功能来获取收益。Matic 从简单而实用的吸尘和拖地入手,逐步学习家居环境,并在此基础上不断扩展功能。Neo 则通过远程操控机器人收集数据。
但实际上,自主人形机器人并不存在。
我们可以坐等人形机器人出现,也可以现在就开始向客户学习,了解机器人可能具备的各种能力,不断拓展应用场景,并以此为生,持续学习和完善这些应用案例。而我们的竞争对手们,恐怕还在实验室里苦苦钻研。
我们正利用这个先发优势全力奔跑。我们能够跑得这么快的一个重要原因是,我们实行了垂直整合。
为什么要进行垂直整合?
部署能够加速学习的一个重要原因与模型无关,而与硬件息息相关。
请记住,数据与硬件协同工作时,效率会提高 100 到 1000 倍。您控制的硬件越多,这句话就越成立。
大多数实验室都使用来自像优尼特瑞(Unitree)这样的中国公司的廉价机械臂。短期来看,这很划算。这些机械臂性能确实不错,而且价格非常便宜,只需几千美元。
Standard Bots 公司押注垂直整合。
我们制造了一种工业级机械臂,专为端到端人工智能控制而设计。特别是关节处的扭矩传感功能。因为在进行人工智能应用时,我们需要能够记录人与世界的交互方式,然后利用这些交互数据训练模型,使其能够重现这种交互。
这就是为什么我们如此重视扭矩感知和扭矩驱动:这样电机才能精确控制关节的推力,机器人才能感知环境通过关节产生的反作用力。如果没有这些功能,那么在抓取、放置或折叠等操作中,人工智能就只能发挥其作用了。
我们创造了一种独特的扭矩传感方法。其他厂商都采用应变片或基于电流的扭矩传感技术。而我们则通过测量金属的弯曲程度直接测量扭矩,这种方法更精确、更易于维修、更易于制造,各方面性能都更胜一筹。这是一款真正卓越的扭矩传感产品。
为了实现这一点,我们几乎所有东西都是自己生产的。就连电机换向控制器也是我们自己制造的。我们不生产的只有轴承和芯片。其他大部分部件都将由我们自己生产。所以这才是真正的深度垂直整合。
旧式机器人是为运动回放而设计的:你给机器人发送一个30秒的轨迹,机器人就会执行它。而人工智能需要100Hz的实时控制。你需要根据模型实时观察到的情况,每秒发送100次新的指令。很多现有的




















