機器人邁出許多小步,人類邁出一大步

本文為機器翻譯
展示原文

歡迎第1,179 位新加入“不無聊”社群的成員閱讀我們的最新文章!加入我們,與256,826 位聰明好學的讀者一起訂閱吧!

立即訂閱


嗨,朋友們👋,

星期四快樂!我很高興為大家帶來世界上第一篇不枯燥的合作文章(合作文章?這裡需要點什麼),這篇文章是我和我的朋友、 Standard Bots的聯合創始人兼首席執行官Evan Beard共同撰寫的。

埃文是啟動這個項目的最佳人選。

我認識埃文大約20年了,這真是不可思議。我們一起上杜克大學,一起在校園裡唯一一家正規的創業公司工作(這家公司現在還在!),甚至還一起贏得了雷曼兄弟案例競賽(這讓我們有機會在雷曼兄弟倒閉前去那裡面試)。

畢業後,埃文直接投身科技行業。他曾是YC早期創業營的一員,那時YC規模還很小。他和阿什頓·庫徹一起創辦了一家公司。我對科技行業一直很感興趣,也一直很喜歡和埃文聊天,所以我們會在同學聚會上碰面,然後各自發展。2023年9月,一位共同的朋友給我發郵件說:“有一家公司你應該關注一下,叫Standard Bots 。”我查了一下,結果發現,這家公司竟然是埃文·比爾德創立的!

自從重新聯繫上後,埃文成了少數幾個我會問他一些關於機器人的傻問題的人之一。他曾在美國國會就機器人技術作證。去年,他還在英偉達的GTC大會主舞臺上發表了演講。他甚至還在A24出品的電影《寶貝女孩》中與妮可·基德曼一起參與了機器人數據採集的拍攝!埃文對機器人瞭如指掌。

這些問題真是愚蠢至極!機器人這個領域一直讓我感到畏懼。隨著估值飆升,我基本上避免撰寫或投資機器人相關內容,因為我對自己在這個領域的瞭解還不夠自信,不敢妄下斷言。

這正是這些合作撰寫的文章的意義所在!

埃文畢生致力於實現他關於如何打造一家機器人公司的特定信念。他採取了一種與該領域那些更受追捧的公司不同的策略¹ ,這種策略就像一個俄羅斯套娃,中間藏著一個超級模特——外表並不十分吸引人,但隨著你一層層剝開,它變得越來越性感,直到你看到中心,你會驚歎:“哇!”

所以,不妨放點機器人搖滾樂……

讓我們開始吧。


今天的“不無聊”節目由…… Framer贊助播出

Framer賦予設計師超能力。

Framer是一款以設計為先、無需代碼的網站搭建工具,讓任何人都能在幾分鐘內搭建出一個可用於生產環境的網站。無論您是從模板還是空白畫布開始,Framer 都能讓您完全掌控創作過程,無需任何編碼。您可以添加動畫、一鍵本地化,並與整個團隊實時協作。您甚至可以使用內置分析功能進行 A/B 測試和點擊追蹤。

Framer現推出首月免費試用 cossays 的服務,讓您親身體驗我們的產品。無需聘請開發人員,即可使用 Framer 構建屬於您自己的線上世界,以此表達您對Framer的感謝。

訪問 Framer.com 即可免費啟動。使用優惠碼 NOTBORING 即可免費體驗 Framer Pro 一個月。

直接用 Framer 發佈


機器人邁出許多小步,人類邁出一大步

與埃文·比爾德合著的文章

我的行業普遍認為,機器人技術的價值將會得到巨大飛躍式的釋放。

意思是:機器人現在還沒什麼用,但是如果投入足夠的GPU、模型、數據和博士來解決這個問題,你就會跨越某個門檻,跨過這個門檻,你就會遇到可以走進任何房間並執行任何指令的機器人。

無論從金錢價值還是智商分數來看,這都是主流觀點。我稱之為“巨躍式”觀點。

“巨躍”理論很有吸引力。它承諾建立一個完全不受限制的市場——如今的勞動力市場規模約為25萬億美元,但受到人類成本高昂且不可靠等因素的制約;如果機器人變得廉價、通用且自主,那麼勞動力市場就會出現傑文斯悖論。 ——任何在車庫裡率先取得重大突破的天才團隊都能獲得成功。這正是硅谷所鍾愛的創新類型。才華橫溢的人都喜歡那種只需一個絕妙想法就能獲得成功的機會。

持有這些信念的人們所取得的進步令人振奮。在網上,你可以看到機器人行走後空翻跳舞拆箱做飯疊衣服洗碗的視頻。這簡直就是《傑森一家》裡的場景。機器人時代的勝利似乎指日可待。勝利的彼岸,是財富、力量和富足。

因此,秉持這種理念的公司,無論是製造模型還是完整的機器人,都獲得了過去幾年機器人領域數十億美元風險投資中的絕大部分。這還不包括特斯拉從自身資產負債表中投入到其人形機器人Optimus研發中的資金。

需要明確的是,他們取得的進步是實實在在的。視覺-語言-動作模型(VLA)、擴散策略、跨具身學習、仿真到現實的遷移等等,所有這些進步都顯著擴展了機器人在受控環境下的能力。在世界各地的機器人實驗室裡,機器人可以疊衣服、煮咖啡、洗碗等等。任何否認這一點的人,要麼是沒認真看,要麼就是不夠重視。

只有當你開始在實驗室外部署機器人時,另一件事才會變得顯而易見:機器人技術的進步並非取決於單一的突破。沒有任何一項基礎性創新能夠突然間實現世界自動化。

我們終將實現世界的自動化。但我認為,進步將通過克服變異性的梯度來實現。

可變性是指機器人必須處理的任務、環境和極端情況的範圍。航空航天和自動駕駛領域使用運行設計域(ODD)來正式規定系統可以運行的條件。擴展 ODD 是實現自主性成熟的方式。對於機器人領域而言,情況則更為複雜。

機器人變量包括:你正在處理什麼(相同的商品還是成千上萬個不同的 SKU)、你在哪裡工作(氣候控制的倉庫,光線完美,還是建築工地,灰塵、不平坦的地形、天氣和不斷變化的佈局)、任務的複雜程度(單次重複動作還是需要更換工具的多步驟組裝)、周圍有哪些人(在封閉的單元中操作還是與工人在共享空間中協作)、指令的清晰度(執行預編程的程序還是解釋“清理這個”或“幫我做這個”之類的自然語言命令),以及出錯時會發生什麼(出錯時停止還是檢測錯誤、診斷原因並自主恢復)。

將這些變量相乘,其範圍可能非常巨大² 。這是因為現實生活中人類工作的範疇極其複雜。一個簡單的檢驗方法是:一個人不可能勝任所有的人類工作。

大多數實際工作並非完全重複,但也並非完全沒有盡頭。它們有結構、有限制,也存在不可避免的變化,這令弗雷德裡克·溫斯洛·泰勒、亨利·福特以及此後無數的實業家都感到懊惱。不同的零件、略微變形的盒子、不均勻的照明、磨損的燈具,還有附近做著不可預測之事的人們。

機器人也是如此。

一方面,你可以進行運動回放。機器人每次都以相同的方式從 A 點移動到 B 點。無需任何智能。目前絕大多數工業機器人都是這樣工作的。你保存一個位置,然後再保存另一個,再保存下一個,機器人就會永遠沿著這條路徑行進。這就像 Excel 中的“錄製宏”功能。只要沒有任何變化,它就能完美運行。

另一個極端是像麥當勞員工那樣的場景。每三分鐘就要換一個崗位:先做漢堡,再炸薯條,然後收銀,最後打掃衛生。任務完全不同,順序不可預測,還要與人互動,環境混亂。通用物理智能的夢想是製造出一種機器人,它能夠走進這樣的環境,然後……開始工作。

自動化是極端,自主性是極端。幾乎所有具有經濟價值的工作都介於這兩個極端之間。

從自動化到麥當勞機器人能夠完全取代工人,這中間蘊藏著數量驚人的工作崗位。

我認為,正是通過在這一領域邁出這些小步,我們今天才能釋放巨大的經濟價值。

這就是我的公司Standard Bots所押注的。

Standard Bots 是一家生產原生 AI 機器人的垂直整合型公司。我們目前專注於製造業和物流行業的客戶。我們為客戶構建了一套完整的解決方案,用於訓練機器人 AI 模型,涵蓋數據收集、審核和標註,以及模型訓練和部署。而且,我們致力於讓這些工具易於使用,即使是普通的製造工人也能輕鬆上手。

在充斥著各種不切實際的“登月計劃”的市場中,我們的策略或許顯得保守。即便目前營收達到數千萬美元,與未來那數萬億美元、足以帶來無限財富的終極目標相比,也顯得微不足道。

並非如此。

我們今天正在打造一家真正的企業,因為我們相信這是最有可能讓我們首先實現富足的最終狀態的方式。

兩種策略:大躍進還是小步走

如果你相信在某個閾值之外蘊藏著大量極具經濟價值的任務,那麼最佳策略就是直奔目標。讓你的團隊在實驗室裡埋頭苦幹。擴展模型。擴展計算資源。不要被那些可能拖慢你進度的部署工作分散注意力。大膽嘗試

如果您和我們一樣相信,經濟上有價值的工作種類繁多,其中許多工作現在都可以由機器人完成,那麼最好的辦法就是儘早讓機器人投入使用並開始工作。

每次部署都能讓你瞭解自己在模型發展過程中所處的位置。成功表明模型穩定,失敗表明模型存在問題,兩者都會告訴你下一步應該著手修復哪些方面。你需要不斷迭代一步一步來

在頂尖的法學碩士(LLM)實驗室中,數據為王的理念已被廣泛接受。最佳的數據策略是循序漸進地構建數據體系,每次只針對一個用例。你並不需要“更多”的數據。你真正需要的是多樣性(3)政策契合度(4)課程設置(5) 。迭代式地構建數據體系是針對任何給定的資金預算,優化這三個維度優質數據的策略。在你的機器人上進行實際部署可以確保政策契合度(這是其他任何方法都無法實現的),市場可以智能地篩選課程,而這兩者都能提供豐富且具有經濟意義的多樣性。

多年的部署經驗讓我們吸取了這一教訓。

每當機器人技術發展到涵蓋自動化和自主性之間的其他工作領域時,它也會催生出另一類工作崗位、另一類客戶群體、另一部分市場份額。一步一個腳印地來。

以擰螺絲為例。使用端到端人工智能來尋找螺絲或螺栓,遠比嘗試將所有部件精確地放置在預先設定的固定位置要容易得多。對於學習系統而言,搜索和反饋的成本很低。我們的機器人可以移動螺絲刀,直到感覺它位於正確的位置。它會輕輕晃動螺絲刀,感受它何時落入槽中。如果滑脫,它會進行調整。當我們的機器人掌握瞭如何擰螺絲後,它就能解鎖一系列與擰螺絲相關的任務。然後我們開始執行這些任務,並學習每項任務的具體細節。

我們邊做邊學,隨著時間的推移不斷進步。很多機器人並不完美,但它們仍然有用。機器人要發揮作用並沒有什麼神奇的門檻需要跨越。

那不是我們的假設,而是市場告訴我們的。

工業機器人市場規模龐大且發展成熟。全球領先的機械臂製造商發那科(FANUC)年收入約為60億美元。ABB 機器人部門在2024年的收入也達到了24億美元。2015年被泰瑞達(Teradyne)收購的優傲機器人(Universal Robots)年收入也高達數億美元。

這些系統雖然能用,但適用範圍非常有限。公司要花數週時間才能完成集成。團隊要聘請專家來編寫那些脆弱的運動序列。一旦任務發生變化,這些專家還得再次付費,重新編寫整個程序。機器人一遍又一遍地重複著相同的動作,而且只有在環境完全不變的情況下才能正常工作。

儘管存在種種摩擦,顧客依然持續購買這些機器人!這就是市場的聲音。即使是有限且缺乏靈活性的自動化也能創造足夠的價值,從而催生出整個產業。低變異性的自動化領域已經支撐了數十億美元的業務。

在機器學習領域,進步很少來自一次性的飛躍。它源於梯度上升:在環境反饋的指導下,不斷進行小幅、持續的改進。

我們對機器人技術也是這樣看待的。

我們的計劃並非直接從實驗室演示跳到通用智能機器人。相反,我們的計劃是逐步適應現實世界的變化,並儘可能全面地把握其特性。

目前一切進展順利。我們已為包括NASA、洛克希德·馬丁和Verizon在內的客戶部署了300多臺機器人。年底,我們的年化收入達到2400萬美元,並擁有數億美元的客戶意向書和合格銷售渠道。您在曲線圖中看到的拐點,是因為我們的機器人隨著學習的深入而不斷改進,變得越來越好用(也越來越容易上手)。

客戶很滿意,因為我們的技術部署起來比傳統自動化更容易,調整起來也更便宜。雖然我們還沒有能夠自動化任何任務的通用智能 AI 模型,但我們已經能夠以其他任何機器人公司都無法企及的可變性水平來自動化工作。

我們也希望有一天我們的機器人能夠包攬一切。我們堅信:

我們的計劃是靠“吞噬頻譜”來賺錢。在此過程中,我們計劃收集其他人無法獲取的數據。然後,我們將利用這些專為我們的機器人量身定製的數據,快速迭代整個系統,從而在那些採取大步快跑策略之前,實現普遍的經濟效益。

我們的賭注背後有很多背景信息。首先也是最重要的一點是,你需要明白機器人技術發展受制於數據

機器人技術面臨數據瓶頸

只要我們擁有大量有效數據,機器人就能很好地自主工作。例如,如下面的視頻所示,它們可以切割植物片段並重新種植以進行克隆。

這有點反直覺,因為這幾乎與大型語言模型(LLM)面臨的挑戰截然相反。像你我這樣的普通AI用戶體驗到的是,模型不斷改進,LLM會自動掌握更多知識。

但LLM(學習邏輯模型)相對來說比較容易。整個互聯網本身就是一個現成的訓練語料庫。互聯網上的信息量遠超你的想象。你向LLM提出的任何問題,互聯網上可能都已經有人問過並回答過了。難點在於構建能夠從所有這些信息中學習的架構。

機器人技術面臨的問題恰恰相反。

這些架構基本已經存在。過去幾年,隨著大型語言模型中的關鍵理念被應用於物理系統,機器人學習領域取得了真正的突破。例如,豐田研究院的擴散策略表明,將機器人控制策略視為生成模型可以顯著提高機器人學習靈巧操作技能的速度。這種方法的巧妙之處在於,它借鑑了主要用於圖像生成的架構,該架構中的模型通過迭代的方式學習去除噪聲,如下面的GIF動畫所示……

……然後,他們卻將其應用於生成機器人夾爪的路徑。一個在某個領域行之有效的方法,應用到另一個領域後,結果出乎意料的好——效果相當不錯。

開啟這一新時代的進步並非一蹴而就,而是點滴積累的結果。例如,研究人員稱之為“動作分塊”的技術,它讓模型預測未來需要移動的一系列點,而不僅僅是一個點。這極大地提升了性能和流暢度。

視覺-語言-動作模型(例如RT-2)將網絡規模的語義理解與機器人數據相結合,將高級指令轉化為物理動作。ALOHA Unleashed等系統表明,基於 Transformer 的模仿學習能夠使真實機器人通過觀看演示來處理複雜的多階段任務,例如繫鞋帶和分類物品。而新興的基於擴散的基礎模型(例如RDT-1B)則表明,在大規模、多樣化的機器人數據集上進行訓練能夠實現跨實例的零樣本泛化和少樣本學習。

但這些論文也都發現了類似的現象。要想讓這些卓越的創新以合理的成功率實現,你需要特定機器人執行特定任務、在特定環境下運行的數據。

如果你訓練一個機器人疊襯衫,然後讓它疊一件襯衫,它能成功。把襯衫放在不同的環境、不同的桌子上、不同的光線下,它依然能成功。這個模型已經學會了在“疊襯衫”這個範圍進行泛化。但是,如果你讓它掛外套、疊毛巾,或者做任何與疊襯衫截然不同的事情,它就失敗了。它並不笨,只是從未見過有人做過這些事。

機器人可以在其訓練分佈範圍內進行插值,但在分佈範圍之外則難以處理。線性邏輯模型(LLM)也是如此。只不過它們的訓練數據集非常龐大,以至於分佈範圍之外的數據已經很少了。

這個問題不太可能通過增加計算能力或改進算法來解決。這是這些模型工作原理的一個根本特性:它們需要你希望它們做的事情的示例。

那麼,如何收集示例數據呢?

一種方法是在實驗室裡模擬。儘可能多地設想各種極端情況,然後把它們拋給你的機器人。然而,正如約翰·卡馬克警告的那樣,“現實遠比我們想象的複雜得多。” 現實世界會嘲笑你研究人員設想的極端情況,並提出更加棘手的挑戰。

另一種方法是拍攝人們做你希望機器人做的所有事情的視頻。研究表明,這裡存在生命跡象。

例如,Skild 已經證明,機器人可以通過視頻學習如何完成幾項常見的家務,每項任務只需要一小時的機器人數據。

這是一個令人振奮的進展,在此基礎上,就在本週,Skild宣佈完成由軟銀領投的 14 億美元 C 輪融資,公司估值超過 140 億美元。

最終,通用視頻或許能提升模型的初始性能。但即便對於簡單的家庭取放任務(工業任務則需要更多數據),最終策略的制定仍然需要機器人自身的數據。首先,機器人需要三維數據,包括扭矩和力,而且這些數據需要隨時間變化。它們幾乎需要“感知”運動。視頻無法提供這些數據,文本更是如此。

這有點像讀很多書更容易寫出一本好書,但看很多高爾夫視頻對實際打高爾夫並沒有多大幫助。

如果我想學打高爾夫,我就需要真正走出去,用身體揮杆。同樣地,

收集數據的最佳方法是使用硬件。為此,有許多不同的收集方法:領航-跟隨機械臂、帶有傳感器的手持設備、手套和可穿戴設備、虛擬現實和遠程操作,以及直接操作,即實際移動機械臂並抓取物體。

這些方法都可行,各有優缺點。我們通常會結合使用多種方法。

但我們還是繼續用高爾夫球來打比方吧。用任何人體練習都比看視頻好,但用自己的身體練習才是最好的。因為那才是我真正要用的身體。

同樣,即使是來自其他機器人的數據,其價值也遠不及來自自身硬件的數據。如果你的數據和硬件不匹配,你需要的數據量將是原來的100倍甚至1000倍。如果我想改進我的機器人,但我沒有自己的機器人,我可以使用類似的機器人來觀察其活動。但要想有效,我需要大量的類似機器人。

這是通用機器人模型面臨的眾多挑戰之一。

真正實現巨大飛躍需要什麼

針對我迄今為止以及接下來要提出的所有論點,最明顯的反駁論點是:雖然巨躍模型目前尚未在現實世界中得到應用,但隨著實驗室不斷取得突破,它們無疑會實現這一目標。魔法的匱乏可不是什麼好事!

儘管在這個領域投入了鉅額資金,但令人驚訝的是,公眾對“巨躍”方法的實際含義卻鮮有深入思考。

他們下的是什麼賭注或哪組賭注?我們應該如何看待這些賭注?

Standard Bots 採取的方法很艱難。它常常進展緩慢,令人沮喪。從外部來看,存在著巨大的風險:我們付出了所有這些努力,結果有一天醒來,卻發現某個大型實驗室已經……破解了難題。但我對我們的方法充滿信心,因為我認為“巨躍”式的思維方式無法帶來真正意義上的突破,我想解釋一下原因。

可以肯定的是,你會在機器人推特上繼續看到越來越神奇的推銷信息:

“我們可以用YouTube視頻進行訓練。不需要機器人數據!”

“我們可以通過模擬生成缺失的數據!”

“我們正在打造一個世界級的典範。零失敗機器人技術勢在必行!”

其中一些觀點甚至方向正確。很多熱議背後確實存在著實實在在的進展。但同時,噪音也很多。

再說一遍,我的觀點帶有偏見。但我同時也投入了時間和金錢來支持這種偏見。所以,以下是我對目前情況的看法——谷歌、物理智能(Pi 或 π)和 Skild 在實驗室裡為了實現真正的飛躍,究竟在做什麼——從(別說出來,別說出來)第一性原理出發。

模型邁出第一步

許多現代機器人和人工智能浪潮都是以同樣的方式開始的:預先訓練感知能力,從零開始學習動作。也就是說,先教機器人如何感知,然後讓它通過感知來學習。

以豐田研究院的擴散策略為例。視覺編碼器(將像素轉換成模型可用信息的部分)使用互聯網規模的圖像進行預訓練,但動作模型最初基本上是空的。

從“空白”狀態開始……並不理想,因為該模型尚未具備研究人員所說的感知-行動基礎。它還沒有學會所見與所作所為之間的緊密聯繫:

  • 在相機空間中“向左移動”應該意味著在現實世界中向左移動。

  • 用兩根手指夾住杯子的把手或杯沿,但不能像蹣跚學步的孩子用叉子喝湯那樣戳杯子的中心。

  • 接觸是物理學,而非簡單的幾何學。當你與世界互動時,世界會發生改變。

這個適應階段基本上就是幼兒階段:我看到這個世界,我努力探索這個世界,有時我會成功,但大多數時候我會失敗。

但大多數認真負責的團隊都能在幾天內收集到足夠的機器人數據,從而奠定基本基礎。目前為止,一切順利。

如何訓練機器人

假設你想訓練一個機器人完成一項任務。你需要這樣做:

1. 獲取數據

2. 訓練模型

3. 評估和持續改進

獲取數據:您可以在實驗室、現實世界、模擬環境中進行遠程操作,也可以從互聯網或生成的視頻中學習。每種方法都有其自身的優缺點,機器人公司花費大量時間思考和試驗這些優缺點。

訓練模型:您打算從零開始構建模型,還是依賴預訓練模型進行引導?如果您要構建的模型規模較小,從零開始訓練會更容易。大型模型通常包含完整的訓練流程和流程,包括預訓練、訓練中期和訓練後階段。預訓練教會機器人關於世界運行規律的基礎知識(一般物理、運動、光照)。訓練後則賦予模型特定的功能。

在語言學習模型(LLM)領域,預訓練教會模型詞語在訓練分佈中的關係,即學習它們的潛在表徵。後訓練(例如使用 instructGPT、RLHF 和 Codex)則使模型能夠部署到聊天代理或代碼編寫等應用場景。後訓練還可以通過強化學習(RL)優化軌跡,從而提高機器人的速度、成本和準確性。事實上,LLM 領域中許多關於強化學習的討論最初都源於機器人特定任務策略。

聽起來都很棒,但你仍然需要數據。關鍵問題是:如何獲取數據?

視頻夢想(及其侷限性)

巨躍者提出了兩大解決方案,以證明他們將如何獲得所需的數據。

第一種是現有的全互聯網視頻

模型顯然從視頻中學到了一些東西:物體的永久性、粗略的幾何形狀、潛在的物理結構,以及能夠幻覺出它們從未見過的物體的背面(這要麼非常酷,要麼非常令人不安,取決於你與現實的關係)。

所以為什麼不先看看 YouTube,瞭解世界,然後再……從事機器人研究呢?

首先思考一下:人類能從觀看視頻中學到什麼?又有哪些東西是他們學不到的?

視頻很多用途:

  • 軌跡和順序:視頻非常擅長展示運動弧線和動作步驟的順序。

  • 可供性與目標:你觀察別人轉動旋鈕,就會明白旋鈕是用來轉動的,開關是用來按下的。

  • 時機和節奏:時機對於運動、集結或任何本質上屬於編排範疇的活動都至關重要。視頻也包含時機信息。

如果你正在學習抓握,視頻可以向你展示:伸手→向下→併攏手指→抬起。

它還可以顯示工具的使用情況:杯子的傾斜角度、錘子的揮動方式,以及人們通過滑動物體而不是抬起物體來“作弊”的方式。

但視頻無法承載某些類型的數據:質量、力、順應性、摩擦力、剛度、接觸動力學。

人類有時可以通過視覺推斷出其中一些信息,但這僅僅是因為我們依靠的是畢生積累的切身經驗。機器人則沒有這種先驗經驗。

研究人員邁克爾·卡達斯和埃德·奧布萊恩對超過2200名參與者進行了實驗,研究人們觀看教學視頻學習諸如太空步、雜耍和飛鏢等體育技能時的反應。結果令人震驚:

隨著人們觀看視頻數量的增加,他們的自信心急劇上升。與此同時,他們的實際表現幾乎沒有變化,甚至有所下降。

這就是體驗上的差距。視頻告訴你該怎麼做,但不會告訴你做起來是什麼感覺。你可以看別人跳太空步一整天,但你仍然感受不到地板是如何摩擦你的鞋子的,有多少壓力傳遞到你的腳趾,以及如何在不摔倒的情況下控制力度。

機器人的處境比人類更糟。至少我們人類還有先驗知識,而機器人只有傳感器和數學能力。

接下來我要說點刺激的了。

如果你不仔細觀察,看起來好像給機器人播放網絡視頻真的奏效了。

仔細觀看Skild的“邊看邊學”演示。只有最簡單的任務才需要“一小時的人類數據”。更精彩的演示則隱藏在視頻中間,沒有這個標籤。而且這些視頻並非隨意從YouTube上下載的,而是精心收集的、由頭戴式攝像頭拍攝的第一視角視頻。這樣做真的比直接使用機器人容易得多嗎?

簡而言之,視頻不足以滿足需求的原因主要有三點:

  1. 報道範圍:互聯網視頻無法報道工業環境中那種怪異、受限、對抗性的現實。

  2. 數據效率:僅從視頻中學習通常需要比從機器人收集的數據中學習多幾個數量級的數據,因為如果沒有具身感知,從像素到動作的映射就缺乏約束。

  3. 缺失的力:兩個表面看起來可能完全相同,但其運動方式卻截然不同。視頻無法區分摩擦力。機器人用一種有趣的方式發現了這一點。

然後,你仍然會遇到轉換問題:人手不是機器人夾爪,運動學不同,比例不同,柔順性不同,除非你用你將要部署的確切末端執行器進行訓練,否則就會出現系統誤差。

這就是為什麼很多公司最終悄悄地迴歸遠程操作的原因。

人類視頻對預訓練很有用。但基礎薄弱的數據會帶來真正的代價:你可以努力攀登高峰,也可以長時間原地打轉,然後稱之為進步。

好吧,看來YouTube上的視頻用處不大。那模擬呢?

世界模式適用和不適用的方面

仿真和強化學習是另一大希望。如果機器人能夠在模擬真實世界物理環境的仿真環境中進行自主訓練,那麼訓練出的策略應該可以遷移到現實世界的真實機器人身上。公平地說,仿真技術目前在某些方面確實非常出色,尤其是在剛體動力學方面

英偉達一直在大力推進這項技術在移動方面的應用。迪士尼的作品(在詹森於2025年GTC大會上的主題演講中有所展示)展現了將優秀的物理引擎與良好的控制相結合所能產生的奇妙效果:在模擬器中,人形機器人能夠行走、翻滾、恢復(動作優美流暢)。

成功可歸結為兩個要素:

  1. 物理特性易於處理:模擬器可以處理剛體、接觸和重力場。您可以隨機化地形、生成障礙物,並訓練出穩健的行走策略,而無需接觸真實世界。

  2. 目標很明確:強化學習需要獎勵。

對於步行而言,回報顯而易見:行進距離、穩定性、能量消耗、速度。

對於動畫來說,這甚至更簡單:匹配參考動作而不會出錯。

因此,運動學是機器學習的理想領域,因為它滿足了三個條件:你可以模擬物理過程、衡量目標,並且在出現問題時可以免費重置。

然後,人們試圖從步行推斷到工廠工作,結果一切都失敗了。

當你在現實世界中做實際的事情時,物理學就會變得複雜。實際任務涉及軟材料、變形包裝、流體、電纜佈線、與磨損相關的摩擦、嚴格的公差以及以接觸為主的結果。

你可以模擬其中的一部分,但要全面而精確地實現,則需要耗費大量精力進行手工操作。而且,你仍然無法模擬生產環境中遇到的各種極端情況。所以,還不如直接做實際的。

在實際任務中,獎勵變得脆弱不堪,甚至難以捉摸。“做個三明治”並非一個可量化的任務。即使是“把這個零件放好”也充滿了各種限制:不能撕破,不能灑出來,要對齊,滑落時要找回,不能卡住,不能刮花表面,不能做那些在模擬環境中有效但在現實生活中會損壞機器的事情。

Waymo 就是一個很好的例子。Waymo 如今大量運用模擬技術,但早在世界模型出現之前,人類駕駛汽車的真實世界數據收集就已經開始了。你還記得在 Waymo 首次進行自動駕駛之前,谷歌的員工駕駛著那些看起來有點傻的汽車四處收集數據,耗費了多少時間嗎?正如該公司在最近的一篇博文中寫道:“這種海量的真實世界全自動駕駛經驗是無可替代的——無論進行多少模擬、手動駕駛數據收集,或者由測試駕駛員進行操作,都無法複製 Waymo Driver 在完全自主駕駛時所遇到的各種情況和反應。

你需要先在現實世界中收集這些數據,然後在模擬環境中重現並放大它們。這就是你如何獲得最後幾個“9”的方法。

還有重置。重新開始需要付出什麼。

在模擬環境中,重置是免費的。但在現實中,重置需要付出勞動。行走是個例外,因為重置只需“重新站起來”,但如果你想讓機器人通過反覆試驗學會製作三明治,就必須有人:清理、補充材料、重置、再次嘗試,如此循環往復,永無止境,最終讓人失去活下去的動力。你當初選擇成為機器人研究員,可不是為了給一個半成品機器人收拾殘局。

因此,仿真雖然有價值,但仍然無法取代真實數據的收集。仿真最有價值的用途是在部署之後:當真實機器人出現實際故障模式時,仿真可以用來重現和模擬這些罕見情況。

這就讓我們回到了基本原理。

那麼,訓練機器人的最佳方法是什麼?(就像訓練人類一樣)

想想你是如何訓練一個人的。

對於簡單的任務,文字描述就足夠了。對於稍微複雜一些的任務,清單會很有幫助。但大多數實際的工廠工作並非如此簡單。你需要協調一致、把握時機、做出判斷、具備應急能力,以及應對“偶爾發生的情況”的能力。

這時,演示就奏效了。它是傳遞意圖最有效、信息量最豐富的方式。這就是為什麼技工們要先當學徒的原因。

機器人也是如此。只要學習信號質量高,機器人花幾分鐘甚至幾小時學習一項任務都沒關係。

訓練時間不必為零。

這就引出了我們一直在說的:巨大的飛躍不是,也不可能是建築上的飛躍

所謂“大躍進”,即模型突然間見多識廣、無所不能的境界,並不存在。它誘人且令人嚮往(或許部分原因在於它總是遙不可及)。但它並不存在。即使是最聰明的人類也需要訓練和指導。陶哲軒需要數年時間才能成為一名焊接專家。

我們認為答案很簡單,就是要花時間收集正確的數據。收集機器人專用、任務專用、高保真度的數據,即使這意味著要減少一些花哨的網絡演示。

由此可得出三點:

  1. 您始終需要特定於機器人的數據。

  2. 傳達任務的最有效方法是演示(遠程操作或直接操作)。

  3. 一旦擁有了強大的特定領域數據,來自無關任務的低質量視覺數據就沒什麼幫助了。

語言邏輯模型之所以神奇,是因為它們能夠對人類文本的全部分佈進行插值。機器人則沒有這種優勢。

需要澄清的是,我的觀點並非認為視頻、模擬和更先進的模型沒有用處。它們顯然很有用。我的觀點是,即便使用了這些工具,仍然需要收集正確的數據。

為了完成一項特定的工作——比如卡車裝卸、生物樣本製備或奶牛體溫檢查——你需要有關該特定工作的數據,而最好是這些數據是在你自己的硬件上生成的。

而要從事任何工作(這是通用體能智能的承諾),你需要能夠從事許多具體的工作,這意味著你仍然需要每項具體工作的數據,或者至少需要那些看起來非常相似以至於你可以可靠地進行概括的工作的數據。

結果是,雖然利用所有這些數據可能可以製造出功能全面的機器人,但收集所有這些數據比人們意識到的要困難得多,而且將這些數據推廣到你已有的數據之外也困難得多(事實上,這還沒有被證明是可能的)。

這就造成了先有雞還是先有蛋的問題:

  • 如果沒有數據(以及特定類型的數據),就無法真正測試用例。

  • 不進行用例測試,就無法以高保真度的方式獲取數據。

這就是我們認為機器人技術進步是循序漸進而不是突飛猛進的主要原因。無論如何,你都需要收集所有數據!

如果你相信這一點,那麼下一步就顯而易見了……

收集數據即可獲得報酬

那麼,你們如何收集這些數據呢?你們是製造成千上萬個機器人——在我們的例子中是機械臂——並搭建場景供它們練習嗎?

如果你認為機器人需要達到一定的能力水平才能具有經濟價值,這或許是最佳方案。但我們已經駁斥了這種觀點。發那科、ABB、優傲機器人等公司僅憑基礎自動化就創造了數十億美元的收入。

客戶們習慣了那些需要大量昂貴實施工作且編程極其繁瑣的老式機器人。我們意識到,我們可以與他們競爭並贏得市場。

我們製造的武器性能更優,自動化程度更高,應用場景也比目前的確定性軟件更廣泛。而且,我們的成本更低。

為新客戶部署機器人只需幾個簡單的步驟和幾個小時。而且流程越來越簡便。硬件和軟件的費用可以預先收取。我們的毛利潤在 60 天內就能覆蓋獲客成本。

這意味著我們能夠以幾乎與製造機器人一樣快的速度擴大數據收集規模,而且這一切都由我們的客戶資助。我們為此感到高興,原因顯而易見。他們也同樣如此。我們的計劃是,讓機器人在實際應用中不斷學習,而我們雙方也因此更加滿意。

至關重要的是,當出現問題時,我們會遠程操控系統進入運行環境,糾正錯誤,而最重要的是,我們會從問題中吸取教訓。(對了,我們擁有使用AR頭顯收集機器人AI模型訓練數據的專利的獨家使用權。)

這就是秘訣所在。

本週早些時候,a16z American Dynamism 的投資者 Oliver Hsu 撰寫了一篇文章,探討了從實驗室到現實世界所面臨的非常現實的挑戰。

在論文和實驗室裡,成功率達到95%的機器人聽起來很棒。但在工廠裡,如果一項任務每天要重複執行1000次,那就意味著每天會有50次故障。這就像《我愛露西》巧克力生產線上的表演一樣糟糕。即使是98%的成功率,也意味著每天會有20次停機。99%的成功率也意味著每天10次停機。如果一個員工一週內犯這麼多錯,你肯定會開除他。

據奧利弗稱,生產環境需要接近 99.9% 的可靠性——每天一次干預,甚至每隔幾天一次干預——這決定了你是需要僱人來修復機器人的錯誤,還是讓它自行運行。

他說得對。95% 的確不夠好……除非你像我們一樣解決問題,並隨著時間的推移不斷改進。在這種情況下,95% 就是一個很好的起點!

如果你準備好遠程操控並解決剩下的5%的問題(而我們正是這樣做的),那麼95%的成功率對於第一天來說已經足夠好了。我們可以派遣機器人去完成那些確定性自動化機器人無法完成的任務。這使我們能夠通過承接我們大部分都能處理的應用場景來不斷拓展業務範圍,並將人工干預視為一種服務和數據收集機制。機器人處理它力所能及的事情,人類則在遇到疑難問題時介入,而這些糾正措施又會反饋到訓練中。

這種方法效果顯著。通過從構成這5%實際挑戰的每一個案例中吸取經驗,我們可以在部署後的幾周內將失敗率降低到接近0%。

這是因為故障發生瞬間的干預數據才是最佳數據。我們發現,在故障發生前後立即收集數據,能夠高效地捕捉到所有極端情況,而這通常也是我們所需的最低訓練數據量。我們專注於自主性失效的邊界,而不是僅僅收集那些我們反覆完美執行的95%任務的數據,從而瞭解現實與模型實際存在哪些偏差。而且,由於是機器人而非人類造成了故障,我們也能從中瞭解機器人的故障所在。

瞭解機器人出錯的原因至關重要。用人類的演示來訓練機器人時,會存在不匹配:人類遵循自身的狀態分佈,而機器人則會進入人類從未展現過的狀態。更好的做法是允許機器人出錯,然後迅速採取行動解決問題。

通過與每位客戶的合作,我們瞭解他們的使用案例,訓練我們的模型,獲取持續的數據,從失敗中吸取教訓,並改進我們的模型。

在某個特定階段,某個用例基本上就得到了解決。我們已經處理完了這部分需求。我們可以繼續處理下一個用例,應對更多變化。

到目前為止,我們解決的每一個用例,以及由此對軟件、固件、硬件和模型所做的改進,似乎都讓我們更容易吞併相鄰的頻譜部分。

對我們方法的一個常見誤解是,它意味著每個用例都需要從頭開始。事實並非如此。記住螺絲刀的例子。

我們並不認為我們的系統是一系列孤立的、針對特定任務的模型的集合。我們認為它是一個共享的物理技能基礎——感知、抓握、力量控制、順序控制等等——這些技能會在不同的部署場景中不斷累積和完善。對於每一個新的應用場景,我們都會在不斷改進的基礎之上進行後續訓練。

隨著每個用例的解決,這些基礎能力都會得到提升。這使得後續任務變得更加容易。隨著時間的推移,相同的核心技能(例如擰螺絲)會以不同的組合反覆出現,這些共享技能也會不斷積累。

理想情況下,整個過程會越來越快。而且現在看來,這似乎正是即將發生的事情。

這就是標準機器人的工作原理。我們通過學習獲得報酬。我們之所以能進步更快,是因為我們被迫與現實世界互動。

客戶會教會我們一些我們從未想過的應用場景。

因牛體溫被迫分開

我跟帕基(他非要我把這事寫進去)講了我們一位新銷售員第一天上班的事。他接到一個農場的電話,想用我們的機器人給奶牛量體溫。體溫異常是奶牛出現健康問題最早、成本最低的預警信號。

你知道怎麼給牛量體溫嗎?

具體做法是,用溫度計插入牛的肛門。根據牛的生長階段,每週一次、每月一次或介於兩者之間進行測量。美國有9000萬頭牛。根據測量週期計算(每頭牛大約需要一分鐘),這相當於可以安裝一千臺機器人

關於這個機會,有兩點需要說明:

  1. 如果你問我:“埃文,如果你的性命攸關,請給我一份乳製品行業裡可以自動化完成的工作”,我會說擠牛奶。但我絕對想不到要把給牛肛門測體溫計也自動化。那種工作你得從顧客那裡瞭解才行。

  2. 這不是人形機器人能勝任的工作。仔細想想,其實很少有工作適合人形機器人。

人形機器人不適合這項工作的原因之一是,它們功能過剩。你需要的是能夠反覆執行同一項任務(保持靜止狀態),而你卻要為它們提供通用功能(以及腿部)。另一個原因是,對於這項特定工作而言,人形機器人功能不足:無論從物理結構還是模型設計上,它們都無法勝任這項工作。

首先,你需要一個靈活的機械臂。但說到底,關鍵在於進入速度。你不能直接硬塞進去,牛不喜歡這樣。那麼,如何確定合適的進入速度呢?每頭牛都不一樣。原來,你需要一個攝像頭對準牛的臉,還需要一個模型,該模型基於數百頭牛的面部反應進行訓練;牛的臉會告訴你何時減速(這種行為應該在端到端的訓練過程中自動出現,無需任何預先設定)。模型需要能夠立即理解如何處理這些特定的傳感器數據,以便快速調整機械臂的速度和角度,讓牛允許它進入。諸如此類,不勝枚舉。

另一個不適合用人形機器人的原因是,它們造價會非常昂貴。埃隆·馬斯克本人曾預測,到2040年,人形機器人的數量將達到100億,每個造價在2萬到2.5萬美元之間。其中大約一半的成本來自腿部,而腿部在農場裡很可能成為累贅,因為很容易滑倒。

還有另一個重要原因,那就是:人形生物如今並不存在。

除了少數玩具演示之外,人形機器人目前在實際應用中並不存在。而真正意義上的智能機器人,目前更是完全沒有出現。


側邊欄:那麼類人生物呢?(這裡定義為有腿的雙足生物)

人形機器人的前景對許多投資者(尤其是百匯風險投資公司)來說極具吸引力。這也不難理解。“世界是為人類API而創造的。” 這話聽起來很美好,某種程度上也確實如此。

但這種夢想與現實產生了令人不安的衝突。正如我最近在《華爾街日報》關於特斯拉Optimus的報道中所說:“對於人形機器人來說,如果斷電,它本身就不穩定,可能會摔倒砸到人。”而且“對於工廠、倉庫或農業來說,腿通常不如輪子好用。”

我這麼說是有動機的,所以別全信我的話。在同一篇文章中,作者寫道:“在特斯拉公司內部,一些製造工程師質疑Optimus在工廠裡的實際用途。雖然這款機器人能夠勝任諸如物品分揀之類的單調工作,但這些前工程師認為,大多數工廠工作最好還是由外形專為特定任務設計的機器人來完成。”(順便一提,我們的模塊化設計正是如此。感謝特斯拉的工程師們。)

特斯拉的工程師們並非孤例。那些經營工廠、更注重自身業務而非產品演示的人看不到投資回報率,這就是為什麼像Figure這樣的公司將重心轉向家庭領域的原因。這才是夢想。家用機器人就像是家政阿姨羅西。但要把機器人放在家裡,和孩子們一起生活,它們必須非常可靠。

為了讓人形機器人真正在家中發揮作用,我們想提出“家庭評估”的概念

這個類人機器人需要在家裡和一群活潑好動的八歲孩子一起玩耍,他們會想方設法絆倒、翻滾、滑倒它——而且不能傷到他們。即使是人類,當孩子們在樓梯上跳到你背上時,也很難保持平衡。就算你摔倒在他們身上,至少你還有柔軟的血肉之軀。機器人就沒那麼幸運了。用強化學習來訓練這種類人機器人難度更大,但在我們把它帶回家之前,我們需要親眼見證這一點。6

有一些有趣的家居解決方案與我們的論點不謀而合。MaticNeo都在利用不同的視角,通過學習用戶家中的各種功能來獲取收益。Matic 從簡單而實用的吸塵和拖地入手,逐步學習家居環境,並在此基礎上不斷擴展功能。Neo 則通過遠程操控機器人收集數據。

但實際上,自主人形機器人並不存在。


我們可以坐等人形機器人出現,也可以現在就開始向客戶學習,瞭解機器人可能具備的各種能力,不斷拓展應用場景,並以此為生,持續學習和完善這些應用案例。而我們的競爭對手們,恐怕還在實驗室裡苦苦鑽研。

我們正利用這個先發優勢全力奔跑。我們能夠跑得這麼快的一個重要原因是,我們實行了垂直整合。

為什麼要進行垂直整合?

部署能夠加速學習的一個重要原因與模型無關,而與硬件息息相關。

請記住,數據與硬件協同工作時,效率會提高 100 到 1000 倍。您控制的硬件越多,這句話就越成立。

大多數實驗室都使用來自像優尼特瑞(Unitree)這樣的中國公司的廉價機械臂。短期來看,這很划算。這些機械臂性能確實不錯,而且價格非常便宜,只需幾千美元。

Standard Bots 公司押注垂直整合

我們製造了一種工業級機械臂,專為端到端人工智能控制而設計。特別是關節處的扭矩傳感功能。因為在進行人工智能應用時,我們需要能夠記錄人與世界的交互方式,然後利用這些交互數據訓練模型,使其能夠重現這種交互。

這就是為什麼我們如此重視扭矩感知和扭矩驅動:這樣電機才能精確控制關節的推力,機器人才能感知環境通過關節產生的反作用力。如果沒有這些功能,那麼在抓取、放置或摺疊等操作中,人工智能就只能發揮其作用了。

我們創造了一種獨特的扭矩傳感方法。其他廠商都採用應變片或基於電流的扭矩傳感技術。而我們則通過測量金屬的彎曲程度直接測量扭矩,這種方法更精確、更易於維修、更易於製造,各方面性能都更勝一籌。這是一款真正卓越的扭矩傳感產品。

為了實現這一點,我們幾乎所有東西都是自己生產的。就連電機換向控制器也是我們自己製造的。我們不生產的只有軸承和芯片。其他大部分部件都將由我們自己生產。所以這才是真正的深度垂直整合。

但這是必要的。舊款機器人無法與新款機器人兼容

舊式機器人是為運動回放而設計的:你給機器人發送一個30秒的軌跡,機器人就會執行它。而人工智能需要100Hz的實時控制。你需要根據模型實時觀察到的情況,每秒發送100次新的指令。很多現有的

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論