在印度的某個服裝加工廠中,工人們正在像往常一樣整理布料,但這次不同的是,他們的頭上多了一個攝像頭,用來拍攝自己工作時的第一視角視頻。
這些視頻,將會在處理之後成為數據資產,出售給那些需要大量數據來訓練機器人的具身智能公司。
類似的生意從今年開始,正在加速形成一條新的產業鏈,而這條產業鏈的興起,就源於具身智能行業目前所遇到的最大卡點:數據。
「今年需求明顯起來了。」一位從事機器人數據採集的業內人士告訴42號電波,自己團隊所服務的歐美機器人公司,正在大量採購人類工作數據。目前團隊已經有近百名採集員參與到機器人訓練數據生產中,一個月能穩定產出數千小時人類第一視角視頻數據。
採集員需要按照標準流程,完成整理衣服、廚房歸納、抓取物品等任務,過程中佩戴頭部攝像頭,有些任務還要用數據手套記錄更精細的手部動作。
「以前行業都在聊模型、聊硬件,現在越來越多人開始問,數據能不能穩定供給?」
大家開始清晰地意識到,模型能力遲遲無法突破,數據規模不足就是最大的問題。
而在具身模型巨大的數據缺口下,數據採集這門新的生意,也開始迅速形成。
機器人為什麼開始缺數據?
如果把時間撥回三年前,機器人更像傳統自動化產業。
多數機器人被固定在工廠裡,工作流程高度結構化:焊接、搬運、噴塗、裝配。它們不需要理解複雜環境,也不需要學習泛化能力,只需要在既定軌跡裡重複動作。
而現在,許多公司想做的,已經不是傳統工業機器人。從特斯拉、Figure再到PI,行業正在嘗試讓機器人像大模型一樣,被訓練出來,並且具備通用能力。
所以具身模型所走的路也開始越來越像大語言模型(LLM),只不過具身模型所走的路,比LLM更加艱難,尤其是在數據領域。
對於LLM來說,互聯網本身就是一個天然的數據金礦,數十年來積累下來的網頁、書籍、論文、代碼倉庫等,構成了海量的訓練語料,模型公司通常只需要解決如何篩選和清洗數據的問題,很少需要從零開始創造數據。
但具身模型不同,它面對的是物理世界,是一片數據荒漠。機器人的動作數據不會憑空產生,即便互聯網中有許多人類工作視頻,可對於機器人來說,這樣的數據量級仍然不夠,並且整體質量也不夠高。
如果說LLM出生在圖書館,機器人更像出生在一片荒漠當中。
所以當AI已經進入算力競爭和推理優化的階段時,具身智能行業仍然被困在最基礎的問題上:數據從哪裡來。
這也是為什麼,即便如今的模型架構越來越複雜,機器人距離真正進入家庭和複雜場景,依然很遠。
因為模型缺少足夠多的現實經驗。
此前,Figure創始人Brett Adcock曾拋出過一個很直接的觀點:「如果打個響指,真正需要的海量數據就能塞進Helix模型的話,我們立刻就能搞定通用機器人。」
可問題在於,數據從哪裡來?
一小時數據,是怎麼生產出來的?
今年2月,一個研究結果開始讓行業興奮起來。
英偉達團隊發佈了EgoScale,通過超2萬小時帶動作標註的人類第一視角視頻預訓練模型,再用少量機器人數據微調,就可以讓Sharpa Wave 22自由度靈巧手完成擰瓶蓋、疊衣服等任務。

更重要的是,研究發現,隨著人類數據規模增加,模型表現會穩定提升,這種提升是可預測的。
這項研究對於具身行業來說非常重要,畢竟一條可以Scaling的數據路線,意味著機器人能力的增長,有機會像大模型一樣,進入一個「更多數據,帶來更強能力」的正循環。
過去很長時間裡,具身行業一直有一種焦慮,即便投入更多資金,模型能力的提升依然高度不可預測。因為真實世界數據太少、成本太高,很少有人敢在數據領域投入巨大資金。
但EgoScale某種程度上證明了一件事,至少在人類第一視角數據(Ego Data)上,規模確實能夠給靈巧手操作帶來穩定收益。

與此同時也有越來越多機器人公司開始走向大量人類數據+少量機器人本體數據的路徑。
人類第一視角視頻,負責告訴模型人是怎麼完成任務的,機器人數據,則負責讓模型學會自己的身體應該怎麼做。
所以Ego Data的主要價值是作為一種更容易規模化的先驗知識,讓機器人先理解物理世界,再通過少量真機數據完成適配。
於是,圍繞Ego Data的新產業鏈,也開始在今年明顯加速。
人類在頭部或者胸前戴上一個攝像頭,然後執行具體任務,比如整理衣物、收納廚房、分揀包裹時,攝像頭會記錄人類工作時的第一視角視頻。
從某種程度上說,人類本身就是世界上最成熟的通用機器人。進入廚房時,人會自然判斷先放什麼、後放什麼,空間不夠時,會騰出另一隻手。碰到易碎品時,會下意識調整力度。
這些看似本能的動作背後,實際上隱藏著大量空間理解、任務規劃和物體交互邏輯。
而過去,機器人幾乎從未系統獲得過這些經驗。

但Ego Data並不是隨便拍視頻,並且拍足夠規模的視頻也不是最大難點,關鍵在於如何把這些經驗,變成一種可以被模型真正使用的數據產品。
一位在今年開始加速佈局Ego數據的從業者告訴42號電波,真正的數據採集,通常從客戶發來的一份任務specification(規格文檔)開始。
這類文檔裡,並不會簡單寫一句「採廚房整理數據」,往往都會有明確的規定:
任務類型是什麼、雙手是否必須完整進入畫面、攝像頭需要位於頭部還是胸前、動作是否允許中斷、環境需要多少種變化、需不需要失敗樣本、最終交付格式是否要兼容訓練框架。
例如同樣是整理廚房,客戶可能要求:連續完成打開櫃門、尋找容器、騰挪空間、取放物品、關門等多個步驟,中間不能跳幀,也不能出現嚴重遮擋。
某種程度上說,這更像是在生產一種工業品,採集現場的整個過程也遠比想象中更「工廠化」。
在一些數採中心裡,採集員會輪流進入被佈置好的廚房、衣帽間、貨架區,按照統一SOP重複執行任務。
有人負責整理衣物,有人反覆練習抓取不同尺寸的物品,也有人專門採集廚房歸納和搬運的數據。
同一個動作,往往還需要由不同身高、不同慣用手、不同操作習慣的人重複完成,試圖窮盡物理世界中可能出現的各種情況,畢竟機器人最終面對的是複雜現實世界,不是單一標準答案。
同樣是把杯子放進櫃子裡,有的人先騰空間,有的人會換一隻手,有的人習慣先打開櫃門,這些細微差異,恰恰構成了機器人泛化能力的一部分。
所以對許多具身模型來說,它們需要學習的,就是「人類通常會怎麼完成這件事」的邏輯。
這類數據相比較真機數據,更容易達成批量生產,在行業巨大的需求面前,只要規模跟得上、人力成本低,就有了盈利的基礎,也相對容易產生現金流。
但如果數據不符合客戶要求的話,就需要返工,真正客戶驗收通過的數據,遠少於原始拍攝時長,可直接進入訓練流程的有效時長更重要。
從這裡開始,行業逐漸出現了越來越明顯的分層。因為不同數據,價值差異極大,從成本、價值等綜合角度看,大致可以形成一座「數據金字塔」。
不同類型的數據,價值差異巨大
在「數據金字塔」中,最底層是互聯網數據,幾乎沒有什麼採集成本的同時,也有不小的規模。
機器人可以從中學習物體長什麼樣、廚房的大致佈局。但問題也很明顯,它只能幫助機器人「知道」,很難幫助機器人「做到」。現實世界真正困難的地方,是動作,摩擦力、重量、材質變化、空間限制、碰撞風險,這些都無法只靠普通視頻學會。
再往上是更高一層的人類數據,Ego Data就是其中最重要的部分,它可以從第一視角告訴模型人是怎麼操作的,這部分的視頻數據可以大規模用於預訓練,就像EgoScale中所做的那樣。
但機器人最終還要解決自己的身體應該怎麼做的問題。同樣是擰瓶蓋,人手輕鬆完成,機器人卻可能反覆失敗。
於是,數據手套帶來的感知數據開始越來越重要,普通的Ego Data只能告訴模型人看到了什麼、完成了什麼任務。可機器人最終還需要知道什麼時候該加大力度,什麼時候需要放鬆。
這些細微動作,很難僅靠視頻推斷出來,所以越來越多公司開始嘗試把手部動作捕捉、姿態估計、關節軌跡與視覺數據進行對齊。
視頻負責提供空間理解,手套負責提供動作細節,而遙操的真機數據則進一步幫助機器人理解自己的身體該如何執行。

不過目前行業還存在一個很現實的問題,手套標準仍然很不統一。不同設備的採樣頻率、關節定義、精度和動作表達方式差異很大,如何把人類動作穩定映射到不同機器人身體,還是一個不小的卡點。
所以如果不戴數據手套,只用頭戴攝像頭拍攝,這時候Ego Data的價格並不算太高,可一旦加上數據手套,價格就會迅速上升。
金字塔再往上去就是仿真數據,通過數字孿生環境,機器人可以在虛擬世界中高速訓練,反覆經歷數百萬次抓取、導航和避障。現實中一個月才能完成的數據量,在仿真環境裡可能幾天就能跑完。
不過仿真終究不是現實世界,雖然量大且成本低,但現實中的摩擦力、材質變化、反光等各種偶然因素,很難被完全復刻,這也是行業裡常提到的「Sim-to-Real Gap」,機器人在仿真中學得很好,一旦走入真實環境,能力往往會大打折扣。
而金字塔的頂層,就是質量最高、也最貴最稀缺的真機數據,主要是靠操作員遙操等方式,控制機器人完成具體任務,機器人會同步記錄視覺、動作、控制信號和傳感器狀態。
與人類數據不同,它天然就在機器人的動作空間裡,模型不用再費力理解人類動作如何映射到機器人身體。另外真機數據也包含其在應用時所產出的自主工作數據,但現在的機器人普遍還沒有大規模應用,所產出的數據同樣稀少。
而且真機數據的關鍵問題就是生產效率非常低,要想提高數據規模的話,就需要增加更多的機器人和操作員,並且還有高昂的場地和設備損耗成本,都會迅速推高價格。
多位業內人士給出的價格情況大概是,最簡單的Ego Data往往只需要幾十元一小時,而涉及遙操的機器人本體數據,價格通常會上升到數百甚至上千元一小時。
在不同廠商機器人模型的訓練過程中,數據金字塔的各層所發揮的作用也各不相同,因此整個行業也湧現出了仿真、人類第一視角數據等側重點各不相同的上游數據公司。
誰在交易這些數據?
當一個規模巨大的行業興起時,最先盈利的往往是上游「賣水人」。
具身智能行業同樣如此,過去一兩年內,全球範圍內湧現出了非常多的機器人初創公司,各行各業的人才都在往這個領域聚集。
幾乎每天都有新的公司宣佈完成融資,國內百億估值的公司開始越來越多,一些公司甚至走上了IPO的道路,目光轉到國外,Figure在去年完成C輪融資後,估值已經達到了390億美元,位列人形機器人公司第一。
大家都想做通用人形機器人,又都需要需要海量數據,同時因為資本的不斷湧入,整個賽道還處於並不缺錢的狀態。
所以在這些有強烈數據需求、又有充足研發資金的公司背後,機器人產業上游的「賣水人」越來越多,因此逐漸形成了機器人產業的數據生產鏈。
而且隨著行業發展,圍繞機器人訓練所需的數據,這些上游公司也開始形成了明顯的分層,從目前的行業結構來看,大致可以分成五類玩家。

第一類是低成本數據工廠,採集的重點是Ego Data,在印度、泰國等地,已經有越來越多的團隊開始組織低成本勞動力,搭建數據採集網絡。
比如近期就有一家叫Neocambrian AI的初創公司,已經在印度啟動了一項機器人數據工廠項目,為具身模型收集人類動作數據,尤其是Ego Data,其創始人也特別強調了印度擁有龐大的勞動力,也是其發展物理AI數據集的一大優勢。
數據採集員戴上頭部攝像設備、動作捕捉手套,按照任務流程完成工作,再由後端團隊進行清洗、標註、驗收,最後交付給機器人公司。
從商業模式看,它們和早年服務大模型的數據標註公司很像,只是過去標的是文本、圖片和語音,現在開始生產物理世界經驗。
一位行業人士也告訴我們,過去一年裡,明顯感覺到海外客戶需求在增加。尤其是歐美機器人公司,「他們對數據規格會更明確,知道自己要什麼。」
因為機器人數據並不是「拍視頻」那麼簡單,許多客戶真正需要是一套可以直接進入訓練管線的數據,包括時間序列、多視角畫面、動作軌跡、傳感器狀態、手部姿態、環境metadata,以及最終適配的訓練格式。
在這個過程中,越來越多公司也發現,僅僅依賴低成本人力,其實很難形成長期壁壘。未來這些低成本數據工廠,最大的競爭壁壘還是要看交付的數據能不能更容易地被直接使用。
而且問題也很現實,這種業務天然容易商品化,一個團隊能做,另一個團隊理論上也能做,價格逐漸透明後,利潤空間往往會被壓縮。
所以低成本交付能力,是它們最大的優勢,但也可能成為天花板。
第二類是動作採集與對齊層,比起單純採視頻,這類玩家試圖解決「動作如何被機器真正理解」的問題,它們的重點不只是數據量,動作表達更加重要。
比如數據手套、動捕、手部追蹤、動作重定向、操作採集接口。
因為機器人真正困難的部分,很多時候不是看不看得懂,而是怎麼動。同樣是抓一個杯子,不同機器人靈巧手的自由度不同、指節結構不同、力控能力不同。
這就會產生一個關鍵問題,人類動作,如何穩定映射到不同機器人身體?
所以越來越多公司開始更加關注動作重定向,在這個過程中,視頻負責告訴機器人的是人類做了什麼,動作層,則進一步回答機器人自己該怎麼做。
這一層真正的價值,往往不是硬件本身,更穩定地完成「動作翻譯」是核心。
第三類則是Robot-Native數據層,一般是第三方遙操和真機數據服務商,這類玩家最核心的特點在於離機器人本體更近,甚至很多時候,本身就需要和機器人公司深度綁定。
因為相比其他數採細分來說,真機數據高度依賴大量具體的機器人,而不同公司機器人的硬件不一樣,自由度、動作空間、控制接口有很大差異,同樣是一份抓取任務,換一個機器人可能就需要重新採。
在過程中,他們會提供、遙操員、場地和真機採集能力,幫助機器人公司快速積累訓練數據,尤其是在模型早期驗證階段,當機器人公司自己還沒有足夠團隊和場地時,外部服務商往往能夠更快啟動。
第四類則是仿真合成數據公司,他們不只賣數據,重點在於嘗試打造一種更完整的數據能力。

在產出數據的同時,也幫助客戶回答機器人為什麼任務失敗,以及下一批數據該怎麼採的問題,這是今天許多公司正在走的新路線。
邏輯很簡單,機器人訓練一天,可能只夠積累幾個小時的有效軌跡。但在仿真世界裡,同樣的時間機器人可以失敗幾百萬次,抓取失敗、路徑規劃錯誤、碰撞、跌倒,都可以被無限重複。
所以行業也開始逐漸形成一種新的組合方式,真實數據負責錨定現實,仿真合成數據負責規模擴張。
英偉達在GR00T路線中也多次強調,機器人基礎模型不僅需要人類示範數據,也需要大量合成數據。開發者可以先通過真實世界採集獲得先驗,再借助仿真擴展任務規模。
模型在仿真中失敗越多,越知道缺什麼數據,而誰能最快生產這些數據,誰就更有機會佔據優勢。
第五類玩家更偏向於數據標準與平臺層,在擴張數據規模的同時,探索如何讓數據供給本身變得更標準、更容易流通。
因為機器人公司開始越來越多,數據也變得高度碎片化,採集方式不同、動作表達不同、格式標準不同,同一份數據,很多時候甚至難以直接複用。
在這種背景下,今年來圍繞具身數據標準化、協同採集的嘗試也開始明顯增加。
對於當下的機器人行業來說,缺乏數據只是其中一個問題,數據能不能持續穩定地產生,更容易進入訓練流程,同樣非常關鍵。
不過不管是人類數據、真機數據還是仿真等各類數據玩家,最終都要回答這樣一個問題:機器人公司會不會把這些核心能力交給外部供應商?
畢竟對於今天的大多數具身公司來說,數據不僅是成本,也是壁壘。
機器人公司,到底該買數據還是自己採?
進入到今年後,數據在機器人行業中的地位舉足輕重,所有人都知道機器人缺數據。
而相較於從前,今天市場上的數據供給選擇開始越來越多,不同的數據類型都有其供應商可選,對於機器人公司來說,買數據開始變得越來越容易。
但現實情況卻有些不同,一邊是越來越多機器人公司開始採購數據,另一邊是頭部公司又在拼命搭建自己的數據團隊。

如果往下拆,會發現不同數據,決定了完全不同的組織方式。
某種程度上機器人公司真正形成的是,「分層採購」邏輯。
其中第一層是基礎通用數據,這是最容易被外包的一層。
例如廚房收納、整理桌面、基礎抓取、分揀、搬運等行為,這類數據有一個共同特點,不管機器人長什麼樣,最終都需要理解人類是如何完成任務的。
比如一個機器人進入廚房後,什麼時候先騰出一隻手,什麼時候先整理大物體,再整理小物體,物品太多時,空間如何重新規劃?
這些能力本質上屬於通用物理世界認知,不是某一家機器人的獨佔能力。
類似這類的Ego數據如果自己從零開始採,需要搭起團隊,管理成本比較高。
相比之下,外部團隊可以在東南亞、印度等地區快速擴張採集規模,一個月就能穩定產出數千小時。
對於機器人公司來說,很多時候先買,比自己建團隊更划算。因為在這一階段目標不是讓機器人穩定幹活,而是先理解世界。
所以這類數據外包是合理的,甚至是效率更高的選擇。
第二層則是具身適配數據,機器人公司會比較傾向於自己採。
在通過大量基礎數據進行預訓練後,這時訓練就開始涉及到機器人真正部署的核心環節,任務對齊。
所以邏輯就開始出現了變化,因為每家公司機器人的本體都有很大差異,自由度不同、靈巧手不同,關節等方面的能力也不同。機器人最終需要學習的動作邏輯,也會有很大的區別。
越靠近動作執行層,數據越難通用。所以很多公司雖然大量採購Ego Data,但仍然在內部搭建數採團隊,進行真機數據的採集。因為這一層,已經開始接近模型真正的競爭力。
第三層則是部署數據與失敗數據,這是相當關鍵的一層,往往產生在實際部署之後。
在機器人被部署到實際的應用場景後,其工作的真實環境中往往會遇到中各種各樣的偶發情況,這些真實場景中產生的部署數據,不論是成功還是失敗,都極具價值,並且在前置的數據採集中很少遇到,難以被提前設計,只能在真實環境中一點一點積累。
而且很多公司也難以將自己的機器人大量部署到真實場景中,所以真實部署數據就無從談起了。
部署過程中,機器人在多變環境下不斷積累,哪怕是失敗數據,也有助於團隊針對性的找出原因,並做出對策,以此來優化模型,進而再促進機器人的規模落地。
這些屬於頭部機器人公司的核心數據,也是他們區別於競爭對手的壁壘。
這在一定程度上也也限制了數據公司的天花板,它們能幫助機器人「入門」,真正決定能力上限的數據,許多頭部公司最終還是會選擇自己掌握。
所以數據行業分化出的兩種不同路徑也有跡可循,一種是數據工廠,另一種是數據引擎。
數據工廠是目前行業裡出現最快、數量最多,也更容易形成現金流的一類公司。
其中,低成本數據工廠更看重人類行為數據,依賴低成本的勞動力優勢,按小時收費、追求規模和交付能力,現金流可能很快轉正,但壁壘有限,入局的競爭者正在迅速增多,尤其是在EgoScale之後,大量初創公司開始湧入人類數據。
更高複雜度的數據工廠,在覆蓋人類行為數據的基礎上,批量部署機器人,通過遙操或本體自主運行的方式,大量採集真機數據。
另一種路徑,試圖做的是數據引擎,梳理任務分類體系、搭建數據結構、實現動作重定向、接入仿真平臺、落地模型評測,並依託模型失效樣本迭代反向生產數據集。
換句話說,他們在做的事情不只是出售數據,重點是讓機器人擁有持續變聰明的能力。
機器人版Scale AI,會出現嗎?
把今天的機器人行業,放回到2022年的大模型裡,會發現一種相似感。
當時的行業也發現,真正決定模型能力上限的東西,是數據。
於是,圍繞數據清洗、RLHF、評測、後訓練這些領域,一批新的公司也開始迅速崛起,最經典的就是Scale AI。
這家公司在早期階段幫自動駕駛公司標數據,從2019年開始,Scale AI在GPT-2階段就深度綁定了OpenAI,承接RLHF人類反饋標註、大模型評測、紅隊測試、邊緣案例反向造數據。
在ChatGPT爆火後,Meta Llama、Anthropic、微軟Azure等迅速接入,大模型對高質量標註、測評、合成數據的需求暴漲,這家公司的營收3年翻了4倍以上。
後來,這家公司也開始逐漸走向更深的基礎設施層,數據管理、模型評測、AI workflow。
因為Scale AI的成功經驗,很多人也在憧憬,機器人行業,會不會也出現一家類似的公司?
從目前數據的短缺程度來看,很有可能會,但也不會完全複製。
因為機器人所需的數據比文本要複雜許多,對於大模型來說,一個答案對錯相對容易判斷。但機器人世界裡,一個動作是否成功,往往充滿模糊性。
杯子拿起來了,但角度不對。東西放回去了,但碰倒了其他物體,而且很多時候完成任務本身就存在多種正確路徑。
所以機器人行業真正需要的,並不是一個簡單的數據平臺,重點是一整套採集、標註、動作映射、仿真擴增、模型評測、失敗反饋的數據閉環。
機器人真正缺的不只是數據,持續生產有效經驗的能力更為稀缺。
所以越來越多的公司開始把競爭焦點,從機器人本體、模型架構轉向數據體系。
今年以來,無論是Figure、1X、PI,還是NVIDIA所推動的GR00T路線,都在反覆強調一個共同方向,機器人的能力增長,硬件升級只是一部分,更多的數據和更有效訓練開始成為主角。
從某種程度上說,在機器人行業量產落地階段開啟後,大家也正在從「造機器」進入到「喂機器」的新時期。
在機器人還站不起來、走不了路的階段,具身公司最大的競爭力是能不能把硬件和運動控制做好。
可當機器人能跑能跳,在許多比賽上的成績可以超越人類時候,自主工作的能力又成了行業最大的目標,在這個目標的驅使下,行業的主旋律就變成了大規模的高質量數據。
機器人要想在複雜現實世界裡持續成功,就需要見過足夠多物理空間中真實存在的任務,知道杯子可能打翻、衣服可能纏住、空間可能不夠,這些經驗,不會天然存在於互聯網裡,它只能被一點點生產出來。
所以這條數據產業鏈,也在這兩年的機器人熱潮背後,悄悄成型。
在鏈條一端,是印度工廠裡戴著攝像頭的人類,是仿真中不斷摔倒的機器人。
另一端,是估值數十億、百億、甚至上千億的機器人公司,他們正試圖讓機器人真正進入家庭、進入工廠。
從印度的數據工廠、仿真中的機器人,再到全球各大機器人公司,一條新的生產鏈已經開始形成,只是這一次,被生產的不再是零部件,而是數據。
本文來自微信公眾號: 42號電波 ,作者:蘭博,編輯:James,原文標題:《機器人開始「吃數據」:從印度數據工廠到百億美元人形機器人的隱秘生產鏈》

