機器人開始“吃數據”：從印度數據工廠到百億美元人形機器人的隱秘生產鏈

MarsBit

在印度的某個服裝加工廠中，工人們正在像往常一樣整理布料，但這次不同的是，他們的頭上多了一個攝像頭，用來拍攝自己工作時的第一視角視頻。

這些視頻，將會在處理之後成為數據資產，出售給那些需要大量數據來訓練機器人的具身智能公司。

類似的生意從今年開始，正在加速形成一條新的產業鏈，而這條產業鏈的興起，就源於具身智能行業目前所遇到的最大卡點：數據。

「今年需求明顯起來了。」一位從事機器人數據採集的業內人士告訴42號電波，自己團隊所服務的歐美機器人公司，正在大量採購人類工作數據。目前團隊已經有近百名採集員參與到機器人訓練數據生產中，一個月能穩定產出數千小時人類第一視角視頻數據。

採集員需要按照標準流程，完成整理衣服、廚房歸納、抓取物品等任務，過程中佩戴頭部攝像頭，有些任務還要用數據手套記錄更精細的手部動作。

「以前行業都在聊模型、聊硬件，現在越來越多人開始問，數據能不能穩定供給？」

大家開始清晰地意識到，模型能力遲遲無法突破，數據規模不足就是最大的問題。

而在具身模型巨大的數據缺口下，數據採集這門新的生意，也開始迅速形成。

機器人為什麼開始缺數據？

如果把時間撥回三年前，機器人更像傳統自動化產業。

多數機器人被固定在工廠裡，工作流程高度結構化：焊接、搬運、噴塗、裝配。它們不需要理解複雜環境，也不需要學習泛化能力，只需要在既定軌跡裡重複動作。

而現在，許多公司想做的，已經不是傳統工業機器人。從特斯拉、Figure再到PI，行業正在嘗試讓機器人像大模型一樣，被訓練出來，並且具備通用能力。

所以具身模型所走的路也開始越來越像大語言模型（LLM），只不過具身模型所走的路，比LLM更加艱難，尤其是在數據領域。

對於LLM來說，互聯網本身就是一個天然的數據金礦，數十年來積累下來的網頁、書籍、論文、代碼倉庫等，構成了海量的訓練語料，模型公司通常只需要解決如何篩選和清洗數據的問題，很少需要從零開始創造數據。

但具身模型不同，它面對的是物理世界，是一片數據荒漠。機器人的動作數據不會憑空產生，即便互聯網中有許多人類工作視頻，可對於機器人來說，這樣的數據量級仍然不夠，並且整體質量也不夠高。

如果說LLM出生在圖書館，機器人更像出生在一片荒漠當中。

所以當AI已經進入算力競爭和推理優化的階段時，具身智能行業仍然被困在最基礎的問題上：數據從哪裡來。

這也是為什麼，即便如今的模型架構越來越複雜，機器人距離真正進入家庭和複雜場景，依然很遠。

因為模型缺少足夠多的現實經驗。

此前，Figure創始人Brett Adcock曾拋出過一個很直接的觀點：「如果打個響指，真正需要的海量數據就能塞進Helix模型的話，我們立刻就能搞定通用機器人。」

可問題在於，數據從哪裡來？

一小時數據，是怎麼生產出來的？

今年2月，一個研究結果開始讓行業興奮起來。

英偉達團隊發佈了EgoScale，通過超2萬小時帶動作標註的人類第一視角視頻預訓練模型，再用少量機器人數據微調，就可以讓Sharpa Wave 22自由度靈巧手完成擰瓶蓋、疊衣服等任務。

人形機器人

更重要的是，研究發現，隨著人類數據規模增加，模型表現會穩定提升，這種提升是可預測的。

這項研究對於具身行業來說非常重要，畢竟一條可以Scaling的數據路線，意味著機器人能力的增長，有機會像大模型一樣，進入一個「更多數據，帶來更強能力」的正循環。

過去很長時間裡，具身行業一直有一種焦慮，即便投入更多資金，模型能力的提升依然高度不可預測。因為真實世界數據太少、成本太高，很少有人敢在數據領域投入巨大資金。

但EgoScale某種程度上證明了一件事，至少在人類第一視角數據（Ego Data）上，規模確實能夠給靈巧手操作帶來穩定收益。

人形機器人

與此同時也有越來越多機器人公司開始走向大量人類數據+少量機器人本體數據的路徑。

人類第一視角視頻，負責告訴模型人是怎麼完成任務的，機器人數據，則負責讓模型學會自己的身體應該怎麼做。

所以Ego Data的主要價值是作為一種更容易規模化的先驗知識，讓機器人先理解物理世界，再通過少量真機數據完成適配。

於是，圍繞Ego Data的新產業鏈，也開始在今年明顯加速。

人類在頭部或者胸前戴上一個攝像頭，然後執行具體任務，比如整理衣物、收納廚房、分揀包裹時，攝像頭會記錄人類工作時的第一視角視頻。

從某種程度上說，人類本身就是世界上最成熟的通用機器人。進入廚房時，人會自然判斷先放什麼、後放什麼，空間不夠時，會騰出另一隻手。碰到易碎品時，會下意識調整力度。

這些看似本能的動作背後，實際上隱藏著大量空間理解、任務規劃和物體交互邏輯。

而過去，機器人幾乎從未系統獲得過這些經驗。

人形機器人

但Ego Data並不是隨便拍視頻，並且拍足夠規模的視頻也不是最大難點，關鍵在於如何把這些經驗，變成一種可以被模型真正使用的數據產品。

一位在今年開始加速佈局Ego數據的從業者告訴42號電波，真正的數據採集，通常從客戶發來的一份任務specification（規格文檔）開始。

這類文檔裡，並不會簡單寫一句「採廚房整理數據」，往往都會有明確的規定：

任務類型是什麼、雙手是否必須完整進入畫面、攝像頭需要位於頭部還是胸前、動作是否允許中斷、環境需要多少種變化、需不需要失敗樣本、最終交付格式是否要兼容訓練框架。

例如同樣是整理廚房，客戶可能要求：連續完成打開櫃門、尋找容器、騰挪空間、取放物品、關門等多個步驟，中間不能跳幀，也不能出現嚴重遮擋。

某種程度上說，這更像是在生產一種工業品，採集現場的整個過程也遠比想象中更「工廠化」。

在一些數採中心裡，採集員會輪流進入被佈置好的廚房、衣帽間、貨架區，按照統一SOP重複執行任務。

有人負責整理衣物，有人反覆練習抓取不同尺寸的物品，也有人專門採集廚房歸納和搬運的數據。

同一個動作，往往還需要由不同身高、不同慣用手、不同操作習慣的人重複完成，試圖窮盡物理世界中可能出現的各種情況，畢竟機器人最終面對的是複雜現實世界，不是單一標準答案。

同樣是把杯子放進櫃子裡，有的人先騰空間，有的人會換一隻手，有的人習慣先打開櫃門，這些細微差異，恰恰構成了機器人泛化能力的一部分。

所以對許多具身模型來說，它們需要學習的，就是「人類通常會怎麼完成這件事」的邏輯。

這類數據相比較真機數據，更容易達成批量生產，在行業巨大的需求面前，只要規模跟得上、人力成本低，就有了盈利的基礎，也相對容易產生現金流。

但如果數據不符合客戶要求的話，就需要返工，真正客戶驗收通過的數據，遠少於原始拍攝時長，可直接進入訓練流程的有效時長更重要。

從這裡開始，行業逐漸出現了越來越明顯的分層。因為不同數據，價值差異極大，從成本、價值等綜合角度看，大致可以形成一座「數據金字塔」。

不同類型的數據，價值差異巨大

在「數據金字塔」中，最底層是互聯網數據，幾乎沒有什麼採集成本的同時，也有不小的規模。

機器人可以從中學習物體長什麼樣、廚房的大致佈局。但問題也很明顯，它只能幫助機器人「知道」，很難幫助機器人「做到」。現實世界真正困難的地方，是動作，摩擦力、重量、材質變化、空間限制、碰撞風險，這些都無法只靠普通視頻學會。

再往上是更高一層的人類數據，Ego Data就是其中最重要的部分，它可以從第一視角告訴模型人是怎麼操作的，這部分的視頻數據可以大規模用於預訓練，就像EgoScale中所做的那樣。

但機器人最終還要解決自己的身體應該怎麼做的問題。同樣是擰瓶蓋，人手輕鬆完成，機器人卻可能反覆失敗。

於是，數據手套帶來的感知數據開始越來越重要，普通的Ego Data只能告訴模型人看到了什麼、完成了什麼任務。可機器人最終還需要知道什麼時候該加大力度，什麼時候需要放鬆。

這些細微動作，很難僅靠視頻推斷出來，所以越來越多公司開始嘗試把手部動作捕捉、姿態估計、關節軌跡與視覺數據進行對齊。

視頻負責提供空間理解，手套負責提供動作細節，而遙操的真機數據則進一步幫助機器人理解自己的身體該如何執行。

人形機器人

不過目前行業還存在一個很現實的問題，手套標準仍然很不統一。不同設備的採樣頻率、關節定義、精度和動作表達方式差異很大，如何把人類動作穩定映射到不同機器人身體，還是一個不小的卡點。

所以如果不戴數據手套，只用頭戴攝像頭拍攝，這時候Ego Data的價格並不算太高，可一旦加上數據手套，價格就會迅速上升。

金字塔再往上去就是仿真數據，通過數字孿生環境，機器人可以在虛擬世界中高速訓練，反覆經歷數百萬次抓取、導航和避障。現實中一個月才能完成的數據量，在仿真環境裡可能幾天就能跑完。

不過仿真終究不是現實世界，雖然量大且成本低，但現實中的摩擦力、材質變化、反光等各種偶然因素，很難被完全復刻，這也是行業裡常提到的「Sim-to-Real Gap」，機器人在仿真中學得很好，一旦走入真實環境，能力往往會大打折扣。

而金字塔的頂層，就是質量最高、也最貴最稀缺的真機數據，主要是靠操作員遙操等方式，控制機器人完成具體任務，機器人會同步記錄視覺、動作、控制信號和傳感器狀態。

與人類數據不同，它天然就在機器人的動作空間裡，模型不用再費力理解人類動作如何映射到機器人身體。另外真機數據也包含其在應用時所產出的自主工作數據，但現在的機器人普遍還沒有大規模應用，所產出的數據同樣稀少。

而且真機數據的關鍵問題就是生產效率非常低，要想提高數據規模的話，就需要增加更多的機器人和操作員，並且還有高昂的場地和設備損耗成本，都會迅速推高價格。

多位業內人士給出的價格情況大概是，最簡單的Ego Data往往只需要幾十元一小時，而涉及遙操的機器人本體數據，價格通常會上升到數百甚至上千元一小時。

在不同廠商機器人模型的訓練過程中，數據金字塔的各層所發揮的作用也各不相同，因此整個行業也湧現出了仿真、人類第一視角數據等側重點各不相同的上游數據公司。

誰在交易這些數據？

當一個規模巨大的行業興起時，最先盈利的往往是上游「賣水人」。

具身智能行業同樣如此，過去一兩年內，全球範圍內湧現出了非常多的機器人初創公司，各行各業的人才都在往這個領域聚集。

幾乎每天都有新的公司宣佈完成融資，國內百億估值的公司開始越來越多，一些公司甚至走上了IPO的道路，目光轉到國外，Figure在去年完成C輪融資後，估值已經達到了390億美元，位列人形機器人公司第一。

大家都想做通用人形機器人，又都需要需要海量數據，同時因為資本的不斷湧入，整個賽道還處於並不缺錢的狀態。

所以在這些有強烈數據需求、又有充足研發資金的公司背後，機器人產業上游的「賣水人」越來越多，因此逐漸形成了機器人產業的數據生產鏈。

而且隨著行業發展，圍繞機器人訓練所需的數據，這些上游公司也開始形成了明顯的分層，從目前的行業結構來看，大致可以分成五類玩家。

人形機器人

第一類是低成本數據工廠，採集的重點是Ego Data，在印度、泰國等地，已經有越來越多的團隊開始組織低成本勞動力，搭建數據採集網絡。

比如近期就有一家叫Neocambrian AI的初創公司，已經在印度啟動了一項機器人數據工廠項目，為具身模型收集人類動作數據，尤其是Ego Data，其創始人也特別強調了印度擁有龐大的勞動力，也是其發展物理AI數據集的一大優勢。

數據採集員戴上頭部攝像設備、動作捕捉手套，按照任務流程完成工作，再由後端團隊進行清洗、標註、驗收，最後交付給機器人公司。

從商業模式看，它們和早年服務大模型的數據標註公司很像，只是過去標的是文本、圖片和語音，現在開始生產物理世界經驗。

一位行業人士也告訴我們，過去一年裡，明顯感覺到海外客戶需求在增加。尤其是歐美機器人公司，「他們對數據規格會更明確，知道自己要什麼。」

因為機器人數據並不是「拍視頻」那麼簡單，許多客戶真正需要是一套可以直接進入訓練管線的數據，包括時間序列、多視角畫面、動作軌跡、傳感器狀態、手部姿態、環境metadata，以及最終適配的訓練格式。

在這個過程中，越來越多公司也發現，僅僅依賴低成本人力，其實很難形成長期壁壘。未來這些低成本數據工廠，最大的競爭壁壘還是要看交付的數據能不能更容易地被直接使用。

而且問題也很現實，這種業務天然容易商品化，一個團隊能做，另一個團隊理論上也能做，價格逐漸透明後，利潤空間往往會被壓縮。

所以低成本交付能力，是它們最大的優勢，但也可能成為天花板。

第二類是動作採集與對齊層，比起單純採視頻，這類玩家試圖解決「動作如何被機器真正理解」的問題，它們的重點不只是數據量，動作表達更加重要。

比如數據手套、動捕、手部追蹤、動作重定向、操作採集接口。

因為機器人真正困難的部分，很多時候不是看不看得懂，而是怎麼動。同樣是抓一個杯子，不同機器人靈巧手的自由度不同、指節結構不同、力控能力不同。

這就會產生一個關鍵問題，人類動作，如何穩定映射到不同機器人身體？

所以越來越多公司開始更加關注動作重定向，在這個過程中，視頻負責告訴機器人的是人類做了什麼，動作層，則進一步回答機器人自己該怎麼做。

這一層真正的價值，往往不是硬件本身，更穩定地完成「動作翻譯」是核心。

第三類則是Robot-Native數據層，一般是第三方遙操和真機數據服務商，這類玩家最核心的特點在於離機器人本體更近，甚至很多時候，本身就需要和機器人公司深度綁定。

因為相比其他數採細分來說，真機數據高度依賴大量具體的機器人，而不同公司機器人的硬件不一樣，自由度、動作空間、控制接口有很大差異，同樣是一份抓取任務，換一個機器人可能就需要重新採。

在過程中，他們會提供、遙操員、場地和真機採集能力，幫助機器人公司快速積累訓練數據，尤其是在模型早期驗證階段，當機器人公司自己還沒有足夠團隊和場地時，外部服務商往往能夠更快啟動。

第四類則是仿真合成數據公司，他們不只賣數據，重點在於嘗試打造一種更完整的數據能力。

人形機器人

在產出數據的同時，也幫助客戶回答機器人為什麼任務失敗，以及下一批數據該怎麼採的問題，這是今天許多公司正在走的新路線。

邏輯很簡單，機器人訓練一天，可能只夠積累幾個小時的有效軌跡。但在仿真世界裡，同樣的時間機器人可以失敗幾百萬次，抓取失敗、路徑規劃錯誤、碰撞、跌倒，都可以被無限重複。

所以行業也開始逐漸形成一種新的組合方式，真實數據負責錨定現實，仿真合成數據負責規模擴張。

英偉達在GR00T路線中也多次強調，機器人基礎模型不僅需要人類示範數據，也需要大量合成數據。開發者可以先通過真實世界採集獲得先驗，再借助仿真擴展任務規模。

模型在仿真中失敗越多，越知道缺什麼數據，而誰能最快生產這些數據，誰就更有機會佔據優勢。

第五類玩家更偏向於數據標準與平臺層，在擴張數據規模的同時，探索如何讓數據供給本身變得更標準、更容易流通。

因為機器人公司開始越來越多，數據也變得高度碎片化，採集方式不同、動作表達不同、格式標準不同，同一份數據，很多時候甚至難以直接複用。

在這種背景下，今年來圍繞具身數據標準化、協同採集的嘗試也開始明顯增加。

對於當下的機器人行業來說，缺乏數據只是其中一個問題，數據能不能持續穩定地產生，更容易進入訓練流程，同樣非常關鍵。

不過不管是人類數據、真機數據還是仿真等各類數據玩家，最終都要回答這樣一個問題：機器人公司會不會把這些核心能力交給外部供應商？

畢竟對於今天的大多數具身公司來說，數據不僅是成本，也是壁壘。

機器人公司，到底該買數據還是自己採？

進入到今年後，數據在機器人行業中的地位舉足輕重，所有人都知道機器人缺數據。

而相較於從前，今天市場上的數據供給選擇開始越來越多，不同的數據類型都有其供應商可選，對於機器人公司來說，買數據開始變得越來越容易。

但現實情況卻有些不同，一邊是越來越多機器人公司開始採購數據，另一邊是頭部公司又在拼命搭建自己的數據團隊。

人形機器人

如果往下拆，會發現不同數據，決定了完全不同的組織方式。

某種程度上機器人公司真正形成的是，「分層採購」邏輯。

其中第一層是基礎通用數據，這是最容易被外包的一層。

例如廚房收納、整理桌面、基礎抓取、分揀、搬運等行為，這類數據有一個共同特點，不管機器人長什麼樣，最終都需要理解人類是如何完成任務的。

比如一個機器人進入廚房後，什麼時候先騰出一隻手，什麼時候先整理大物體，再整理小物體，物品太多時，空間如何重新規劃？

這些能力本質上屬於通用物理世界認知，不是某一家機器人的獨佔能力。

類似這類的Ego數據如果自己從零開始採，需要搭起團隊，管理成本比較高。

相比之下，外部團隊可以在東南亞、印度等地區快速擴張採集規模，一個月就能穩定產出數千小時。

對於機器人公司來說，很多時候先買，比自己建團隊更划算。因為在這一階段目標不是讓機器人穩定幹活，而是先理解世界。

所以這類數據外包是合理的，甚至是效率更高的選擇。

第二層則是具身適配數據，機器人公司會比較傾向於自己採。

在通過大量基礎數據進行預訓練後，這時訓練就開始涉及到機器人真正部署的核心環節，任務對齊。

所以邏輯就開始出現了變化，因為每家公司機器人的本體都有很大差異，自由度不同、靈巧手不同，關節等方面的能力也不同。機器人最終需要學習的動作邏輯，也會有很大的區別。

越靠近動作執行層，數據越難通用。所以很多公司雖然大量採購Ego Data，但仍然在內部搭建數採團隊，進行真機數據的採集。因為這一層，已經開始接近模型真正的競爭力。

第三層則是部署數據與失敗數據，這是相當關鍵的一層，往往產生在實際部署之後。

在機器人被部署到實際的應用場景後，其工作的真實環境中往往會遇到中各種各樣的偶發情況，這些真實場景中產生的部署數據，不論是成功還是失敗，都極具價值，並且在前置的數據採集中很少遇到，難以被提前設計，只能在真實環境中一點一點積累。

而且很多公司也難以將自己的機器人大量部署到真實場景中，所以真實部署數據就無從談起了。

部署過程中，機器人在多變環境下不斷積累，哪怕是失敗數據，也有助於團隊針對性的找出原因，並做出對策，以此來優化模型，進而再促進機器人的規模落地。

這些屬於頭部機器人公司的核心數據，也是他們區別於競爭對手的壁壘。

這在一定程度上也也限制了數據公司的天花板，它們能幫助機器人「入門」，真正決定能力上限的數據，許多頭部公司最終還是會選擇自己掌握。

所以數據行業分化出的兩種不同路徑也有跡可循，一種是數據工廠，另一種是數據引擎。

數據工廠是目前行業裡出現最快、數量最多，也更容易形成現金流的一類公司。

其中，低成本數據工廠更看重人類行為數據，依賴低成本的勞動力優勢，按小時收費、追求規模和交付能力，現金流可能很快轉正，但壁壘有限，入局的競爭者正在迅速增多，尤其是在EgoScale之後，大量初創公司開始湧入人類數據。

更高複雜度的數據工廠，在覆蓋人類行為數據的基礎上，批量部署機器人，通過遙操或本體自主運行的方式，大量採集真機數據。

另一種路徑，試圖做的是數據引擎，梳理任務分類體系、搭建數據結構、實現動作重定向、接入仿真平臺、落地模型評測，並依託模型失效樣本迭代反向生產數據集。

換句話說，他們在做的事情不只是出售數據，重點是讓機器人擁有持續變聰明的能力。

機器人版Scale AI，會出現嗎？

把今天的機器人行業，放回到2022年的大模型裡，會發現一種相似感。

當時的行業也發現，真正決定模型能力上限的東西，是數據。

於是，圍繞數據清洗、RLHF、評測、後訓練這些領域，一批新的公司也開始迅速崛起，最經典的就是Scale AI。

這家公司在早期階段幫自動駕駛公司標數據，從2019年開始，Scale AI在GPT-2階段就深度綁定了OpenAI，承接RLHF人類反饋標註、大模型評測、紅隊測試、邊緣案例反向造數據。

在ChatGPT爆火後，Meta Llama、Anthropic、微軟Azure等迅速接入，大模型對高質量標註、測評、合成數據的需求暴漲，這家公司的營收3年翻了4倍以上。

後來，這家公司也開始逐漸走向更深的基礎設施層，數據管理、模型評測、AI workflow。

因為Scale AI的成功經驗，很多人也在憧憬，機器人行業，會不會也出現一家類似的公司？

從目前數據的短缺程度來看，很有可能會，但也不會完全複製。

因為機器人所需的數據比文本要複雜許多，對於大模型來說，一個答案對錯相對容易判斷。但機器人世界裡，一個動作是否成功，往往充滿模糊性。

杯子拿起來了，但角度不對。東西放回去了，但碰倒了其他物體，而且很多時候完成任務本身就存在多種正確路徑。

所以機器人行業真正需要的，並不是一個簡單的數據平臺，重點是一整套採集、標註、動作映射、仿真擴增、模型評測、失敗反饋的數據閉環。

機器人真正缺的不只是數據，持續生產有效經驗的能力更為稀缺。

所以越來越多的公司開始把競爭焦點，從機器人本體、模型架構轉向數據體系。

今年以來，無論是Figure、1X、PI，還是NVIDIA所推動的GR00T路線，都在反覆強調一個共同方向，機器人的能力增長，硬件升級只是一部分，更多的數據和更有效訓練開始成為主角。

從某種程度上說，在機器人行業量產落地階段開啟後，大家也正在從「造機器」進入到「喂機器」的新時期。

在機器人還站不起來、走不了路的階段，具身公司最大的競爭力是能不能把硬件和運動控制做好。

可當機器人能跑能跳，在許多比賽上的成績可以超越人類時候，自主工作的能力又成了行業最大的目標，在這個目標的驅使下，行業的主旋律就變成了大規模的高質量數據。

機器人要想在複雜現實世界裡持續成功，就需要見過足夠多物理空間中真實存在的任務，知道杯子可能打翻、衣服可能纏住、空間可能不夠，這些經驗，不會天然存在於互聯網裡，它只能被一點點生產出來。

所以這條數據產業鏈，也在這兩年的機器人熱潮背後，悄悄成型。

在鏈條一端，是印度工廠裡戴著攝像頭的人類，是仿真中不斷摔倒的機器人。

另一端，是估值數十億、百億、甚至上千億的機器人公司，他們正試圖讓機器人真正進入家庭、進入工廠。

從印度的數據工廠、仿真中的機器人，再到全球各大機器人公司，一條新的生產鏈已經開始形成，只是這一次，被生產的不再是零部件，而是數據。

本文來自微信公眾號： 42號電波，作者：蘭博，編輯：James，原文標題：《機器人開始「吃數據」：從印度數據工廠到百億美元人形機器人的隱秘生產鏈》