인도의 한 의류 공장에서 작업자들이 평소처럼 원단을 분류하고 있지만, 이번에는 머리 위에 카메라를 설치하여 작업하는 모습을 1인칭 시점으로 촬영하고 있습니다.
이 영상들은 데이터 자산으로 처리되어 로봇 훈련에 대량 데이터가 필요한 인공지능 기업에 판매될 것입니다.
올해 들어 유사한 사업들이 빠르게 새로운 산업 사슬을 형성하고 있는데, 이러한 산업 사슬의 부상은 현재 지능형 기기 산업이 직면한 가장 큰 장애물인 데이터에서 비롯됩니다.
"올해 수요가 확실히 증가했습니다." 로봇 데이터 수집에 참여하는 한 업계 관계자는 라디오 42와의 인터뷰에서 이렇게 말했습니다. 그의 팀이 서비스를 제공하는 유럽과 미국의 로봇 회사들은 대량 의 인간 작업 데이터를 구매하고 있습니다. 현재 이 팀은 로봇 훈련 데이터 생산에 약 100명의 데이터 수집 담당자를 두고 있으며, 매달 수천 시간 분량의 인간 1인칭 시점 비디오 데이터를 꾸준히 생산하고 있습니다.
데이터 수집 담당자는 옷 정리, 주방 정리, 물건 집기 등의 작업을 완료하기 위해 표준 절차를 따라야 합니다. 이 과정에서 머리에 장착하는 카메라를 착용하며, 일부 작업에서는 보다 정밀한 손동작을 기록하기 위해 데이터 장갑을 사용해야 합니다.
"이전에는 업계가 모델과 하드웨어에 집중했지만, 이제는 점점 더 많은 사람들이 '데이터를 안정적으로 공급할 수 있을까?'라고 묻고 있습니다."
사람들은 가장 큰 문제가 데이터의 규모가 불충분하다는 점이며, 이 때문에 모델이 획기적인 발전을 이루지 못하고 있다는 사실을 분명히 깨닫기 시작했습니다.
실물 모델에 대한 데이터 부족 현상이 심각해짐에 따라 데이터 수집이라는 새로운 사업 분야가 빠르게 부상하고 있다.
로봇이 데이터 부족 현상을 겪기 시작하는 이유는 무엇일까요?
3년 전으로 시간을 되돌려보면, 로봇은 전통적인 자동화 산업과 더 유사한 형태였습니다.
대부분의 로봇은 공장 내 고정된 위치에서 용접, 운반, 도장, 조립과 같은 고도로 구조화된 작업 흐름을 수행합니다. 복잡한 환경을 이해하거나 일반화 능력을 학습할 필요가 없으며, 미리 정해진 경로 내에서 작업을 반복하기만 하면 됩니다.
이제 많은 기업들이 더 이상 전통적인 산업용 로봇을 만드는 데 목표를 두지 않고 있습니다. 테슬라, 피겨, PI 등 업계는 대형 모델처럼 로봇을 훈련시켜 범용적인 기능을 갖추도록 하는 데 주력하고 있습니다.
따라서, 구체화된 모델이 걸어온 길은 대규모 언어 모델(LLM)의 길과 점점 더 유사해지고 있지만, 특히 데이터 분야에서 구체화된 모델이 걸어온 길은 LLM보다 훨씬 더 어렵다는 점이 다르다.
LLM(로지스틱 회귀 모델)의 경우, 인터넷 자체가 방대한 데이터의 보고입니다. 수십 년에 걸쳐 축적된 웹 페이지, 서적, 논문, 코드 저장소 등은 엄청난 양의 학습 데이터를 구성합니다. 모델 개발 회사는 일반적으로 데이터를 필터링하고 정제하는 문제만 해결하면 되며, 데이터를 처음부터 생성해야 하는 경우는 드뭅니다.
하지만 실체화된 모델은 다릅니다. 그것들은 물리적인 세계, 즉 데이터의 불모지에 대면. 로봇 동작 데이터는 허공에서 생겨나는 것이 아닙니다. 인터넷에는 인간이 작업하는 영상이 많지만, 로봇에 필요한 데이터 양은 여전히 부족하고 전반적인 품질도 충분히 높지 않습니다.
법학 석사(LLM)가 도서관에서 탄생했다면, 로봇공학은 사막에서 탄생한 것과 더 비슷하다.
따라서 인공지능이 해시레이트 경쟁과 추론 최적화 단계에 진입한 반면, 인공지능 기반 산업은 여전히 가장 근본적인 질문, 즉 데이터는 어디에서 오는가라는 문제에 갇혀 있습니다.
바로 이러한 이유 때문에, 모델 아키텍처가 점점 더 복잡해지고 있음에도 불구하고, 로봇이 가정이나 복잡한 환경에 진정으로 진입하기까지는 아직 갈 길이 멉니다.
모델이 실제 경험이 부족하기 때문입니다.
앞서 Figure의 창립자 브렛 애드콕은 "만약 우리가 손가락 하나 까딱해서 필요한 엄청난 양의 데이터를 모두 헬릭스 모델에 집어넣을 수 있다면, 범용 로봇을 즉시 작동시킬 수 있을 것"이라고 매우 직설적 관점 말했다.
문제는 데이터가 어디에서 오는가 하는 점입니다.
한 시간 분량의 데이터는 어떻게 생성되는 걸까요?
올해 2월, 한 연구 결과가 업계에 큰 반향을 일으키기 시작했습니다.
NVIDIA 팀은 2만 시간 이상의 사전 학습 모델을 통해 얻은 EgoScale을 공개했습니다. 이 모델은 동작 주석이 포함된 인간 1인칭 시점 비디오를 사용하고 소량의 로봇 데이터로 더욱 정밀하게 조정하여 Sharpa Wave 22자유도 로봇 손이 병뚜껑을 돌리거나 옷을 접는 등의 작업을 수행할 수 있도록 합니다.

더욱 중요한 것은, 이 연구는 인간 데이터의 규모가 커질수록 모델의 성능이 꾸준히 향상되며, 이러한 향상은 예측 가능하다는 사실을 발견했다는 점입니다.
이 연구는 실물 기반 산업에 매우 중요합니다. 왜냐하면 확장 가능한 데이터 경로는 로봇 기능의 성장이 대형 모델처럼 "더 많은 데이터, 더 많은 기능"이라는 긍정적인 순환 고리에 진입할 가능성을 의미하기 때문입니다.
오랫동안 실체화 기술 산업은 다음과 같은 불안감에 시달려 왔습니다. 투자를 늘려도 모델 기능 향상이 매우 불확실하다는 점입니다. 이는 실제 데이터가 부족하고 가격이 너무 비싸 많은 기업들이 데이터 분석에 대한 대규모 투자를 꺼리게 만드는 요인입니다.
하지만 EgoScale은 적어도 인간의 1인칭 시점 데이터(Ego Data) 측면에서는 크기가 손재주 조작에 안정적인 이점을 가져다줄 수 있다는 것을 어느 정도 입증했습니다.

동시에 점점 더 많은 로봇 회사들이 대량 의 인간 데이터와 소량의 로봇 데이터를 활용하는 방향으로 나아가고 있습니다.
인간의 1인칭 시점 영상은 모델에게 작업을 완료하는 방법을 보여주는 역할을 하고, 로봇 데이터는 모델에게 로봇의 몸이 어떻게 움직여야 하는지를 가르치는 역할을 합니다.
따라서 에고 데이터의 주요 가치는 확장성이 뛰어난 사전 지식의 한 유형으로서, 로봇이 물리적 세계를 먼저 이해하고 소량의 실제 기계 데이터를 통해 적응을 완료할 수 있도록 해준다는 점에 있습니다.
그 결과, 에고데이터를 둘러싼 새로운 산업 사슬도 올해 들어 크게 가속화되기 시작했습니다.
사람들은 머리나 가슴에 카메라를 착용하고 옷 정리, 주방 청소, 택배 분류와 같은 특정 작업을 수행합니다. 카메라는 작업하는 사람의 1인칭 시점 영상을 녹화합니다.
어떤 의미에서 인간은 세상에서 가장 정교한 만능 로봇이라고 할 수 있습니다. 부엌에 들어서면 사람은 무엇을 먼저 놓고 무엇을 나중에 놓아야 할지 자연스럽게 판단하고, 공간이 부족하면 다른 손을 사용합니다. 깨지기 쉬운 물건을 다룰 때는 무의식적으로 힘을 조절하기도 합니다.
겉보기에 본능적인 것처럼 보이는 이러한 행동 이면에는 대량 공간 이해력, 작업 계획 능력, 그리고 사물 상호작용 논리가 숨어 있습니다.
과거에는 로봇이 이러한 종류의 경험을 체계적으로 습득한 사례가 거의 없었습니다.

하지만 Ego Data는 단순히 무작위로 영상을 촬영하는 것이 아니며, 충분한 양의 영상을 확보하는 것 자체가 가장 큰 어려움은 아닙니다. 핵심은 이러한 경험들을 모델이 실제로 활용할 수 있는 데이터 제품으로 변환하는 방법입니다.
올해 에고 데이터(Ego Data) 도입을 가속화하기 시작한 한 업계 전문가는 라디오 42와의 인터뷰에서 실제 데이터 수집은 대개 고객이 보낸 작업 명세서 문서에서 시작된다고 밝혔습니다.
이러한 문서들은 단순히 "주방 데이터를 수집하라"라고만 명시하는 것이 아니라, 대개 구체적인 지침을 포함하고 있습니다.
작업 유형은 무엇인가요? 양손이 모두 화면에 나와야 하나요? 카메라 위치는 머리 또는 가슴이어야 하나요? 동작을 중단해도 되나요? 필요한 환경 변수는 몇 개인가요? 실패 샘플이 필요한가요? 최종 결과물 형식은 교육 프레임 와 호환되어야 하나요?
예를 들어, 주방을 정리할 때 고객은 캐비닛 문을 열고, 용기를 찾고, 공간을 확보하고, 물건을 꺼내고 다시 넣고, 문을 닫는 등 여러 단계를 끊김이나 큰 방해 없이 연속적으로 진행해야 한다고 요구할 수 있습니다.
어떤 면에서는 산업 제품을 생산하는 것과 더 비슷하며, 수집 현장에서의 전체 과정은 상상하는 것보다 훨씬 더 "공장식"입니다.
일부 데이터 수집 센터에서는 데이터 수집 담당자들이 정해진 표준 운영 절차(SOP)에 따라 반복적으로 작업을 수행하기 위해 준비된 주방, 탈의실, 선반 구역에 교대로 출입합니다.
어떤 사람들은 옷 정리를 담당하고, 어떤 사람들은 다양한 크기의 물건을 반복적으로 집는 연습을 하며, 또 어떤 사람들은 주방 정리 및 이사 관련 데이터를 수집합니다.
물리적 세계에서 발생할 수 있는 모든 상황을 고려하기 위해서는 키가 다르고, 주 사용 손이 다르고, 조작 습관이 다른 사람들이 동일한 동작을 반복해야 하는 경우가 많습니다. 결국 로봇은 단 하나의 표준적인 해답이 아닌 복잡한 현실 세계에 대면 때문입니다.
컵을 찬장에 넣을 때, 어떤 사람들은 먼저 자리를 만들고, 어떤 사람들은 손을 바꾸고, 또 어떤 사람들은 습관적으로 찬장 문을 먼저 엽니다. 이러한 미묘한 차이들이 바로 로봇의 일반화 능력의 일부입니다.
따라서 많은 실체화된 모델들이 배워야 할 것은 "인간이 일반적으로 이 작업을 수행하는 방식"의 논리입니다.
실제 기기 데이터와 비교했을 때, 이러한 유형의 데이터는 대량 생산이 훨씬 용이합니다. 업계의 엄청난 수요를 감안할 때, 규모만 충분하고 인건비가 낮다면 수익성 확보가 가능하며 현금 흐름 창출도 비교적 수월합니다.
하지만 데이터가 고객의 요구 사항을 충족하지 못하면 재작업이 필요합니다. 고객이 실제로 승인하는 데이터 양은 원래 촬영 시간보다 훨씬 적으며, 교육 과정에 직접 투입할 수 있는 유효 시간이 더 중요합니다.
이 시점부터 업계는 점차 뚜렷한 계층 구조를 발전시켜 나갔습니다. 데이터 유형마다 가치가 크게 다르기 때문에 비용, 가치 및 기타 요소를 종합적으로 고려하여 대략적인 "데이터 피라미드"를 만들 수 있습니다.
데이터 유형마다 가치가 크게 다릅니다.
'데이터 피라미드'에서 가장 아래층은 인터넷 데이터로, 수집 비용이 거의 들지 않고 규모도 상당히 큽니다.
로봇은 비디오를 통해 사물의 생김새와 주방의 대략적인 구조를 학습할 수 있습니다. 하지만 문제는 명확합니다. 비디오 학습은 로봇이 '알도록' 도와줄 뿐, '실행하도록' 도와줄 수는 없다는 것입니다. 실제 세계에서 로봇이 직면하는 진정한 어려움은 움직임, 마찰, 무게, 재질 변화, 공간적 제약, 충돌 리스크, 이러한 요소들은 일반적인 비디오만으로는 학습할 수 없습니다.
그 위에는 더 높은 수준의 인간 데이터가 있으며, 그중에서도 에고 데이터(Ego Data)가 가장 중요합니다. 에고 데이터는 모델에게 인간이 1인칭 시점에서 어떻게 행동하는지 알려줍니다. 이 비디오 데이터 부분은 에고스케일(EgoScale)에서처럼 대규모 사전 학습에 사용할 수 있습니다.
하지만 로봇은 궁극적으로 자신의 신체가 어떻게 움직여야 하는지 스스로 알아내야 합니다. 예를 들어, 병뚜껑을 돌리는 것은 사람이 쉽게 할 수 있는 일이지만, 로봇은 반복적으로 실패할 수도 있습니다.
따라서 데이터 글러브가 제공하는 감각 데이터는 점점 더 중요해지고 있습니다. 일반적인 자아 데이터는 모델에게 무엇을 보았고 어떤 작업을 완료했는지만 알려줄 수 있습니다. 하지만 궁극적으로 로봇은 언제 강도를 높이고 언제 강도를 낮춰야 하는지도 알아야 합니다.
이러한 미묘한 움직임은 비디오만으로는 파악하기 어렵기 때문에 점점 더 많은 기업들이 손동작 캡처, 자세 추정, 관절 궤적 및 시각 데이터를 통합하려는 시도를 하고 있습니다.
비디오는 공간 이해를 제공하고, 장갑은 동작 세부 정보를 제공하며, 실제 기계에서 전송되는 원격 제어 데이터는 로봇이 자신의 몸체가 어떻게 동작을 수행해야 하는지 이해하는 데 더욱 도움이 됩니다.

하지만 업계에는 여전히 심각한 문제가 남아 있습니다. 바로 장갑 표준이 매우 일관성이 없다는 점입니다. 기기마다 샘플링 주파수, 관절 정의, 정확도, 동작 표현 방식 등이 크게 다릅니다. 인간의 움직임을 다양한 로봇 본체에 안정적으로 매핑하는 방법은 여전히 중요한 과제입니다.
따라서 데이터 글러브를 착용하지 않고 헤드 마운트 카메라로만 사진을 찍는다면 Ego Data의 가격은 그리 높지 않습니다. 하지만 데이터 글러브를 추가하면 가격이 급격히 상승 합니다.
피라미드 꼭대기에는 시뮬레이션 데이터가 있습니다. 디지털 트윈 환경을 통해 로봇은 가상 세계에서 고속으로 훈련하며, 물체 파지, 이동, 장애물 회피 등의 동작을 수백만 번 반복적으로 수행할 수 있습니다. 현실에서 한 달이 걸릴 데이터 양을 시뮬레이션 환경에서는 단 며칠 만에 처리할 수 있습니다.
하지만 시뮬레이션은 궁극적으로 현실 세계와는 다릅니다. 대량 생산이 가능하고 비용도 저렴하지만, 현실에서 발생하는 마찰, 재질 변화, 반사 및 기타 우발적인 요소를 완벽하게 재현하기는 어렵습니다. 이것이 바로 업계에서 흔히 "시뮬레이션과 현실의 격차"라고 부르는 현상입니다. 로봇은 시뮬레이션 환경에서는 학습 능력이 뛰어나지만, 실제 환경에 투입되면 그 능력이 크게 저하되는 경우가 많습니다.
피라미드의 최상단에는 최고 품질의 가장 비싸고 희귀한 실제 기계 데이터가 있습니다. 이 데이터는 주로 작업자가 로봇을 원격으로 제어하여 특정 작업을 완료할 때 얻습니다. 로봇은 시각 정보, 동작, 제어 신호 및 센서 상태를 동시에 기록합니다.
인간 데이터와 달리 로봇의 행동 공간에는 데이터가 자연스럽게 존재하므로, 모델은 더 이상 인간의 행동이 로봇의 신체에 어떻게 매핑되는지 이해하려고 애쓸 필요가 없습니다. 또한 실제 기계 데이터에는 작동 중에 생성되는 자율 작업 데이터도 포함되지만, 로봇이 아직 널리 사용되지 않기 때문에 로봇이 생성하는 데이터도 부족합니다.
게다가 실제 기계 데이터의 핵심 문제는 생산 효율이 매우 낮다는 것입니다. 데이터 규모를 늘리려면 더 많은 로봇과 작업자가 필요하고, 부지 및 장비 감가상각비도 높아 결국 가격 상승으로 이어집니다.
업계 관계자들에 따르면 가장 기본적인 자아 데이터는 시간당 수십 위안 정도인 반면, 원격 제어 로봇 신체 데이터의 가격은 시간당 수백 위안에서 수천 위안 상승 많다고 합니다.
제조사가 다른 로봇 모델의 학습 과정에서 데이터 피라미드의 각 계층이 수행하는 역할은 서로 다릅니다. 그 결과, 시뮬레이션 데이터나 인간 1인칭 시점 데이터 등 다양한 분야에 특화된 데이터 기업들이 업계에 등장하게 되었습니다.
누가 이 데이터를 거래하고 있는 걸까요?
거대한 산업이 등장할 때, 가장 먼저 이익을 보는 사람들은 대개 상류의 "물 판매자"들입니다.
인공지능 기반 로봇 산업도 마찬가지입니다. 지난 1~2년 동안 전 세계적으로 수많은 로봇 스타트업이 등장했고, 각계각층의 인재들이 이 분야로 몰려들고 있습니다.
거의 매일 새로운 기업들이 융자 조달 완료를 발표하고 있습니다. 중국에서 수백억 위안 규모의 기업 가치를 가진 기업의 수가 증가하고 있으며, 일부 기업은 기업공개(IPO)를 추진하고 있습니다. 해외로 시선을 돌려보면, Figure는 작년 시리즈 C 융자 완료한 후 390억 달러의 기업 가치를 달성하며 휴머노이드 로봇 기업 중 1위를 차지했습니다.
모두가 범용 휴머노이드 로봇을 만들고 싶어하며, 이 모든 로봇들은 엄청난 양의 데이터를 필요로 합니다. 동시에 지속적인 자본 유입으로 인해 업계 전체는 자금 부족에 시달리지 않고 있습니다.
따라서 데이터에 대한 수요가 높고 연구 개발 자금이 충분한 이러한 기업들 뒤편에는 로봇 산업 상류에 점점 더 많은 "데이터 공급업체"가 등장하고 있으며, 이로써 로봇 산업을 위한 데이터 생산 사슬이 점차 형성되고 있습니다.
더욱이, 산업이 발전함에 따라 이러한 상류 기업들은 로봇 훈련에 필요한 데이터를 중심으로 명확한 계층 구조를 형성하기 시작했습니다. 현재 산업 구조를 기준으로 보면, 이들은 대략 다섯 가지 유형의 업체로 나눌 수 있습니다.

첫 번째 유형은 자아 데이터 수집에 중점을 둔 저비용 데이터 공장입니다. 인도, 태국 등지에서 점점 더 많은 팀들이 저비용 인력을 활용하여 데이터 수집 네트워크를 구축하고 있습니다.
예를 들어, 네오캄브리아 AI라는 스타트업은 최근 인도에서 로봇 데이터 팩토리 프로젝트를 시작하여 인체 동작 데이터를 수집하고 이를 기반으로 한 AI 모델을 개발하고 있습니다. 특히, 에고 데이터의 설립자는 인도의 풍부한 노동력이 물리적 AI 데이터셋 개발에 있어 큰 이점이라고 강조했습니다.
데이터 수집 담당자는 머리에 장착하는 카메라와 동작 캡처 장갑을 착용하고 작업 흐름에 따라 작업을 완료하며, 이후 백엔드 팀에서 데이터를 정리하고 라벨을 붙이고 승인한 후 최종적으로 로봇 회사에 전달합니다.
비즈니스 모델 측면에서 보면, 이들은 초기 대규모 모델에 서비스를 제공했던 데이터 라벨링 회사들과 매우 유사합니다. 다만 과거에는 텍스트, 이미지, 음성에 라벨을 붙였지만, 이제는 물리적 세계 경험을 제공하기 시작했다는 점이 다릅니다.
업계 관계자는 지난 한 해 동안 해외 고객들의 수요가 확실히 증가했다고 전했습니다. 특히 유럽과 미국의 로봇 회사들이 그러한데, "이들은 데이터 사양에 대해 더욱 구체적이며 원하는 바를 정확히 알고 있다"고 덧붙였습니다.
로봇 데이터는 단순히 "비디오 촬영"처럼 간단하지 않기 때문에 많은 고객은 시계열 데이터, 다중 시점 이미지, 동작 궤적, 센서 상태, 손 자세, 환경 메타데이터, 그리고 적합한 학습 형식 등 학습 파이프라인에 직접 통합할 수 있는 데이터 세트를 필요로 합니다.
이러한 과정에서 점점 더 많은 기업들이 저렴한 노동력에만 의존하는 것이 장기적인 경쟁 우위를 확보하는 데 도움이 되지 않는다는 사실을 깨닫고 있습니다. 앞으로 이러한 저비용 데이터 공장의 가장 큰 경쟁 장벽은 생산된 데이터를 얼마나 직접적이고 쉽게 활용할 수 있는지에 달려 있을 것입니다.
게다가 문제는 매우 현실적입니다. 이러한 유형의 업무 본질적으로 상품화하기 쉽습니다. 한 팀이 할 수 있다면 이론적으로 다른 팀도 할 수 있습니다. 가격이 투명해질수록 이윤폭은 줄어드는 경우가 많습니다.
따라서 저렴한 비용으로 제품을 제공할 수 있다는 점이 그들의 가장 큰 장점이지만, 동시에 한계점이 될 수도 있습니다.
두 번째 범주는 모션 캡처 및 정렬 레이어입니다. 단순히 비디오를 캡처하는 것과는 달리, 이러한 플레이어들은 "기계가 어떻게 진정으로 움직임을 이해할 수 있을까"라는 문제를 해결하고자 합니다. 이들은 데이터의 양뿐만 아니라 움직임의 표현에도 초점을 맞춥니다.
예시로는 데이터 글러브, 모션 캡처, 손 추적, 동작 방향 전환 및 작업 획득 인터페이스 등이 있습니다.
로봇에게 있어 진정한 과제는 로봇이 무엇을 하는지 이해하는 것이 아니라 어떻게 움직이는지를 이해하는 데 있는 경우가 많습니다. 컵을 잡으려고 할 때조차도, 로봇마다 정교한 손의 자유도, 손가락 구조, 힘 제어 능력 등이 모두 다릅니다.
이는 중요한 질문을 제기합니다. 어떻게 하면 인간의 움직임을 다양한 로봇 본체에 안정적으로 매핑할 수 있을까요?
따라서 점점 더 많은 기업들이 액션 리타겟팅에 주목하고 있습니다. 이 과정에서 비디오는 로봇에게 사람이 무엇을 했는지 알려주고, 액션 레이어는 로봇이 무엇을 해야 하는지 알려줍니다.
이 계층의 진정한 가치는 하드웨어 자체에 있는 것이 아니라, 보다 안정적인 "모션 변환"을 구현하는 데 있는 경우가 많습니다.
세 번째 범주는 로봇 네이티브 데이터 레이어로, 일반적으로 타사 원격 제어 및 실제 장치 데이터 서비스 제공업체입니다. 이러한 유형의 업체는 로봇 자체와 가장 가깝고, 많은 경우 로봇 회사와 긴밀한 관계를 유지해야 한다는 핵심적인 특징을 가지고 있습니다.
다른 데이터 수집 하위 분야와 비교했을 때, 실제 기계 데이터는 대량 특정 로봇에 크게 의존합니다. 각 회사는 로봇 하드웨어가 다르며, 자유도, 동작 공간, 제어 인터페이스 등에서 상당한 차이가 있습니다. 심지어 동일한 파지 작업이라도 다른 로봇을 사용할 경우 데이터를 다시 수집해야 할 수도 있습니다.
이 과정에서 외부 서비스 제공업체는 원격 운영자, 장소, 실제 기계 데이터 수집 기능을 제공하여 로봇 회사들이 특히 모델 검증 초기 단계에서 훈련 데이터를 신속하게 축적할 수 있도록 지원합니다. 로봇 회사 자체적으로 충분한 팀과 장소를 확보하지 못한 경우, 외부 서비스 제공업체를 이용하면 더 빠르게 시작할 수 있습니다.
네 번째 범주는 시뮬레이션 및 합성 데이터 회사들로 구성됩니다. 이들은 단순히 데이터를 판매하는 데 그치지 않고, 보다 완벽한 데이터 기능을 구축하는 데 집중합니다.

데이터를 생성하는 동시에, 로봇이 작업을 완료하지 못하는 이유나 다음 데이터 배치를 수집하는 방법과 같은 질문에 대한 답을 찾는 데에도 도움을 줍니다. 이는 오늘날 많은 기업들이 채택하고 있는 새로운 접근 방식입니다.
논리는 간단합니다. 로봇은 하루 훈련 동안 몇 시간 분량의 유효한 궤적만 축적할 수 있습니다. 하지만 시뮬레이션 환경에서는 같은 시간 동안 로봇이 수백만 번 실패할 수 있습니다. 물체 잡기 실패, 경로 계획 오류, 충돌, 추락 등이 무한히 반복될 수 있기 때문입니다.
따라서 업계는 점차 새로운 조합을 형성해 왔는데, 실제 데이터는 현실성을 뒷받침하는 역할을 하고, 시뮬레이션된 합성 데이터는 확장성을 담당하는 방식입니다.
NVIDIA는 GR00T 로드맵에서 기본 로봇 모델에는 인간의 시연 데이터뿐만 아니라 대량 합성 데이터도 필요하다고 거듭 강조해 왔습니다. 개발자는 실제 데이터 수집을 통해 사전 지식을 얻은 후 시뮬레이션을 활용하여 작업 규모를 확장할 수 있습니다.
시뮬레이션에서 모델이 실패할수록 어떤 데이터가 부족한지 더 잘 알게 되며, 이 데이터를 가장 빨리 확보할 수 있는 사람이 유리한 위치를 차지할 가능성이 더 커집니다.
다섯 번째 유형의 플레이어는 데이터 표준 및 플랫폼 계층에 더 중점을 두며, 데이터 규모를 확장하는 동시에 데이터 공급 자체를 더욱 표준화하고 유통하기 쉽게 만드는 방법을 모색합니다.
로봇 기업의 수가 증가함에 따라 데이터는 수집 방법, 동작 표현 방식, 형식 표준 등이 제각각이어서 매우 파편화되고 있습니다. 심지어 동일한 데이터를 직접 재사용하는 것조차 어려운 경우가 많습니다.
이러한 배경 속에서 신체 활동 데이터를 표준화하고 공동으로 수집하려는 시도가 올해 크게 증가했습니다.
오늘날 로봇 산업에서 데이터 부족은 단지 하나의 문제일 뿐입니다. 일관되고 안정적인 데이터를 생성하고, 이를 훈련 과정에 쉽게 통합할 수 있도록 하는 것 또한 매우 중요합니다.
하지만 인간 데이터든, 실제 기계 데이터든, 시뮬레이션 데이터든 관계없이 모든 데이터 관련 기업은 궁극적으로 이 질문에 답해야 합니다. 로봇 기업들이 이러한 핵심 역량을 외부 공급업체에 넘겨줄 것인가?
결국 오늘날 대부분의 오프라인 기업들에게 데이터는 비용일 뿐만 아니라 진입 장벽이기도 합니다.
로봇 회사들은 데이터를 구매해야 할까요, 아니면 직접 수집해야 할까요?
올해 들어 로봇 산업에서 데이터의 중요성이 점점 커지고 있지만, 로봇이 데이터를 부족하다는 것은 누구나 알고 있는 사실입니다.
과거에 비해 현재는 시장에 데이터 공급 옵션이 훨씬 다양해졌으며, 다양한 데이터 유형별로 공급업체가 달라졌습니다. 로봇 회사들에게 데이터 구매는 점점 더 쉬워지고 있습니다.
하지만 현실은 다소 다릅니다. 한편으로는 점점 더 많은 로봇 회사들이 데이터를 구매하기 시작하고 있는 반면, 다른 한편으로는 선도적인 기업들이 자체 데이터 팀을 구축하기 위해 필사적으로 노력하고 있습니다.

더 자세히 살펴보면, 데이터에 따라 조직화 방법이 완전히 달라진다는 것을 알 수 있습니다.
어느 정도까지는 로봇 회사들이 실제로 개발한 것은 "단계별 조달" 논리라고 할 수 있습니다.
첫 번째 계층은 기본적이고 일반적인 데이터로 구성되어 있으며, 이는 아웃소싱하기 가장 쉬운 계층입니다.
예를 들어, 주방 정리, 테이블 정리, 기본적인 물건 잡기, 분류 및 이동과 같은 행동은 이러한 유형의 데이터에서 공통적인 특징을 가지고 있습니다. 즉, 로봇의 외형과 관계없이 궁극적으로 인간이 작업을 수행하는 방식을 이해해야 한다는 것입니다.
예를 들어, 로봇이 주방에 들어갔을 때 언제 한 손을 먼저 비워야 하는지, 언제 큰 물건부터 정리하고 작은 물건을 나중에 정리해야 하는지, 그리고 물건이 너무 많을 때는 공간을 어떻게 재정비해야 하는지 등을 생각해 볼 수 있습니다.
이러한 능력은 본질적으로 물리적 세계에 대한 일반적인 이해의 일부이며, 특정 로봇만의 고유한 능력이 아닙니다.
이와 같은 자아 데이터를 처음부터 수집하려면 팀을 구성해야 하므로 관리 비용이 많이 들 것입니다.
반면 외부 팀은 동남아시아나 인도와 같은 지역에서 데이터 수집 규모를 빠르게 확장할 수 있으며, 매달 수천 시간 분량의 데이터를 안정적으로 생산할 수 있습니다.
로봇 회사에게 있어 로봇을 구매하는 것은 자체 팀을 구축하는 것보다 비용 효율적인 경우가 많습니다. 이는 이 단계에서의 목표가 로봇을 안정적으로 작동시키는 것이 아니라, 먼저 세상을 이해하는 것이기 때문입니다.
그러므로 이러한 유형의 데이터를 아웃소싱하는 것은 합리적이며, 더욱 효율적인 선택입니다.
두 번째 계층은 개인화된 데이터인데, 이는 로봇 회사들이 자체적으로 수집하는 경향이 있습니다.
대량 의 기본 데이터를 이용한 사전 학습을 마친 후, 로봇의 실제 배치에 있어 핵심적인 부분인 작업 정렬 학습이 시작됩니다.
따라서 로봇 제조사마다 자유도, 정밀도, 관절 기능 등이 크게 다르기 때문에 논리가 달라지기 시작합니다. 궁극적으로 로봇이 학습해야 할 동작 논리 또한 상당히 다를 것입니다.
실행 단계에 가까워질수록 데이터의 보편성은 떨어집니다. 따라서 많은 기업들이 대량 에고 데이터를 구매함에도 불구하고, 실제 기기 데이터를 수집하기 위해 자체 데이터 수집팀을 구축하는 경우가 많습니다. 이는 바로 이 단계에서 모델의 진정한 경쟁력이 드러나기 때문입니다.
세 번째 계층은 배포 데이터와 장애 데이터로 구성되는데, 이는 매우 중요한 계층이며 실제 배포 후에 발생하는 경우가 많습니다.
로봇이 실제 응용 시나리오에 배치되면 작업 환경에서 다양한 예상치 못한 상황에 직면하는 경우가 많습니다. 이러한 실제 시나리오에서 생성되는 배치 데이터는 성공 여부와 관계없이 매우 귀중합니다. 더욱이 이러한 상황은 초기 데이터 수집 과정에서는 거의 발생하지 않으며 사전에 설계하기도 어렵습니다. 따라서 실제 환경에서 점진적으로 축적해야만 합니다.
게다가 많은 기업들이 실제 환경에서 로봇을 대량 배치하는 데 어려움을 겪고 있기 때문에 실제 배치 데이터는 애초에 고려 대상이 아닙니다.
로봇은 배치 과정에서 다양한 환경에서 지속적으로 데이터를 축적합니다. 심지어 고장 데이터조차도 팀이 원인을 파악하고 모델을 최적화하며 로봇의 대규모 배치를 더욱 촉진하기 위한 대책을 개발하는 데 도움이 됩니다.
이는 주요 로봇 기업들이 보유한 핵심 데이터 포인트이며, 동시에 경쟁사와 차별화되는 장벽이기도 합니다.
이는 데이터 기업의 잠재력에도 어느 정도 제약을 가합니다. 데이터 기업은 로봇이 "시작 단계"를 밟도록 도울 수는 있지만, 로봇의 능력 한계를 진정으로 결정하는 데이터는 결국 많은 선도 기업들이 스스로 통제하기로 선택할 것입니다.
따라서 데이터 산업에서 갈라져 나온 두 가지 다른 경로를 추적할 수 있는데, 하나는 데이터 공장이고 다른 하나는 데이터 엔진입니다.
데이터 팩토리는 현재 업계에서 가장 빠르게 성장하고 가장 많은 수를 차지하는 기업 유형이며, 현금 흐름을 창출하기도 가장 쉽습니다.
그중에서도 저가형 데이터 팩토리는 인간 행동 데이터에 중점을 두고, 저렴한 노동력이라는 이점을 활용하여 시간당 요금을 부과하고, 규모의 경제와 서비스 제공 능력을 추구하며, 빠르게 흑자 전환을 이룰 수 있습니다. 그러나 진입 장벽이 낮고, 특히 EgoScale 이후 인간 데이터 시장에 뛰어드는 대량 업이 급증하면서 경쟁업체 수가 빠르게 증가하고 있습니다.
인간 행동 데이터를 기반으로 하는 더욱 복잡한 데이터 공장은 원격 제어 또는 자율 작동을 통해 로봇을 일괄적으로 배치하여 대량 실제 기계 데이터를 수집합니다.
또 다른 접근 방식은 데이터 엔진을 구축하는 것으로, 여기에는 작업 분류 시스템 구성, 데이터 구조 구축, 액션 리디렉션 구현, 시뮬레이션 플랫폼 연결, 모델 평가 구현, 모델 실패 샘플을 기반으로 데이터 세트를 반복적으로 생성하는 과정이 포함됩니다.
다시 말해, 그들이 하는 일은 단순히 데이터를 판매하는 것이 아니라 로봇이 지속적으로 더 똑똑해지도록 하는 데 집중하는 것입니다.
Scale AI의 로봇 버전이 등장할까요?
오늘날의 로봇 산업을 2022년이라는 큰 맥락 속에 놓고 보면, 놀라운 유사점을 발견할 수 있을 것입니다.
당시 업계에서는 모델의 성능 한계를 결정하는 진정한 요소는 데이터라는 사실을 발견했습니다.
그 결과, 데이터 클리닝, RLHF, 평가 및 사후 학습 분야에서 수많은 신생 기업이 빠르게 등장했으며, 그중 가장 대표적인 예가 Scale AI입니다.
이 회사는 자율주행 기업들이 초기 단계에서 데이터에 라벨을 붙이는 작업을 지원했습니다. 2019년부터 Scale AI는 OpenAI의 GPT-2 단계에 긴밀히 협력하여 RLHF 인간 피드백 라벨링, 대규모 모델 평가, 레드팀 테스트, 그리고 예외 상황에 대한 역설계를 통해 데이터를 생성하는 작업을 수행했습니다.
ChatGPT가 큰 인기를 얻자 Meta Llama, Anthropic, Microsoft Azure 등 여러 기업이 빠르게 이를 도입했습니다. 대규모 모델에 필요한 고품질 주석, 평가 및 합성 데이터에 대한 수요가 급증했고, 회사의 매출은 3년 만에 4배 이상 증가했습니다.
이후 회사는 데이터 관리, 모델 평가, AI 워크플로우와 같은 더욱 심층적인 인프라 계층으로 점차 진출했습니다.
스케일 AI의 성공으로 인해 많은 사람들이 로봇 산업에서도 유사한 회사가 등장할지 궁금해하고 있습니다.
현재 데이터 부족 상황을 고려할 때, 재현 가능성은 매우 높지만 완전히 불가능하다고 단정할 수는 없습니다.
로봇이 필요로 하는 데이터는 텍스트보다 훨씬 복잡하기 때문에, 대규모 모델의 경우 정답 여부를 판단하는 것이 비교적 쉽습니다. 하지만 로봇 세계에서는 어떤 행동이 성공했는지 판단하는 데 있어 불확실성이 매우 큽니다.
컵을 집긴 했지만 각도가 잘못됐습니다. 물건을 제자리에 다시 놓았지만 다른 물건들을 넘어뜨렸습니다. 그리고 종종 하나의 작업을 완료하는 데에는 여러 가지 올바른 방법이 있을 수 있습니다.
따라서 로봇 산업에 진정으로 필요한 것은 단순한 데이터 플랫폼이 아니라 데이터 수집, 주석, 모션 매핑, 시뮬레이션 증강, 모델 평가 및 오류 피드백을 포괄하는 완전한 데이터 루프입니다.
로봇에게 진정으로 부족한 것은 데이터뿐만이 아니라, 효과적인 경험을 지속적으로 생성하는 능력입니다.
따라서 점점 더 많은 기업들이 로봇 본체와 모델 아키텍처에서 데이터 시스템으로 경쟁력을 옮기고 있습니다.
올해 초부터 Figure, 1X, PI, 그리고 NVIDIA의 GR00T 로드맵 등 모든 프로젝트에서 로봇 기능 향상이라는 공통된 방향을 거듭 강조해 왔습니다. 하드웨어 업그레이드는 그 과정의 일부일 뿐이며, 더 많은 데이터와 더욱 효과적인 훈련이 핵심 동력으로 떠오르고 있습니다.
로봇 산업에서 대량 생산과 적용이 시작되면서 어느 정도는 "기계를 만드는 시대"에서 "기계에 먹이를 주는 시대"라는 새로운 시대로 나아가고 있다고 볼 수 있습니다.
로봇이 아직 일어서거나 걸을 수 없는 단계에서, 실물 로봇 기업의 가장 큰 경쟁 우위는 하드웨어와 동작 제어 기술을 숙달하는 능력에 달려 있습니다.
하지만 로봇이 달리고 점프할 수 있고, 여러 대회에서 인간을 능가하는 성능을 보이면서 자율 작업 능력은 업계의 가장 큰 목표가 되었습니다. 이러한 목표에 힘입어 업계는 대규모의 고품질 데이터 확보에 주력하게 되었습니다.
로봇이 복잡한 현실 세계에서 성공하려면 물리적 공간에서 충분한 실제 상황을 경험해야 합니다. 컵이 넘어질 수도 있고, 옷이 엉킬 수도 있고, 공간이 부족할 수도 있다는 것을 알아야 하죠. 이러한 경험은 인터넷상에서 자연스럽게 얻을 수 있는 것이 아니며, 점진적으로 쌓아 올려야만 합니다.
따라서 이러한 데이터 산업 사슬은 지난 2년간의 로봇 열풍 이면에 조용히 형성되어 왔습니다.
이 과정의 한쪽 끝에는 인도의 한 공장에서 카메라를 착용한 사람들이 있고, 다른 한쪽 끝에는 시뮬레이션에서 계속해서 넘어지는 로봇들이 있습니다.
반면, 수십억 달러, 수백억 달러, 심지어 수천억 달러의 가치를 지닌 로봇 회사들은 로봇을 가정과 공장에 도입하려고 노력하고 있습니다.
인도의 데이터 공장과 시뮬레이션 로봇에서부터 전 세계 주요 로봇 기업에 이르기까지, 새로운 생산 사슬이 모습을 드러내기 시작했습니다. 하지만 이번에 생산되는 것은 부품이 아니라 데이터입니다.
이 글은 위챗 공식 계정 ' 라디오 웨이브 42' 에 게재된 글이며, 작성자는 란보, 편집자는 제임스, 원제는 "로봇이 '데이터를 먹기 시작했다': 인도의 데이터 공장에서 수십억 달러 규모의 휴머노이드 로봇의 숨겨진 생산망까지"입니다.

