지난 에세이 에 새롭게 합류해주신 1,179명의 'Not Boring' 독자 여러분, 환영합니다! 지금 바로 구독하셔서 256,826명의 똑똑하고 호기심 많은 사람들과 함께하세요!
안녕하세요 친구들 👋 ,
즐거운 목요일입니다! 오늘은 제 친구이자 스탠다드 봇(Standard Bots )의 공동 창립자 겸 CEO인 에반 비어드 와 함께 쓴, 지루하지 않은 세계 최초의 공동 집필 에세이(공동 에세이? 뭔가 더 필요한 표현이겠죠?)를 여러분께 소개하게 되어 정말 기쁩니다.
에반은 이 일을 시작하기에 완벽한 인물입니다.
에반을 알게 된 지 벌써 20년이 다 되어가네요. 정말 신기하죠. 저희는 듀크 대학교를 같이 다녔고, 캠퍼스에서 유일하게 제대로 된 스타트업( 아직도 남아있어요 !)에서 같이 일했고, 심지어 리먼 브라더스 케이스 경진대회에서 함께 우승하기도 했어요(덕분에 리먼 브라더스가 파산하기 직전에 면접 기회를 얻었죠).
학교를 졸업한 후 에반은 바로 IT 업계에 뛰어들었습니다. YC(Young British Artists) 초기 멤버였는데, 당시 YC는 규모가 작았죠. 그는 애쉬튼 쿠처와 함께 회사를 창업하기도 했습니다. 저는 IT 업계에 외부에서 관심을 갖고 있었고, 에반과 이야기하는 걸 항상 좋아했기 때문에 동창회에서 만나 이야기를 나누다가 각자의 길을 가곤 했습니다. 그러던 2023년 9월, 한 지인이 제게 " Standard Bots 라는 회사를 눈여겨봐야 한다"는 이메일을 보내왔고, 검색해 보니 놀랍게도 에반 비어드가 설립한 회사였습니다!
다시 연락하게 된 이후로, 에반은 제가 로봇에 대한 바보 같은 질문을 던지는 몇 안 되는 사람 중 한 명이 되었습니다. 그는 로봇 공학에 관해 의회에서 증언하기도 했고, 작년에는 엔비디아 GTC 메인 스테이지에서 연설했습니다. 심지어 A24 영화 ' 베이비걸 '에서 니콜 키드먼과 함께 로봇 데이터 수집 장면을 촬영하기도 했죠! 에반은 로봇에 대해 정말 잘 압니다.
질문들이 너무 어리석어요! 로봇공학이라는 분야 자체가 저를 겁나게 했어요. 기업 가치가 급등하면서, 제가 로봇에 대해 글을 쓰거나 투자하는 것을 대부분 피해 왔습니다. 제가 이 분야에 대해 충분히 잘 알고 있다는 확신이 없어서 섣불리 입장을 표명할 수 없었기 때문입니다.
이것이 바로 공동 집필 에세이의 핵심입니다!
에반은 로봇 회사를 설립하는 방법에 대한 확고한 신념에 자신의 경력을 바쳤습니다. 그는 업계에서 과대광고 가 많은 다른 회사들과는 다른 전략을 펼치고 있습니다. 마치 슈퍼모델이 가운데 있는 러시아 인형처럼, 겉보기에는 그다지 매력적이지 않지만 껍질을 벗길수록 점점 더 매력적으로 변해가는, 마침내 중심에 다다르면 "와!" 감탄하게 되는 그런 전략입니다.
자, 그럼 로봇 록 음악을 좀 틀어보세요…
그럼 바로 시작하겠습니다.
오늘의 지루하지 않은 콘텐츠는 프레이머(Framer) 에서 제공합니다.
Framer는 디자이너에게 초능력을 부여합니다.
Framer 는 디자인 중심의 노코드 웹사이트 빌더로, 누구나 몇 분 만에 바로 사용 가능한 웹사이트를 제작할 수 있도록 해줍니다. 템플릿을 사용하든 빈 캔버스에서 시작하든, Framer는 코딩 없이 완벽한 창의적 자유를 제공합니다. 애니메이션을 추가하고, 클릭 한 번으로 현지화하고, 팀 전체와 실시간으로 협업할 수 있습니다. 내장된 분석 기능을 통해 A/B 테스트를 진행하고 클릭률을 추적하는 것도 가능합니다.
Framer는 cossays 첫 달을 무료로 제공하여 Framer가 어떤 서비스인지 직접 경험해 보실 수 있도록 했습니다. 개발자를 고용하지 않고도 나만의 작은 온라인 세상을 만들어 Framer 에 감사를 표해 보세요.
Framer.com에서 무료로 시작하세요. 코드 NOTBORING을 입력하시면 Framer Pro를 한 달 무료로 이용하실 수 있습니다.
로봇에게는 수많은 작은 발걸음, 인류에게는 하나의 거대한 도약
에반 비어드와 공동 집필한 에세이
우리 업계에서는 로봇공학의 가치가 앞으로 엄청난 속도 로 실현될 것이라는 믿음이 있습니다.
금전적인 면이나 지능지수(IQ) 측면에서 볼 때, 이것이 지배적인 견해입니다. 저는 이것을 '거인 도약' 관점이라고 부릅니다.
이러한 믿음을 가진 사람들이 이뤄낸 발전은 지켜보는 것만으로도 흥미진진합니다. 온라인에서는 로봇이 걷고 , 공중제비를 하고 , 춤을 추고, 식료품을 정리하고 , 요리하고 , 빨래를 개고 , 설거지를 하는 영상을 찾아볼 수 있습니다. 마치 만화 '젯슨 가족'에서나 볼 법한 이야기입니다. 로봇의 승리는 이제 추세선이 조금만 더 이어지면 현실이 될 것으로 보입니다. 그 너머에는 부, 힘, 그리고 풍요가 기다리고 있습니다.
결과적으로, 이러한 관점을 바탕으로 모형을 만들든 완전한 로봇을 만들든, 이러한 기업들이 지난 몇 년간 로봇 산업에 투자된 수십억 달러의 벤처 자금 대부분을 유치했습니다. 여기에는 테슬라가 자사 재무제표에서 투자한 휴머노이드 로봇 옵티머스의 자금은 포함되지 않습니다.
우리는 결국 세상을 자동화할 것입니다. 하지만 제 주장은 진보는 다양성 의 경사를 오르듯 점진적으로 이루어질 것이라는 점입니다.
이러한 변수들을 모두 곱하면 그 범위는 엄청나게 넓어질 수 있습니다 .2 이는 실제 인간의 직업 스펙트럼이 매우 복잡하기 때문입니다. 간단한 검증 방법은 한 사람이 모든 인간의 직업을 다 할 수는 없다는 것입니다.
대부분의 실제 직업은 완전히 반복적인 것은 아니지만, 그렇다고 완전히 무한한 가능성을 가진 것도 아닙니다. 프레드릭 윈슬로 테일러, 헨리 포드, 그리고 그 이후 수많은 산업가들이 못마땅해했던 것처럼, 직업에는 구조, 제약, 그리고 불가피한 변화가 존재합니다. 다양한 부품, 약간 휘어진 상자, 불규칙한 조명, 낡은 설비, 예측할 수 없는 행동을 하는 주변 사람들.
로봇도 마찬가지입니다.
한쪽 극단에는 동작 재생 방식이 있습니다. 로봇은 매번 똑같은 경로로 A 지점에서 B 지점으로 이동합니다. 지능적인 작동이 필요하지 않습니다. 오늘날 대다수의 산업용 로봇이 이러한 방식으로 작동합니다. 위치를 저장하고, 또 다른 위치를 저장하고, 또 다른 위치를 저장하면 로봇은 그 경로를 영원히 따라갑니다. 엑셀의 "매크로 기록" 기능과 같습니다. 아무런 변화가 없을 때는 완벽하게 작동합니다.
반대쪽 극단적인 예로는 맥도날드 직원을 들 수 있습니다. 3분마다 담당 구역이 바뀌죠. 햄버거, 감자튀김, 계산대, 청소까지. 완전히 다른 작업들, 예측 불가능한 순서, 사람들과의 상호작용, 혼란스러운 환경. 범용 물리 지능의 궁극적인 목표는 이런 환경에 들어가서 그저… 일만 할 수 있는 로봇입니다.
한쪽 극단에는 자동화가 있고, 다른 쪽 극단에는 자율성이 있다. 그 두 극단 사이에는 경제적으로 가치 있는 거의 모든 일이 존재한다.
자동화와 맥도날드의 로봇처럼 노동자를 완전히 대체할 수 있는 기술 사이에는 엄청난 수의 일자리가 사라질 전망입니다.
저는 이러한 다양한 영역에 걸친 작은 발걸음들이야말로 오늘날 막대한 경제적 가치를 창출해낼 수 있는 열쇠라고 믿습니다.
저희 회사 스탠다드봇이 바로 그 점에 기대를 걸고 있습니다.
스탠다드봇은 AI 기반의 수직 통합형 로봇을 제작합니다. 현재 제조 및 물류 분야 고객에 집중하고 있으며, 데이터 수집, 검토 및 주석 작성부터 모델 학습 및 배포에 이르기까지 로봇 AI 모델 학습을 위한 완벽한 솔루션을 제공합니다. 또한, 이러한 도구를 일반 제조 현장 작업자도 쉽게 사용할 수 있도록 접근성을 높였습니다.
혁신적인 아이디어가 넘쳐나는 시장에서 우리의 전략은 보수적으로 보일지도 모릅니다. 수천만 달러의 매출조차도 미래에 펼쳐질 수 있는 수조 달러 규모의 풍요로운 미래라는 목표에 비하면 아무것도 아닙니다.
그렇지 않아요.
우리가 오늘날 실제 사업을 구축하고 있는 이유는 그것이 풍요를 가져다주는 최종 상태에 가장 먼저 도달할 가능성이 높다고 믿기 때문입니다.
두 가지 전략: 거대한 도약 또는 작은 발걸음
만약 당신이 어떤 임계점 너머에 경제적으로 가치 있는 엄청난 양의 과제들이 기다리고 있다고 믿는다면, 최적의 전략은 곧바로 그 목표를 향해 나아가는 것 입니다. 팀을 연구실에 가두고, 모델을 확장하고, 컴퓨팅 자원을 확장하세요. 속도를 늦출 수 있는 배포에 정신을 팔지 마세요. 과감 하게 도약하세요 .
만약 여러분도 우리처럼 경제적으로 가치 있는 일자리가 연속적인 스펙트럼을 이루고 있으며, 그중 많은 일을 로봇이 오늘날 수행할 수 있다고 믿는다면, 가장 좋은 방법은 로봇을 현장에 조기에 투입하여 작업을 시작하는 것입니다.
배포를 반복할 때마다 현재 위치를 파악할 수 있습니다. 성공은 안정적인 부분을 보여주고, 실패는 모델의 문제점을 드러내며, 둘 다 다음에 무엇을 수정해야 할지 정확히 알려줍니다. 이렇게 반복하면서 조금씩 개선해 나가는 것입니다.
선도적인 LLM 연구소에서는 데이터가 왕이라는 것이 널리 받아들여지고 있습니다. 최적의 데이터 전략은 한 번에 하나의 사용 사례씩 단계적으로 발전시켜 나가는 것입니다. "더 많은" 데이터가 필요한 것이 아닙니다. 진정으로 필요한 것은 다양성 ³ , 정책 준수 ⁴ , 그리고 커리큘럼 ⁵ 입니다. 이러한 세 가지 차원의 양질의 데이터를 주어진 예산 내에서 최적화하는 전략은 단계적으로 발전시켜 나가는 것입니다. 실제 봇 배포를 통해 정책 준수를 확보할 수 있으며(다른 어떤 방법으로도 불가능), 시장은 지능적으로 커리큘럼을 구성하고, 이 두 가지 모두 풍부하고 경제적으로 관련성 있는 다양성을 제공합니다.
우리는 수년간의 배치 경험을 통해 이 교훈을 얻었습니다.
로봇 기술이 자동화와 자율성 사이의 직업 스펙트럼의 다른 측면을 포괄하도록 발전할 때마다, 새로운 일자리, 새로운 고객층, 새로운 시장 영역이 열립니다. 한 번에 작은 발걸음씩 나아가는 것입니다.
나사 조이기를 예로 들어보겠습니다. 모든 것을 미리 계획된 고정된 위치에 정확하게 배치하는 것보다 인공지능을 활용하여 나사나 볼트를 찾는 것이 훨씬 쉽습니다. 학습 시스템에서 검색과 피드백은 비용이 적게 듭니다. 우리 로봇은 드라이버가 제자리에 있다고 느낄 때까지 이리저리 움직여 볼 수 있습니다. 드라이버를 살짝 흔들어 보고, 홈에 제대로 들어가는 순간을 감지합니다. 만약 미끄러지면 위치를 조정합니다. 로봇이 나사를 조이는 방법을 터득하면, 나사 조이기와 관련된 다양한 작업을 수행할 수 있게 됩니다. 그러면 우리는 그러한 작업들을 수행하면서 각각의 작업에 대한 구체적인 사항들을 학습하게 됩니다.
우리는 일을 하면서 배우고 시간이 지남에 따라 더 나아집니다. 이러한 로봇들 중 상당수는 완벽하지는 않지만 여전히 유용합니다. 로봇이 유용해지기 위해 넘어야 할 마법 같은 기준점은 없습니다.
그건 우리의 가설이 아닙니다. 시장이 우리에게 말해주는 바입니다.
산업용 로봇 시장은 이미 규모가 크고 검증된 시장입니다. 세계 최고의 로봇 팔 제조업체 인 FANUC은 연간 약 60억 달러의 매출을 올리고 있습니다. ABB의 로봇 사업부는 2024년에 24억 달러의 매출을 기록했습니다. 2015년 Teradyne에 인수된 Universal Robots 는 매년 수억 달러의 매출을 올리고 있습니다.
이러한 시스템은 작동 방식은 매우 제한적이지만, 어쨌든 효과는 있습니다. 기업들은 이러한 시스템을 통합하는 데 몇 주씩 소요합니다. 팀들은 복잡한 동작 시퀀스를 프로그래밍하기 위해 전문가를 고용합니다. 작업이 변경되면, 같은 전문가들이 다시 와서 추가 비용을 받고 전체 시스템을 재프로그래밍합니다. 로봇은 똑같은 동작을 끝없이 반복하며, 주변 환경이 완전히 동일하게 유지되는 동안에만 작동합니다.
머신러닝에서 발전은 단 한 번의 도약으로 이루어지는 경우가 드뭅니다. 발전은 환경으로부터의 피드백을 바탕으로 작지만 꾸준한 개선을 거듭하는 경사 상승법을 통해 이루어집니다.
로봇공학에 대해서도 우리는 같은 생각을 가지고 있습니다.
우리도 언젠가는 로봇이 모든 것을 할 수 있을 거라고 기대합니다. 다만 우리는 이렇게 믿을 뿐입니다.
새로운 예외 상황을 발견하면 가변 로봇 시스템 전체 를 반복적으로 개선할 수 있습니다. 이는 데이터 수집, 모델, 펌웨어 및 물리적 로봇 팔을 포함하여 모든 구성 요소가 수직적으로 통합되어 있기 때문입니다.
우리의 계획은 스펙트럼 전체를 먹어치우면서 돈을 버는 것입니다. 그 과정에서 누구도 수집할 수 없는 데이터를 확보할 계획입니다. 그리고 로봇에 최적화된 이 데이터를 활용하여 기존의 직선적인 방식보다 훨씬 빠르게 전체 시스템을 개선하고 일반적인 경제적 효용성을 확보할 것입니다.
저희의 이러한 결정에는 여러 가지 배경이 있습니다. 무엇보다 가장 중요하게 이해해야 할 점은 로봇 공학이 데이터 부족으로 병목 현상을 겪고 있다는 것입니다.
로봇공학은 데이터 부족으로 병목 현상을 겪고 있다.
로봇은 양질의 데이터가 풍부한 곳에서는 이미 자율적으로 매우 잘 작동합니다. 예를 들어, 아래 영상에서 볼 수 있듯이 식물의 일부를 잘라 다시 심어 복제하는 작업이 그 예입니다.
이는 직관적이지 않은데, 대규모 언어 모델(LLM)이 직면하는 문제와 거의 정반대이기 때문입니다. 당신과 같은 일반적인 AI 사용자는 모델이 개선되고 LLM이 자동으로 더 많은 것을 알게 되는 것을 경험합니다.
하지만 LLM(학습 언어 모델)은 상대적으로 수월했습니다. 인터넷 전체가 이미 구축된 학습 자료였기 때문입니다. 인터넷에는 상상 이상으로 많은 정보가 존재합니다. LLM에 질문할 만한 내용은 인터넷에 이미 대부분 답변되어 있을 가능성이 높습니다. 진정한 어려움은 이 모든 정보로부터 학습할 수 있는 아키텍처를 구축하는 것이었습니다.
로봇공학은 정반대의 문제를 안고 있다.
로봇 학습에 필요한 아키텍처는 이미 상당 부분 존재합니다. 지난 몇 년 동안 대규모 언어 모델의 핵심 아이디어들이 물리 시스템에 적용되면서 로봇 학습 분야에서 획기적인 발전이 이루어졌습니다. 예를 들어, 도요타 연구소의 확산 정책(Diffusion Policy)은 로봇 제어 정책을 생성형 모델로 취급하면 로봇이 정교한 조작 기술을 학습하는 속도를 획기적으로 향상시킬 수 있음을 보여줍니다. 이 접근 방식의 핵심은 이미지 생성에 주로 사용되는 아키텍처를 활용했다는 점입니다. 이 아키텍처에서는 모델이 아래 GIF 이미지처럼 반복적인 방식으로 노이즈를 제거하는 방법을 학습합니다.
…그리고 그 방법을 로봇의 그리퍼 경로를 생성하는 데 적용했습니다. 한 분야에서 효과적인 아이디어를 다른 분야에 적용하니, 결과는 놀라울 정도로 좋았습니다.
RT-2 와 같은 비전-언어-행동 모델은 웹 규모의 의미론적 이해와 로봇 데이터를 결합하여 고수준의 명령을 물리적 동작으로 변환합니다. ALOHA Unleashed 와 같은 시스템은 변환기 기반 모방 학습을 통해 실제 로봇이 시연을 보고 신발끈 묶기나 물건 분류와 같은 복잡하고 다단계적인 작업을 처리할 수 있음을 보여줍니다. 또한 RDT-1B 와 같은 새로운 확산 기반 기초 모델은 크고 다양한 로봇 데이터셋을 활용한 훈련을 통해 제로샷 일반화와 다양한 구현체에 걸친 퓨샷 학습이 가능함을 보여줍니다.
하지만 그 논문들은 모두 비슷한 사실을 발견했습니다. 놀라운 혁신이 합리적인 성공률로 이루어지려면 특정 로봇이 특정 작업을 특정 환경에서 수행하는 것에 대한 데이터가 필요하다는 것입니다.
로봇에게 셔츠 접는 법을 훈련시킨 후 셔츠를 접으라고 하면 제대로 접습니다. 셔츠를 다른 환경, 다른 테이블, 다른 조명 아래에 놓아도 마찬가지입니다. 로봇은 여전히 셔츠를 접습니다. 모델은 "셔츠 접기"라는 작업 범위 내에서 일반화하는 법을 학습한 것입니다. 하지만 재킷을 걸거나 수건을 쌓거나 셔츠 접기와는 의미 있게 다른 작업을 시키면 실패합니다. 로봇이 멍청한 것이 아닙니다. 단지 그런 작업을 하는 사람을 본 적이 없기 때문입니다.
또 다른 방법은 로봇이 하길 바라는 모든 행동을 사람들이 하는 모습을 영상으로 촬영하는 것입니다. 연구 결과는 이 분야에 생명체가 존재할 가능성을 보여주고 있습니다.
예를 들어, 스킬드는 로봇이 비디오와 작업당 단 1시간 분량의 로봇 데이터만으로 여러 가지 일반적인 가정 작업을 수행하는 방법을 학습할 수 있음을 보여 주었습니다.
이는 고무적인 진전이며, 이를 바탕으로 이번 주에 스킬드는 소프트뱅크가 주도하는 14억 달러 규모의 시리즈 C 투자를 유치했으며 , 기업 가치는 140억 달러 이상으로 평가되었습니다.
궁극적으로 일반 비디오는 모델의 초기 성능을 향상시킬 수 있습니다. 하지만 간단한 가정용 물건 집기 작업조차도 최종 정책 수립을 위해서는 로봇 자체 데이터가 여전히 필요합니다. (산업 작업에는 훨씬 더 많은 데이터가 필요합니다.) 무엇보다 로봇은 토크와 힘을 포함한 3D 데이터가 필요하며, 이러한 데이터는 시간에 따라 변화해야 합니다. 로봇은 거의 움직임을 직접 느껴야 합니다. 비디오에는 이러한 데이터가 없고, 텍스트에는 당연히 없습니다.
마치 책을 많이 읽는 것이 좋은 책을 쓰는 데 도움이 되는 것과 같지만, 골프 영상을 많이 보는 것이 실제로 골프를 치는 데 큰 도움이 되는 것은 아닙니다.
골프를 배우고 싶다면 실제로 코트에 나가서 몸을 이용해 클럽을 휘둘러야 합니다. 마찬가지로,
데이터를 수집하는 가장 좋은 방법은 하드웨어를 사용하는 것입니다 . 이를 위해 다양한 수집 방법이 있는데, 리더-팔로워 로봇 팔, 센서가 장착된 휴대용 장치, 장갑 및 웨어러블 기기, VR 및 원격 조작, 그리고 직접 조작(즉, 로봇 팔을 움직여 물체를 잡는 것) 등이 있습니다.
이러한 접근 방식들은 모두 효과가 있을 수 있습니다. 각각 장단점이 있죠. 저희는 여러 방식을 혼합해서 사용합니다.
골프 비유를 계속해 봅시다. 어떤 사람의 몸으로든 연습하는 것은 비디오를 보는 것보다 낫지만, 내 몸으로 연습하는 것이 가장 좋습니다. 왜냐하면 그게 바로 내가 실제로 경기에 사용할 몸이기 때문입니다.
마찬가지로, 다른 로봇에서 얻은 데이터조차도 자신의 로봇에서 얻은 데이터만큼 가치가 있지는 않습니다. 데이터와 하드웨어가 일치하지 않으면 100배, 아니 1,000배 더 많은 데이터가 필요합니다. 만약 제가 제 로봇을 개선하고 싶지만 제 로봇이 없다면, 비슷한 로봇을 이용해서 작동을 관찰할 수 있습니다. 하지만 효과를 보려면 비슷한 로봇이 많이 필요할 것입니다.
이는 일반적인 로봇 모델이 직면한 여러 가지 과제 중 하나입니다.
거대한 도약을 위해 실제로 필요한 것은 무엇일까요?
지금까지 제가 주장해 온 모든 것, 그리고 앞으로 주장할 모든 것에 대한 가장 명백한 반박은, 자이언트 리프 모델이 아직 현실 세계에서의 유용성을 실현하지는 못했지만, 연구소들이 계속해서 획기적인 발전을 이루어냄에 따라 틀림없이 실현될 것이라는 점입니다. 마법이 부족한 건 즐거운 일이 아니잖아요!
하지만 이 분야에 투자된 금액에 비해, 자이언트 리프 접근 방식이 실제로 무엇을 의미하는지에 대한 제대로 된 대중적 논의는 놀랍도록 부족합니다.
그들이 거는 내기 또는 내기들의 조합은 무엇이며, 우리는 그것들에 대해 어떻게 추론해야 할까요?
스탠다드봇에서 우리가 택하는 접근 방식은 어렵습니다. 종종 느리고 답답하기도 합니다. 외부에서는 우리가 이렇게 많은 노력을 기울였는데 어느 날 갑자기 대형 연구소 중 하나가 그 해법을 찾아낼지도 모른다는 큰 위험이 도사리고 있습니다. 하지만 저는 우리의 접근 방식에 확신을 가지고 있습니다. 거대 연구소의 관점으로는 의미 있는 돌파구를 마련할 수 없다고 생각하기 때문이며, 그 이유를 설명드리고자 합니다.
확실히, 여러분은 로봇 트위터에서 점점 더 마법 같은 프레젠테이션을 계속해서 보게 될 것입니다.
"유튜브 영상으로 학습시킬 수 있어요. 로봇 데이터는 필요 없어요!"
"시뮬레이션을 통해 누락된 데이터를 생성할 수 있습니다!"
“우리는 세계 모델을 구축하고 있습니다. 제로샷 로봇 기술은 필연적입니다!”
그리고 이러한 주장들 중 일부는 방향성이 맞는 것도 있습니다. 많은 이야기들 뒤에는 실제적인 진전이 숨어 있습니다. 하지만 소음도 엄청나게 많습니다.
다시 말씀드리지만, 저는 편향된 시각을 가지고 있습니다. 하지만 저는 그 편향된 시각에 시간과 돈을 투자하고 있습니다. 그래서 저는 구글, 피지컬 인텔리전스 (파이 또는 π), 스킬드가 진정한 도약을 추구하며 연구실에서 실제로 무엇을 하고 있는지, 그 근본적인 원리를 (말하지 마세요, 말하지 마세요) 처음부터 어떻게 생각하는지 말씀드리겠습니다.
모델이 첫발을 내딛다
현대 로봇공학 및 인공지능 분야의 많은 발전은 비슷한 방식으로 시작되었습니다. 즉, 인지 능력을 사전 학습시키고, 행동은 처음부터 학습시키는 것입니다 . 다시 말해, 로봇에게 인지하는 방법을 가르치고, 인지 과정을 통해 학습하도록 하는 것입니다.
도요타 연구소의 확산 정책을 예로 들어보겠습니다. 비전 인코더(픽셀을 모델이 사용할 수 있는 형태로 변환하는 부분)는 인터넷 규모의 이미지로 사전 학습되지만, 액션 모델은 기본적으로 아무것도 없는 상태에서 시작합니다.
"빈 상태"에서 시작하는 것은 이상적이지 않습니다. 왜냐하면 모델은 아직 연구자들이 말하는 '지각-행동 기반'을 갖추지 못했기 때문입니다. 즉, 모델은 자신이 보는 것과 행동하는 것 사이의 긴밀한 관계를 학습하지 못했습니다.
카메라 공간에서 "왼쪽으로 이동"한다는 것은 실제 세계에서 왼쪽으로 이동하는 것을 의미해야 합니다.
두 손가락으로 컵을 집는 도구는 손잡이나 테두리를 잡을 수 있지만, 어린아이가 포크로 수프를 먹으려는 것처럼 컵 중앙을 찔러서 잡는 것은 불가능합니다.
접촉은 단순한 기하학이 아니라 물리학입니다. 세상은 당신이 세상과 상호작용할 때 변화합니다.
이 과도기적 단계는 기본적으로 유아기와 같습니다. 세상을 보고, 세상에 맞서 싸우고, 때로는 성공하기도 하지만, 대부분은 스스로를 들이받는 거죠.
하지만 대부분의 진지한 팀들은 며칠 안에 로봇 데이터를 충분히 수집하여 기본적인 작동 원리를 파악할 수 있습니다. 여기까지는 순조롭습니다.
로봇 훈련 방법
로봇에게 특정 작업을 수행하도록 훈련시키고 싶다고 가정해 봅시다. 다음과 같은 단계를 따라야 합니다.
1. 데이터 가져오기
2. 모델 학습
3. 평가 및 지속적인 개선
데이터 수집 : 실험실, 실제 환경, 시뮬레이션에서 원격으로 조작하거나 인터넷 또는 생성된 비디오를 통해 학습할 수 있습니다. 각 옵션에는 장단점이 있으며, 로봇 회사들은 이러한 장단점을 고민하고 실험하는 데 많은 시간을 투자합니다.
모델 학습 : 처음부터 모델을 구축할 건가요, 아니면 사전 학습된 모델을 활용하여 학습시킬 건가요? 모델 규모가 작 다면 처음부터 학습시키는 것이 더 쉽습니다. 대규모 모델은 일반적으로 사전 학습, 중간 학습, 사후 학습 단계를 포함하는 전체 학습 레시피와 파이프라인을 필요로 합니다. 사전 학습은 로봇에게 세상의 기본 원리(일반적인 물리, 움직임, 조명)를 학습시키는 단계입니다. 사후 학습은 특정 작업을 수행할 수 있는 능력을 부여하는 단계입니다.
LLM(로봇 학습 모델) 용어로 설명하자면, 사전 학습은 모델에게 훈련 데이터 분포에서 단어들 간의 관계를 학습시키는 과정입니다. 즉, 단어들의 잠재적 표현을 학습하는 것이죠. 사후 학습(instructGPT, RLHF, Codex 등)은 챗봇이나 코딩과 같은 실제 사용 사례에 맞게 모델을 준비시키는 단계입니다. 또한, 사후 학습을 통해 강화 학습(RL)으로 동작 궤적을 다듬어 로봇의 속도, 비용, 정확도를 향상시킬 수 있습니다. LLM 분야에서 자주 언급되는 강화 학습 관련 용어들은 사실 로봇의 특정 작업에 특화된 정책에서 시작된 것입니다.
다 좋은데, 데이터가 필요하잖아요. 가장 중요한 질문은 바로 " 어떻게 데이터를 얻을까?" 입니다.
영상에 대한 꿈 (그리고 그 한계)
거대 기업들은 필요한 데이터를 얻는 방법에 대한 두 가지 핵심적인 해결책을 가지고 있습니다.
첫 번째는 인터넷 전체에 존재하는 동영상 입니다.
모델들은 비디오를 통해 분명히 무언가를 배웁니다. 사물 영속성, 대략적인 기하학적 형태, 잠재적인 물리적 구조, 그리고 한 번도 본 적 없는 물체의 뒷면을 환각처럼 떠올릴 수 있는 능력까지 (이는 현실과의 관계에 따라 매우 흥미로울 수도 있고, 매우 불안감을 줄 수도 있습니다).
그러니 유튜브를 실컷 보고, 세상을 배우고, 그 다음에 로봇공학을 해보는 건 어때요?
먼저 이것부터 생각해 보세요. 사람들은 영상을 시청함으로써 무엇을 배울 수 있을까요? 그리고 무엇을 배울 수 없을까요?
동영상은 여러모로 유용 합니다 .
동작 궤적 및 순서 : 비디오는 동작의 궤적과 단계별 순서를 보여주는 데 매우 효과적입니다.
가능성과 목표 : 누군가가 손잡이를 돌리는 것을 보면 손잡이는 돌려지기를 원하고, 스위치는 눌러지기를 원한다는 것을 알게 됩니다.
타이밍과 리듬 : 타이밍은 이동, 조립, 또는 기본적으로 안무와 같은 모든 것에 중요합니다. 비디오는 타이밍을 전달합니다.
물건을 잡는 방법을 배우고 있다면, 동영상을 통해 다음 동작을 확인할 수 있습니다: 손을 뻗다 → 내리다 → 손가락을 모으다 → 들어 올리다.
그리고 그것은 도구 사용 방식을 보여줄 수 있습니다. 컵을 기울이는 모습, 망치를 휘두르는 모습, 사람들이 물건을 들어 올리는 대신 밀어서 옮기는 '꼼수' 같은 것들 말입니다.
하지만 영상에는 담을 수 없는 데이터 범주가 있습니다. 질량, 힘, 순응도, 마찰력, 강성, 접촉 역학 등이 그것입니다.
인간은 때때로 이러한 정보의 일부를 시각적으로 추론할 수 있지만, 이는 평생에 걸쳐 축적된 신체적 경험에 의존하기 때문입니다. 로봇은 그러한 사전 경험이 없습니다.
2,200명이 넘는 참가자를 대상으로 한 실험에서 연구자 마이클 카르다스와 에드 오브라이언은 사람들이 문워크, 저글링, 다트 던지기 같은 신체 기술을 배우는 교육용 비디오를 시청했을 때 어떤 일이 일어나는지 조사했습니다 . 결과는 놀라웠습니다.
사람들이 영상을 더 많이 시청할수록 자신감은 급격히 상승했습니다. 하지만 실제 성과는 거의 변화가 없거나 오히려 악화되었습니다.
로봇은 인간보다 훨씬 불리한 입장에 놓여 있다. 적어도 인간은 사전 정보를 가지고 있지만, 로봇은 센서와 수학적 사고 능력만 가지고 있다.
자세히 살펴보지 않으면 로봇에게 인터넷 영상을 제공하는 것이 효과가 있는 것처럼 보일 수 있습니다.
스킬드의 "시청을 통한 학습" 데모 영상을 자세히 살펴보세요 . 가장 간단한 작업에만 "1시간 분량의 사람 데이터"가 사용됩니다. 더 인상적인 데모들은 영상 중간에 "1시간 분량의 사람 데이터"라는 표시 없이 등장합니다. 게다가 이 영상들은 유튜브에서 무작위로 가져온 것이 아닙니다. 머리에 장착한 카메라로 직접 촬영한 영상을 신중하게 수집한 것입니다. 과연 이 모든 것이 로봇을 사용하는 것보다 훨씬 쉬울 까요 ?
요약하자면, 영상만으로는 충분하지 않은 세 가지 큰 이유가 있습니다.
보도 범위: 인터넷 영상은 산업 현장의 기묘하고, 제한적이며, 적대적인 현실을 제대로 담아내지 못합니다.
데이터 효율성: 비디오만을 이용한 학습은 일반적으로 로봇이 수집한 데이터를 이용한 학습보다 훨씬 더 많은 데이터를 필요로 합니다. 이는 물리적 감지 기능 없이 픽셀과 동작 간의 매핑이 충분히 제약되지 않기 때문입니다.
알 수 없는 힘: 두 표면이 겉보기에는 똑같아 보여도 완전히 다르게 작용할 수 있습니다. 영상으로는 마찰력을 구분할 수 없죠. 로봇은 재미있는 방법으로 그 비밀을 밝혀냅니다.
하지만 여전히 번역 문제가 남아 있습니다. 사람의 손은 로봇의 집게가 아니며, 운동학적 특성, 크기, 유연성 등이 다르고, 실제로 사용할 최종 작동 장치로 훈련하지 않으면 체계적인 오류가 발생합니다.
바로 이러한 이유 때문에 많은 기업들이 조용히 원격 운영으로 되돌아가는 것입니다.
사람의 모습이 담긴 영상은 사전 학습에 유용합니다. 하지만 근거가 부족한 데이터는 실질적인 손실을 초래합니다. 실제로 언덕을 오르는 고된 작업을 수행하든지, 아니면 오랫동안 옆으로 헤매면서 그것을 진전이라고 부르든지 둘 중 하나를 선택해야 합니다.
좋아요, 유튜브 영상은 별로 도움이 안 되네요. 그럼 시뮬레이션은 어떨까요?
세계 모델이 효과적인 경우와 그렇지 않은 경우
시뮬레이션과 강화 학습은 또 다른 중요한 구원투수입니다. 로봇이 실제 물리 법칙을 모방한 시뮬레이션 환경에서 스스로 움직일 수 있다면, 학습된 정책이 실제 로봇에게도 적용될 수 있을 것입니다. 솔직히 말해서, 시뮬레이션은 현재 특정 분야, 특히 강체 역학 분야 에서 매우 뛰어난 성능을 보여주고 있습니다.
NVIDIA는 이동 기술 개발에 많은 노력을 기울여 왔습니다. 디즈니의 작품(젠슨의 GTC 2025 기조연설에서 소개됨)은 뛰어난 물리 엔진과 정교한 제어 기능을 결합했을 때 얻을 수 있는 놀라운 결과를 보여줍니다. 시뮬레이터에서 휴머노이드가 걷고, 회전하고, 자세를 (아름답게) 회복하는 모습을 구현한 것입니다.
그 성공은 두 가지 요소에 달려 있습니다.
물리적 문제는 다루기 쉽습니다. 시뮬레이터는 강체, 접촉, 중력 등을 잘 처리할 수 있습니다. 실제 세계를 건드리지 않고도 지형을 무작위화하고, 장애물을 생성하고, 견고한 보행 정책을 훈련시킬 수 있습니다.
목표는 명확하게 정의할 수 있습니다. 강화 학습에는 보상이 필요합니다.
걷기의 장점은 명확합니다. 이동 거리, 안정성, 에너지 소모량, 속도 등이 그것입니다.
애니메이션의 경우, 훨씬 더 간단합니다. 떨어지지 않고 참조 동작과 일치하면 됩니다.
따라서 운동 시뮬레이션은 머신 러닝에 매우 적합한 분야입니다. 세 가지 요소가 모두 충족되기 때문입니다. 물리 법칙을 모델링할 수 있고, 목표를 측정할 수 있으며, 문제가 발생했을 때 무료로 재설정할 수 있습니다.
그러다가 사람들은 걷기에서 공장 노동으로 이어지는 추론을 시도했고, 그 결과 모든 것이 틀어졌습니다.
실제 세계에서 실제적인 일을 하다 보면 물리 법칙이 복잡해집니다. 실제 작업에는 연성 재료, 변형된 포장재, 유체, 케이블 배선, 마모에 따른 마찰, 엄격한 공차, 접촉에 의해 좌우되는 결과 등이 포함됩니다.
이러한 과정의 일부는 시뮬레이션할 수 있지만, 광범위하고 정확하게 구현하려면 엄청난 수작업이 필요합니다. 게다가 실제 운영 환경에서 발생하는 특수한 상황까지 완벽하게 재현하기는 어렵습니다. 결국, 차라리 실제처럼 하는 것이 낫습니다.
실제 작업에서는 보상이 불확실하거나 글로 표현할 수 없게 됩니다 . "샌드위치를 만들어라"와 같은 작업은 정량화할 수 없습니다. "이 부품을 내려놓아라"라는 작업조차도 수많은 제약 조건으로 가득 차 있습니다. 찢어지지 않도록, 쏟지 않도록, 정렬되도록, 미끄러지면 다시 제자리에 놓도록, 걸리지 않도록, 마감재에 흠집이 나지 않도록, 시뮬레이션에서는 작동했지만 실제 작업에서는 기계를 고장내는 행동을 하지 않도록 등등 말입니다.
웨이모는 훌륭한 사례입니다. 웨이모는 현재 수많은 시뮬레이션을 활용하고 있지만, 실제 사람이 운전하는 차량에서 수집한 데이터는 웨이모 모델보다 훨씬 이전에 축적되었습니다. 웨이모가 첫 자율주행을 시도하기 전, 구글 직원들이 얼마나 오랫동안 그 우스꽝스럽게 생긴 차들을 몰고 다니며 데이터를 수집했는지 기억하시나요? 웨이모는최근 블로그 게시물 에서 " 이처럼 방대한 양의 실제 자율주행 경험을 대체할 수 있는 것은 없습니다. 아무리 시뮬레이션을 하거나, 사람이 직접 운전하며 데이터를 수집하거나, 테스트 드라이버를 활용하더라도 웨이모 드라이버가 완전히 제어권을 잡았을 때 마주하는 다양한 상황과 반응을 완벽하게 재현할 수는 없습니다. "라고 밝혔습니다.
실제 세계에서 데이터를 수집한 다음 시뮬레이션에서 이를 재현하고 증폭해야 합니다. 그렇게 해야 마지막 몇 개의 "9"를 얻을 수 있습니다.
또한, 재설정. 처음부터 다시 시작하는 데 필요한 것들.
시뮬레이션에서는 리셋이 무료입니다. 하지만 현실에서는 리셋에 노력이 필요합니다. 걷기는 드물게 예외인데, 리셋이 "다시 일어서기"이기 때문입니다. 하지만 로봇이 시행착오를 통해 샌드위치 만드는 법을 배우게 하려면 누군가는 뒷정리를 하고, 재료를 채우고, 리셋하고, 다시 시도하고, 이 과정을 끝없이 반복해야 합니다. 그러다 보면 결국 삶의 의욕을 잃어버릴지도 모릅니다. 어설픈 로봇 뒤처리를 하려고 로봇 연구원이 된 건 아닐 테니까요.
따라서 시뮬레이션은 유용하지만 실제 데이터 수집을 대체할 수는 없습니다. 시뮬레이션의 가장 큰 활용도는 실제 로봇 배치 후, 즉 실제 로봇에서 실제 고장 모드가 발생할 때, 시뮬레이션을 통해 그러한 드문 사례들을 재현하고 증식시키는 데 있습니다.
이로써 우리는 다시 기본 원칙으로 돌아가게 됩니다.
그렇다면 로봇을 훈련시키는 가장 좋은 방법은 무엇일까요? (사람을 훈련시키는 것처럼)
사람을 훈련시키는 방법을 생각해 보세요.
간단한 작업에는 텍스트가 효과적입니다. 조금 더 복잡한 작업에는 체크리스트가 도움이 됩니다. 하지만 실제 공장 작업은 그렇게 간단하지 않습니다. 정렬, 타이밍, 판단력, 문제 해결 능력, 그리고 "가끔 발생하는 일"에 대처하는 능력이 필요합니다.
그 시점에서는 시범이 가장 효과적입니다. 의도를 전달하는 데 있어 가장 정보 밀도가 높은 방법이기 때문입니다. 이것이 바로 기술직 종사자들이 도제 제도를 거치는 이유입니다.
로봇도 마찬가지입니다. 학습 신호의 품질만 좋다면 로봇이 작업을 학습하는 데 몇 분 또는 몇 시간이 걸리더라도 괜찮습니다.
훈련 시간이 전혀 필요 없는 것은 아닙니다.
이는 우리가 계속 말해왔던 것처럼, 거대한 도약은 건축적인 것이 아니며, 건축적일 수도 없다는 결론으로 이어집니다.
모델이 갑자기 모든 것을 파악하고 무엇이든 할 수 있게 되는 '거대한 도약'은 현실이 아닙니다. 매력적이고 섹시하긴 하지만 (어쩌면 항상 손이 닿지 않는 곳에 있기 때문에 더 매력적으로 느껴지는 것일지도 모릅니다), 그런 것은 존재하지 않습니다. 아무리 똑똑한 사람이라도 훈련과 지도가 필요합니다. 테렌스 타오도 용접 전문가가 되려면 수년이 걸릴 것입니다.
우리는 그 해답이 바로 올바른 데이터를 수집하는 데 시간을 투자하는 데 있다고 생각합니다. 로봇별, 작업별, 고품질 데이터를 수집하는 것이 중요하며, 이는 화려한 인터넷 데모 영상이 다소 부족하더라도 마찬가지입니다.
이로부터 세 가지 결론이 도출됩니다.
로봇별 데이터는 항상 필요합니다.
작업을 전달하는 가장 효과적인 방법은 직접 보여주는 것입니다(원격 조종 또는 직접 조작).
일단 특정 분야에 특화된 강력한 데이터를 확보했다면, 관련 없는 작업에서 얻은 품질이 낮은 비전 데이터는 그다지 도움이 되지 않습니다.
LLM은 인간 텍스트의 전체 분포를 보간하기 때문에 마법처럼 느껴집니다. 로봇은 그런 이점을 누리지 못합니다.
분명히 말씀드리자면, 제 주장은 비디오, 시뮬레이션, 그리고 더 나은 모델들이 유용하지 않다는 것이 아닙니다. 분명히 유용합니다. 다만, 이러한 도구들을 사용하더라도 올바른 데이터를 수집하는 것이 여전히 중요하다는 것입니다.
트럭 적재 및 하역, 생물학적 샘플 준비, 소 체온 측정과 같은 특정 작업을 수행하려면 해당 작업에 대한 데이터가 필요하며, 그 데이터는 자체 하드웨어에서 생성하는 것이 가장 좋습니다.
그리고 일반적인 신체 지능이 약속하는 것처럼 어떤 일이든 하려면, 여러 가지 특정한 일을 할 수 있어야 합니다. 즉, 각각의 특정한 일에 대한 데이터가 필요하거나, 적어도 서로 매우 유사해서 확실하게 일반화할 수 있는 일들에 대한 데이터가 필요하다는 뜻입니다.
결론적으로, 이 모든 데이터를 활용하면 전반적으로 뛰어난 로봇을 만들 수 있을지 모르지만, 이 모든 데이터를 수집하는 것은 사람들이 생각하는 것보다 훨씬 더 어렵고, 확보한 데이터를 벗어나 일반화하는 것 또한 훨씬 더 어렵습니다(사실, 아직 그것이 가능하다는 것이 입증되지 않았습니다).
이는 닭과 달걀의 문제와 같은 상황을 초래합니다.
데이터(그리고 특정 유형의 데이터) 없이는 실제 사용 사례를 테스트할 수 없습니다.
실제 사용 사례를 수행하지 않고서는 높은 정확도의 데이터를 얻을 수 없습니다.
그것이 바로 로봇 공학이 거대한 도약이 아닌 작은 발걸음으로 발전한다고 생각하는 주된 이유입니다. 어떤 경우든 모든 데이터를 수집해야 하니까요!
그리고 만약 당신이 그것을 믿는다면, 다음 단계는 자명할 것입니다…
데이터 수집으로 돈을 벌어보세요
그렇다면 그 데이터는 어떻게 수집하나요? 로봇, 그러니까 저희 경우에는 로봇 팔을 수천 대 만들어서 로봇들이 연습할 수 있는 환경을 조성하는 건가요?
로봇이 경제적으로 유용해지려면 특정 수준의 능력을 갖춰야 한다고 생각한다면, 그것이 최선의 접근 방식일지도 모릅니다. 하지만 우리는 이미 그 주장이 틀렸음을 증명했습니다. FANUC, ABB, Universal Robots 등은 기본적인 자동화 분야에서 수십억 달러의 매출을 올리고 있습니다.
고객들은 엄청난 비용이 드는 구현 작업과 프로그래밍이 매우 까다로운 구형 로봇에 익숙해져 있습니다. 우리는 그들과 경쟁하고 승리할 수 있다는 것을 깨달았습니다.
우리는 기존의 결정론적 소프트웨어보다 더 나은 무기를 만들고 더 광범위한 사용 사례에 맞춰 자동화합니다. 게다가 비용도 더 저렴합니다.














