AI 혁신 물결 속에서 로봇 혁신도 혜택을 받을 것이며, 이번 AI 열풍도 예외가 아닙니다. 그러나 현재 등장하고 있는 대부분은 특수 목적 로봇이며, 이러한 로봇의 지능은 특정 분야에 국한된 전문 지능입니다. 이러한 접근의 한계는 연구 성과를 재활용할 수 없으며, 로봇에 사용되는 모델과 하드웨어가 매우 제한된 분야에만 적용 가능하다는 것입니다.
최근 범용 로봇 두뇌의 초기 형태가 등장했습니다. Physical Intelligence라는 로봇 회사가 π(0)라는 범용 로봇 기반 모델을 훈련시켰는데, 이 모델의 지능은 거의 모든 로봇 응용 분야에 적용 가능합니다. 이는 이러한 범용 모델이 성숙해지면 특정 전문 분야의 로봇을 개발할 때 산업 데이터로 미세 조정하기만 하면 된다는 것을 의미합니다. 이는 특정 세분화된 분야에서 창업하려는 소프트웨어 개발자가 GPT-4를 미세 조정하는 것과 유사합니다.
Physical Intelligence는 2024년 2차례의 투자 유치에 성공했습니다. 3월에는 Thrive Capital이 주도한 7,000만 달러의 시드 투자를 받았고, Khosla Ventures, Lux Capital, OpenAI, Sequoia Capital이 참여했습니다. 11월에는 제프 베이조스, OpenAI, Thrive Capital, Lux Capital, Bond Capital, Khosla Ventures, Sequoia Capital이 참여한 4억 달러의 새로운 투자 라운드를 진행했으며, 이로 인해 기업 가치가 24억 달러에 달하게 되었습니다.
이전에는 제프 베이조스가 Figure AI에 6.75억 달러, Skild AI에 3억 달러의 A라운드 투자를 주도했으며, 아마존은 Covariant AI 팀을 인수했습니다. OpenAI는 Figure AI에 투자했으며, 2,350만 달러 규모의 초기 투자도 진행했습니다. 로봇 분야는 투자 기관과 IT 대기업들에게 널리 주목받고 있습니다.
과학자들이 모여 범용 로봇 두뇌를 만들다
Physical Intelligence의 핵심 팀은 UC 버클리, 스탠퍼드 대학 등 유명 대학과 테슬라, 구글 DeepMind, Stripe 등 선도적인 기술 기업 출신입니다.
공동 창립자이자 CEO인 Karol Hausman은 스탠퍼드 대학 겸임 교수이며, 구글 브레인에서 로봇 분야 연구 과학자로 일했던 경험이 있습니다. 그의 논문 인용 수는 13,000회를 넘습니다. 공동 창립자 Sergey Levine은 UC 버클리 부교수이자 로봇 분야의 최고 전문가로, 논문 인용 수가 15만 회에 달합니다. 공동 창립자 Chelsea Finn은 스탠퍼드 대학 부교수이며, 논문 인용 수는 6.3만 회입니다.
창업팀에는 구글 전 연구 과학자 Brian Ichter와 Stripe 전 임원이자 유명 기술 투자자인 Lachy Groom도 포함되어 있습니다.
Physical Intelligence의 비전은 사용자가 대형 언어 모델 기반 채팅 도우미를 사용하듯이 로봇에게 원하는 모든 작업을 수행하게 하는 것입니다.
범용 로봇 기반 모델이 산업에 의미하는 바는 무엇인가?
현재 AI 응용 분야는 크게 두 가지로 나뉩니다. 하나는 가상 공간에서 인간과 상호작용하는 것이고, 다른 하나는 물리적 세계와 직접 상호작용하는 것입니다. 가상 공간에서의 상호작용에는 채팅봇, AI 기업 검색, 에이전트, 법률 AI, 프로그래밍 AI 등 다양한 수직 산업 AI가 포함됩니다.
물리적 세계와의 직접 상호작용은 주로 로봇과 자율주행 자동차를 통해 이루어집니다. 로봇 응용 분야는 특수 목적과 범용 두 가지로 구분할 수 있습니다.
현재 대부분의 로봇은 "특수 목적"에 속합니다. 이러한 로봇은 제한된 환경에서의 소수의 변화에 적응할 수 있지만, 가정이나 기타 복잡하고 무질서한 실제 환경에 대응하기는 어렵습니다. 일부 인간형 로봇은 "범용" 로봇에 해당합니다. 이들은 사람이 할 수 있는 대부분의 일을 수행하도록 설계되었지만, 특정 제한된 상황에만 국한되지는 않습니다.
로봇의 구조는 대략 "두뇌", "소뇌", "눈", "팔다리"로 구분할 수 있습니다. "두뇌"는 외부 명령을 이해하고 의사결정을 내리는 중추이며, 일반적으로 범용 또는 특수 목적 모델이 사용됩니다. "소뇌"는 의사결정 명령을 "팔다리"에 입력하고 이를 제어하는 시스템입니다. "팔다리"는 로봇이 물리적 세계와 직접 접촉하는 부분으로, 인간형, 개형 또는 기계 팔 등 다양한 형태가 있습니다. "눈"은 "두뇌"가 외부 환경을 인식하는 센서입니다.
이러한 모든 부분에서 대기업과 선도적인 스타트업들이 혁신과 개발을 진행 중이지만, "소뇌", "눈", "팔다리"는 이전 로봇 물결에서 점차 성숙해졌고, 로봇의 "두뇌"만이 초기 단계에 있습니다.
청소 로봇, 도장 로봇, 배송 로봇, 창고 운반 로봇과 같은 수직 분야 로봇은 해당 분야의 전문 지능만을 가지고 있으며, 그들의 "두뇌" 모델은 제한된 상황만을 이해하고 처리할 수 있습니다. 이전의 특수 목적 로봇은 고정된 동작만 수행할 수 있었고, 많은 인간 프로그래밍이 필요했습니다.
범용 로봇 두뇌 모델은 이러한 상황을 일정 부분 변화시킬 수 있습니다. 이를 통해 로봇이 사용자 지시를 학습하고 따르게 되어 새로운 행동을 프로그래밍하는 것이 매우 간단해지며, 로봇이 환경에 맞춰 스스로 행동을 조정할 수 있게 됩니다.
어떤 수직 분야의 로봇 창업자라도 범용 로봇 두뇌 모델을 가지고, 자신의 산업 전문 데이터로 미세 조정하면 해당 응용 분야에 적합한 로봇 두뇌를 만들 수 있습니다. 이는 대형 언어 모델에 전문 데이터를 더해 강력한 산업 모델을 만드는 것과 똑같은 논리입니다.
더 깊이 살펴보면, 범용 로봇 기반 모델은 일반 인공지능(AGI) 실현에도 도움이 될 수 있습니다. 현재 AI 연구원들은 Scaling Law 효과가 감소하는 이유가 "데이터 벽"에 부딪혔기 때문이라는 것을 발견했습니다. 즉, 대부분의 고품질 데이터가 이미 학습되어 모델에 부족한 상황입니다. 만약 범용 로봇 모델이 물리적 세계와 지속적으로 상호작용하며 복잡한 상황을 해결해나간다면, 끊임없이 고품질 데이터가 생성될 것이고, 결국 AGI에 한 걸음 더 다가갈 수 있을 것입니다.
통용 로봇 기반 모델 훈련을 위해 어떤 새로운 방법이 필요한가?
Physical Intelligence의 현재 프로토타입 범용 로봇 기반 모델은 π0(파이-제로)라고 불립니다. 이 모델은 다양한 데이터로 훈련되어 다양한 텍스트 지시를 수행할 수 있습니다. 하지만 대형 언어 모델과 다른 점은 이미지, 텍스트, 동작을 통합하고 실제 로봇 경험을 통해 물리적 지능을 습득했다는 것입니다. 그리고 이 모델은 저수준 모터 명령을 출력합니다. 따라서 다양한 유형의 로봇을 제어할 수 있으며, 지시에 따라 작업을 수행하거나 복잡한 응용 분야에 맞춰 미세 조정할 수 있습니다.
π0 모델 훈련 시 Physical Intelligence는 특별한 훈련 전략을 사용했습니다.
첫째, 다기기 혼합 훈련입니다. π0 모델은 웹 규모의 비전-언어 사전 훈련, 오픈소스 로봇 작업 데이터셋, 그리고 8가지 다른 로봇에서 수집한 정밀 작업 데이터셋을 활용했습니다. 이를 통해 제로 샘플 프롬프트 또는 미세 조정으로 다양한 작업을 수행할 수 있게 되었습니다.
이 데이터셋에는 다양한 작업이 포함되어 있으며, 각 작업은 풍부한 동작 기본 단위, 다양한 물체, 다양한 시나리오를 보여줍니다. 이러한 작업은 로봇 민첩성 조작의 다양한 차원을 포괄하며, Physical Intelligence가 선택한 목표는 특정 응용 분야를 해결하는 것이 아니라 물리적 상호작용에 대한 일반적인 이해를 모델에 제공하여 물리적 지능의 기초를 마련하는 것입니다.
둘째, 웹 규모의 의미 이해입니다. 이 훈련의 출발점은 비전-언어 모델(VLM)입니다. VLM은 웹에서 효과적으로 의미 지식을 전이할 수 있지만, 이들은 이산적인 언어 토큰만 출력할 수 있습니다. 반면 정밀한 로봇 조작에는 π0가 초당 최대 50회의 고속 모터 명령을 출력해야 합니다.
이러한 유연성을 달성하기 위해 Physical Intelligence는 유동 매칭(확산 모델의 변형)을 사용하여 VLM 모델을 강화하여 연속적인 동작 지침을 출력할 수 있게 했습니다. 이를 통해 시각-언어-동작 유동 매칭 모델이 형성되었고, 이후 다양한 하위 작업을 해결하기 위해 고품질 로봇 데이터로 사전 학습되었습니다.
마지막으로 정밀 작업을 위한 사후 학습이 이루어졌습니다. 더 복잡한 정밀 작업을 위해서는 모델을 미세 조정해야 하며, 옷 접기와 같은 작업을 통해 고품질 데이터로 모델을 미세 조정할 수 있습니다. 사전 학습을 통해 모델이 물리적 세계에 대한 지식을 습득했고, 미세 조정을 통해 특정 작업에서 뛰어난 성능을 발휘할 수 있게 되었습니다.
물론 π0는 유일한 범용 로봇 기반 모델이 아닙니다. Physical Intelligence는 π0와 다른 범용 로봇 기반 모델들을 Zero-shot 조건에서 실제 작업, 예를 들어 옷 접기, 토스트 빵 꺼내기, 물건 포장 등으로 테스트하여 문제 해결 능력을 평가했습니다. 그 결과 π0와 더 작은 π0-small 모두 기존 OpenVLA 모델보다 훨씬 뛰어난 문제 해결 능력을 보였습니다.
예를 들어 옷 접기, 식탁 청소, 상자 조립 등의 작업에서 π0 지원 로봇은 뒤엉킨 옷을 분리하고 접을 수 있으며, 식기나 컵을 청소 트레이에 넣고 쓰레기를 버릴 수 있으며, 평평한 판지 상자를 잡아 접어 끼워 넣을 수 있습니다. 이러한 동작은 단순한 단계가 아닌 복잡한 가사 또는 생산 활동입니다.
그러나 현재 π0는 여전히 프로토타입 모델이며, 범용 로봇 기반 모델은 초기 단계에 있습니다. Physical Intelligence는 데이터 수집과 모델 학습을 계속하여 새로운 유연성과 물리적 능력을 실현할 것이라고 밝혔습니다.
상업화 측면에서 Physical Intelligence는 현재 뚜렷한 움직임이 없습니다.
중국의 로봇 산업, 핵심 기술이 더 필요한 실용화
왜 최고 투자 기관과 제프 베이조스와 같은 기술 거물들이 로봇에 베팅하는 것일까? 그 이유는 앞서 언급한 바와 같이 로봇이 AI와 결합하여 물리적 세계를 탐험하고 많은 실제 고품질 데이터를 생성할 수 있어 결국 AGI 실현에 도움이 될 수 있기 때문입니다.
실제로 사람들은 투자뿐만 아니라 직접 행동하고 있습니다. 테슬라의 옵티머스 외에도 엔비디아는 NVIDIA Project GR00T라는 범용 로봇 모델 도구 시리즈를, 아마존은 창고 로봇 시스템 스파로우와 양족 로봇 디지트를 보유하고 있습니다.
스타트업 측면에서 Figure AI는 Figure 01과 Figure 02 휴머노이드 로봇을 주로 개발하고 있으며, 이들의 두뇌는 OpenAI의 맞춤형 모델로 구성되어 커피 준비와 같은 생활 기술뿐만 아니라 공장 내 "나사 조이기"도 가능합니다.
Skild AI는 Skild Brain과 모바일 작업 플랫폼을 주로 개발하고 있으며, Skild Brain은 π0와 유사한 범용 로봇 두뇌입니다.
1X는 가정용 양족 휴머노이드 로봇 NEO Beta를, Vayu Robotics는 배송 로봇 Vayu One과 이동 기반 모델 Vayu Drive를 개발하고 있습니다.
현재 중국은 핵심 알고리즘과 고급 동작 제어 시스템 분야에서 미국과 격차가 있지만, 로봇의 "두뇌", "소뇌", "눈", "사지" 등 다양한 전문 로봇과 휴머노이드/개형 범용 로봇 분야에서 대기업과 유망 스타트업들이 혁신과 개척에 힘쓰고 있습니다. 이들 기업에는 알리바바, 샤오미, 샤오펑, 다지, 유수 등이 포함됩니다.
중국은 거대한 시장과 다양한 응용 시나리오를 가지고 있지만, 로봇 밀도가 아직 높지 않아 큰 잠재적 시장 수요가 존재합니다. 로봇 스타트업 입장에서 국내 시장에 집중해도 충분한 발전 공간이 있으며, 국내 시장을 선점한 후에는 국제 시장으로 진출할 수 있습니다.
창업 방향에 있어서 "두뇌", "소뇌" 등 기반 및 핵심 기술 분야의 혁신이 필요하지만, 다양한 응용 시나리오에서 혁신가들이 등장하는 것이 더욱 중요합니다. 응용과 기초 기술이 상호 촉진되어야 건강한 로봇 혁신 창업 생태계가 조성될 수 있습니다. 엔젤 투자 기관인 Alpha Community는 스마트 로봇 분야의 뛰어난 창업가를 발견하고 세계적인 로봇 기업 성장을 지원하고자 합니다.
이 기사는 WeChat 공众号 "Alpha Community"(ID: alphastartups)에서 발췌되었으며, 저자는 "발견 뛰어난 창업가"입니다. 36Kr의 허가를 받아 게재되었습니다.