인간형 로봇이 ChatGPT 순간을 기다리고 있습니다

이 기사는 기계로 번역되었습니다
원문 표시

AI 열풍은 계속해서 급증하고 있습니다.

로봇 분야가 대표적인 예입니다. 중국기계공업연합회 등이 주최하는 2025 중국 로봇산업발전대회에서 최근 기자회견이 열렸습니다. 이 대회에서 발표된 자료에 따르면 국내 로봇 산업은 급속한 성장을 거듭하고 있으며, 매출 규모는 2020년 1,061억 위안에서 2024년 2,378억 9천만 위안으로 증가했습니다. 2025년 1~3분기 국내 로봇 산업 매출은 전년 대비 29.5% 증가하여 산업용 로봇 생산량은 59만 5천 대, 서비스 로봇 생산량은 1,350만 대에 달했습니다. 산업용 로봇과 서비스 로봇 생산량 모두 이미 2024년 생산량을 초과했습니다.

AI의 핵심 매개체이자 핵심 응용 분야인 로봇은 산업 변혁에 새로운 동력을 불어넣고 있습니다. 이러한 추세는 일반적으로 "체화된 지능(embodied intelligence)"으로 설명되는데, 이는 지각, 의사 결정, 상호작용을 통해 현실 세계에서 작업을 수행하고 환경과의 상호작용을 통해 지속적으로 진화할 수 있는 물리적 신체를 가진 지능형 에이전트를 의미합니다. 체화된 지능은 이미 알고리즘 모델에서 현실 세계로 기술을 확장하여 AI 응용 분야의 경계를 넓히고 일반 AI 구현을 위한 더 많은 가능성을 모색하고 있습니다.

정의상, 체화된 지능은 휴머노이드 로봇이나 기타 형태의 로봇뿐만 아니라 AI 모델을 탑재한 드론과 스마트카도 포함합니다. 체화된 지능 내에서 휴머노이드 로봇 분야는 특히 주목할 만합니다. Figure AI와 Tesla 같은 해외 대기업부터 Unitree Robotics와 Logic Robotics 같은 국내 기업에 이르기까지, 글로벌 혁신은 산업을 빠른 속도로 발전시키고 있으며 끊임없이 혁신의 경계를 넓히고 있습니다.

2025년 10월 29일, 노르웨이 기술 회사 1X는 가정용 휴머노이드 로봇 NEO를 출시했습니다. 약 2만 달러(약 14만 2천 위안) 또는 월 구독료 499달러(약 3,500위안)에 사전 예약을 시작했으며, 2026년 출시 예정입니다. 한편, 유니트리 로보틱스는 자사 휴머노이드 로봇을 "더블 일레븐" 쇼핑 페스티벌에 출품하여 JD.com에서 2만 9천 위안에 판매했습니다.

2022년 11월 ChatGPT가 전 세계 AI 열풍을 일으킨 이후, AI는 빠르게 대중의 관심을 끌며, 도달하기 어려운 첨단 기술에서 누구나 사용할 수 있는 도구로 탈바꿈했습니다. CNNIC(중국 인터넷 네트워크 정보 센터)가 발표한 "생성 인공지능 응용 발전 보고서(2025)"에 따르면, 2025년 6월 기준 중국의 생성 AI 사용자 수는 5억 1,500만 명에 달했으며, 보급률은 36.5%에 달했습니다.

생성적 인공지능(Generative AI 또는 AIGC라고도 함)의 발전은 관련 분야, 특히 체화 지능 산업의 성장을 촉진하여 "아이, 로봇(I, Robot)"이나 "월-E(WALL-E)"와 같은 SF 영화에서 묘사된 인간과 로봇의 공존 장면을 현실에 더욱 가깝게 만들었습니다. 그 결과, 거대 기술 기업들은 막대한 투자를 하고 있으며, 스타트업들은 시장 진출을 위해 경쟁하고 있습니다. 기술의 미래를 둘러싼 이러한 경쟁에서 기업들은 강력한 경쟁 우위를 구축하기 위해 노력하고 있으며, 휴머노이드 로봇을 통해 "챗GPT 모멘트(ChatGPT moment)"를 최초로 만들어내기 위해 노력하고 있습니다.

01

동작 문제 해결

인간형 로봇의 진화는 전례 없는 속도로 진행되고 있습니다.

로봇 퍼포먼스는 매우 눈길을 끌었습니다. 2025년 1월 CCTV 춘절 갈라에서 유니트리 로보틱스의 H1 로봇은 "양봇(Yang Bot)"을 선보였습니다. 리듬에 맞춰 몸을 비틀고 손수건을 돌리는, 비교적 단순한 동작이었습니다. 2025년 10월, 무용극 "천궁개우(Tiangong Kaiwu)"의 커튼콜에서 유니트리 로보틱스의 로봇들은 무용수들의 자세를 정확하게 재현하여, 유연하게 옆으로 공중제비하고 뒤로 공중제비를 돌며 "인간-로봇 댄스"를 완성했습니다.

유니트리 로보틱스 로봇들의 퍼포먼스 영상은 더우인(Douyin)과 콰이쇼우(Kuaishou) 등 플랫폼에서 빠르게 퍼져나가며 130만 건이 넘는 좋아요를 받았습니다. 한 사용자는 올해 초 다소 어색해 보이던 로봇의 움직임이 불과 몇 달 만에 "무술 교본을 배운 것 같다"는 반응을 보였습니다.

로봇공학의 획기적인 발전은 수십 년간의 끊임없는 기술 개발의 결과입니다.

AI의 창시자 중 한 명인 앨런 튜링은 1950년 논문에서 지능은 물리적 개체와 외부 세계 사이의 역동적인 상호작용에 의존하여 형성되어야 한다고 주장했습니다. 그러나 기술의 한계로 인해 반세기가 넘는 기간 동안 로봇은 진정한 체현 지능을 달성하는 데는 거의 실패했습니다.

2011년 후쿠시마 원전 사고 당시, 구조 현장에서는 실질적인 운용 능력을 갖춘 완성도 높은 로봇을 찾을 수 없었습니다. 제한된 장비들은 복잡한 방사선 환경에 갇히거나 심지어 흩어진 케이블에 걸려 중요한 작업 수행에 어려움을 겪었습니다. 이후, 미국 국방고등연구계획국(DARPA)은 재난 구조 로봇 기술 개발을 촉진하기 위한 로봇 경진대회를 발표했습니다.

첫 번째 DARPA 로보틱스 챌린지는 2012년 10월에 시작되었으며, 2015년 6월까지 우승자가 결정되지 않았습니다. 최종 라운드에서는 로봇이 임무 구역 도착, 자율 하차, 문 열기 및 닫기, 도구를 사용하여 개구부 만들기 등의 작업을 수행해야 했습니다. 참가 로봇 대부분은 서툴렀고, 자주 넘어졌으며, 많은 로봇이 모든 작업을 완료하지 못했습니다. 우승은 한국 KAIST에서 개발한 휴보(HuBo)로, 두 발로 움직이는 것이 아니라 전방향 바퀴를 사용하여 속도와 균형을 유지하는 로봇입니다. 준우승은 보스턴 다이내믹스에서 개발한 아틀라스(Atlas)로, 두 발로 움직이는 것이 아니라 전방향 바퀴를 사용하여 속도와 균형을 유지합니다.

당시 결승전 영상은 대중들 사이에서 뜨거운 논쟁을 불러일으켰습니다. 로봇이 느리고 실수도 많았는데, 이는 대중이 기대했던 민감하고 지적인 조수의 이미지와 전혀 달랐기 때문입니다.

1992년 설립된 보스턴 다이내믹스는 한때 휴머노이드 로봇 산업의 선구자이자 세계 시장을 선도하는 기업이었습니다. 2017년 초, 보스턴 다이내믹스의 아틀라스(Atlas)는 백플립(Backflip)을 시연했습니다. 그러나 아틀라스는 초기 유압 구동 시스템을 사용했는데, 높은 강도와 ​​정밀성을 제공했지만 에너지 소비량, 소음, 그리고 높은 비용으로 인해 상용화에 어려움을 겪었습니다. 보스턴 다이내믹스는 2013년 구글에 인수되었고, 2017년 소프트뱅크로 이적한 후 2021년 현대자동차에 인수되었습니다. 소프트뱅크에 인수된 당시, 보스턴 다이내믹스는 로봇견 스팟(Spot)을 약 7만 5천 달러(약 53만 위안)에 출시했지만, 약 400대만 판매되었습니다.

공중제비는 로봇 하드웨어 설계, 동적 제어, 실시간 의사 결정을 포함한 여러 핵심 분야의 발전을 체계적으로 통합하고 촉진하기 때문에 로봇 기술 개발의 중요한 이정표로 여겨진다.

하이케 파이낸스에 따르면, 공중제비를 완료하려면 로봇의 구동 시스템이 충분한 동력 밀도를 즉시 방출해야 하며, 고부하 지속 시간은 매우 짧아야 합니다. 시스템은 전후, 좌우, 상하 이동, 그리고 3축 회전을 포함한 6자유도 운동 방정식을 실시간으로 풀어야 합니다. 각도 편차가 0.5도 이상이면 로봇이 착지 시 균형을 잃을 수 있습니다. 로봇의 발목, 무릎, 고관절은 충격 흡수 및 완충 기능이 필요하며, 발 힘 센서는 지면 반력을 감지하고 0.01초 이내에 반응해야 합니다.

유니트리 로보틱스(Unitree Robotics)와 같은 신규 업체들은 유압 구동 솔루션을 포기하고 순수 전기 구동 기술을 채택했습니다. 이는 전기 구동이 유압 구동보다 출력이 낮다는 기존 문제를 해결하고, 자체 개발한 고토크 모터와 경량 구조 설계를 통해 성능과 비용의 균형을 달성합니다. 예를 들어, 유니트리 G1은 23-43개의 관절 모터를 사용하여 최대 120N·m의 관절 토크를 달성합니다. 이는 매우 높은 측면 관성 제어가 필요한 측면 공중제비와 같은 기동에서도 전반적인 안정성을 유지할 수 있도록 합니다.

보스턴 다이내믹스는 2024년 4월 아틀라스의 전기 버전을 출시하며 전기 구동 기술의 폭넓은 수용을 알렸습니다. 2025년 2월, 중국 기업 ZQGame은 세계 최초의 로봇 프론트 플립을 성공적으로 완료하며 중요한 기술적 돌파구를 마련했습니다. 이전 단계의 일반적인 백플립과 비교했을 때, 프론트 플립은 로봇의 동적 균형, 즉각적인 폭발력, 그리고 정밀한 착지 제어에 더 큰 부담을 줍니다.

02

지능은 어디에서 오는가?

공중제비와 같은 고난이도 동작에서 획기적인 진전을 이루는 것은 단순한 기술 시연을 훨씬 뛰어넘어 매우 중요합니다.

이러한 동작을 통해 전체 제어 시스템과 핵심 구성 요소의 성숙도를 체계적으로 검증하여 복잡한 실제 환경에서 로봇을 적용할 수 있는 기반을 마련할 수 있습니다. 2025년 9월 공개 시연에서 유니트리 로봇 G1은 지속적인 밀기와 발차 대면 빠르게 반응하여 서 있는 자세로 복귀하는 등 뛰어난 운동 지능을 보여주었습니다.

이는 로봇이 실험실에서 복잡한 현실 세계로 이동하는 과정이 또 한 번 가속화되었음을 의미합니다.

2022년 AIGC의 획기적인 발전과 Tesla의 Optimus 로봇 프로토타입 공개 이후 글로벌 휴머노이드 로봇 산업은 급속한 발전기에 접어들었습니다. 2025년 11월 Guotai Haitong Securities가 여러 데이터 소스를 인용하여 발표한 연구 보고서에 따르면 2024년 중국에 등록된 휴머노이드 로봇 회사는 104개로 전년 대비 104% 성장했습니다. 휴머노이드 로봇은 또한 투자 및 융자 의 이슈 입니다. 2025년 1월부터 7월까지 국내 휴머노이드 로봇 산업은 101건의 융자 융자 통해 260억 위안 이상을 조달하여 2024년 전체 융자 금액을 넘어섰습니다. 2024년 이전에는 휴머노이드 로봇 산업이 실험 테스트 단계에 있었으며 제품은 프로토타입이었고 대부분 10대 미만으로 제한되었습니다. 2024년부터 2025년까지 업계는 시범 생산 단계에 돌입했으며, 일부 선도 기업들은 수십 대에서 수백 대의 시범 납품을 시작했습니다. 2025년 이후에는 양산 단계에 진입할 예정입니다.

로봇 산업의 참여자들은 업무 에 따라 크게 하드웨어 중심과 소프트웨어 중심, 두 가지 개발 경로로 구분할 수 있다는 점에 유의해야 합니다. 하드웨어 중심 기업들은 로봇 자체를 핵심 진입점으로 삼고, 관절 모듈, 모터, 감속기, 제어기와 같은 핵심 구성 요소의 독자적인 연구 개발에 집중하며, 특히 동작 제어 알고리즘의 획기적인 발전에 중점을 둡니다. 이는 인간의 소뇌와 유사하며, 이들의 제품은 일반적으로 하중 용량, 속도, 동작 성능으로 측정됩니다. 보스턴 다이내믹스와 유니트리 로보틱스가 대표적인 기업입니다.

소프트웨어 회사들은 최첨단 시각 언어 모델, 세계 모델, 그리고 시뮬레이션된 합성 데이터를 활용하는 체화 지능 기술에 집중하는 경향이 있으며, 이러한 기술들이 연구 개발의 출발점입니다. 이들은 일반적으로 외부 공급업체로부터 부품을 조달하여 로봇을 통합하는데, 갤럭시 제너럴(Galaxy General)과 같은 로봇의 인지 및 의사 결정 지능을 강조합니다. 한편, 테슬라와 같은 자동차 제조업체는 대규모 제조 역량을 바탕으로 자율주행 분야에서 축적된 소프트웨어와 하드웨어 제조 경험을 활용하여 로봇 분야에서 풀스택 역량을 발휘하고 하드웨어와 소프트웨어를 통합할 수 있습니다.

인공지능 기술 개발 초기 단계에서 로봇은 엔지니어가 작성한 정밀한 궤적 코드에만 의존하여 작업을 수행하므로 기존 생산 장비와 본질적으로 다르지 않습니다. 2017년 보스턴 다이내믹스의 아틀라스가 시연했던 백플립은 사전 프로그래밍된 시퀀스를 정확하게 실행하는 것이었습니다.

이후 로봇 학습은 데이터 기반 단계로 접어들어 관찰, 모방, 그리고 반복적인 시행착오를 통해 자율적으로 기술을 학습했습니다. 더 나아가, 지능형 시스템과 자율 학습이 긴밀하게 통합되어 로봇은 추상적인 명령을 이해하고, 낯선 환경에서 능동적으로 해결책을 시도하며, 복잡한 현실에 대처할 수 있는 자율적인 지능형 에이전트로 점진적으로 진화할 수 있게 되었습니다. 그 결과, 글로벌 기업들은 알고리즘 분야에서 각자의 강점을 보여주었습니다.

2025년 2월 OpenAI와의 협력 종료를 발표한 후, 세계적인 선도 기업 Figure AI는 자체 엔드투엔드 AI 모델 개발에 집중하고 있습니다. 자사의 대규모 AI 모델인 Helix는 상당한 기술적 혁신을 달성했다고 합니다. Helix는 VLA(Visual-Language-Motion) 모델에 듀얼 시스템 방식을 도입한 최초의 기업입니다. 시스템 1은 실시간 액션 제어에 중점을 두고 매우 빠른 응답 속도로 시각 정보를 처리합니다. 시스템 2는 강력한 장면 이해 및 언어 분석 기능을 갖추고 있어 복잡한 명령어 해석, 환경 요소 식별, 그리고 액션 플랜 수립을 담당합니다. 듀얼 시스템 아키텍처는 모듈 식 반복 기능 측면에서도 상당한 이점을 제공합니다. 두 시스템 모두 전체 모델을 완전히 개편하지 않고도 독립적으로 최적화할 수 있습니다.

2025년 9월, 중국 기업 로직 로보틱스(Logic Robotics)는 자사의 범용 체현 기반 모델 GO-1의 완전한 오픈소스화를 발표했습니다. 이 모델은 혁신적인 ViLLA 아키텍처를 채택하여 세계 최초의 오픈소스 범용 체현 지능형 모델이 되었습니다. ViLLA 아키텍처의 전체 명칭은 Vision-Language-Latent-Action으로, 암묵적 동작 태그 도입하여 이미지 및 텍스트 입력과 로봇의 최종 동작 실행 사이의 의미적 차이를 효과적으로 메워 로봇이 인간의 지시를 더욱 정확하게 이해하고 미세한 동작으로 변환할 수 있도록 합니다.

또한 미국의 Physical Intelligence와 Skild AI와 같은 신흥 기업들은 최첨단 세계 모델링 분야를 탐구하고 있으며, 로봇이 내부 물리적 세계 모델을 구축하여 자신의 행동 결과를 예측할 수 있도록 하는 것을 목표로 하고 있습니다.

03

아직 많은 과제가 남아 있습니다.

로봇 산업은 체계적인 기술 개발 프레임 구축하기 시작했습니다.

Zhiyuan Robotics는 L1~L5 자율주행 분류 시스템과 유사하게 G1~G5 구현형 지능 기술 로드맵을 제안했습니다. Haike Finance에 따르면, G1은 특정 시나리오에 맞춰 설계되었으며 시나리오 간 전환 기능이 부족합니다. G2는 다중 시나리오 작업을 이해하고 대규모 언어 모델을 결합하여 제한적인 일반화를 달성할 수 있습니다. G3는 엔드투엔드 데이터 기반 운영으로 전환하여 아키텍처 수준에서 패러다임을 전환합니다. G4는 일반화된 운영 모델과 시뮬레이션 데이터를 도입하여 복잡한 작업에서 성능을 크게 향상시킵니다. G5는 장기적인 목표로 인식부터 실행까지 완전한 엔드투엔드 자율 운영을 달성할 것입니다.

로봇 기술이 더 높은 수준으로 발전함에 따라 일반화는 중요한 과제가 되었습니다.

일반화란 로봇이 새로운 시나리오마다 재훈련이나 조정 없이 다양한 시나리오에서 여러 작업을 유연하게 수행할 수 있는 능력을 의미합니다. 현재 로봇이 특정 환경에서 숙달한 기술을 새로운 시나리오, 작업 또는 사물에 효과적으로 적용하기는 어렵습니다. 로봇은 실험실 환경에서는 잡는 동작을 정확하게 수행할 수 있지만, 컵의 모양이 바뀌거나 조명 조건이 바뀌면 성능이 크게 저하되거나 완전히 작동하지 않을 수 있습니다.

이 과제의 근본 원인은 현실 세계의 무한한 복잡성에 있습니다. 실제 환경은 개방적이고 동적으로 변화하며, 물체의 모양, 재질, 배치 각도, 그리고 조명 및 배경 간섭과 같은 요소들의 조합은 사실상 무한합니다. 인간은 모든 가능성을 미리 프로그래밍할 수 없으며, 모든 예외 상황을 포괄하는 훈련 데이터를 수집할 수도 없습니다. 반사율이 높은 탁상, 갑자기 나타난 애완동물, 또는 특이한 모양의 일상 사물 대면 로봇의 작동 정확도는 크게 떨어질 것입니다. 이는 진정한 자율 지능은 아직 갈 길이 멀다는 것을 의미합니다.

많은 네티즌들의 조롱을 받았던 베이징 이좡 로봇 마라톤이 대표적인 사례입니다. 2025년 4월, 이 휴머노이드 로봇 마라톤에는 300개가 넘는 유명 로봇 및 지능형 제조 기업이 참여했습니다. 참가 로봇들은 배터리 교체 및 균형 감각 상실과 같은 예상치 못한 상황 대처를 담당하는 엔지니어링 팀과 함께 행사 내내 동행해야 했습니다. 대회 영상에는 일부 로봇이 평지에서 넘어지고, 일부는 비틀거리며 직선으로 걷지 못하며, 심지어는 머리를 잃는 모습까지 담겼습니다.

1X의 네오 로봇 영상은 소위 가정용 로봇의 현주소를 보여줍니다. 네오는 3미터 떨어진 냉장고에서 물을 가져오는 것과 같은 기본적인 작업을 완료하는 데 1분 이상 걸렸는데, 이는 사람이 몇 초면 할 수 있는 작업입니다. 사용자는 "제 방을 정리해주세요"와 같은 자연스러운 명령으로는 이 복잡한 작업을 이해하고 실행할 수 없습니다. 1X가 원격 조작자의 존재를 솔직하게 보여준 것은 현재 로봇이 개방된 환경에서 자율적으로 대처하는 데 있어 핵심적인 기술적 병목 현상을 아직 극복하지 못했음을 보여줍니다.

로봇 훈련 데이터의 수집 및 활용 역시 시급히 해결해야 할 핵심 문제입니다.

가상 시뮬레이션 환경을 사용하여 학습 데이터를 생성하는 경우, 로봇은 시뮬레이션-실제 간 격차(Sim-to-Real Gap) 문제에 대면 하게 됩니다. 가상 세계의 물리적 매개변수, 센서 노이즈, 그리고 환경 상호작용은 실제 장면의 복잡성을 완벽하게 재현할 수 없기 때문에, 시뮬레이션에서 우수한 성능을 보이는 알고리즘을 실제 로봇에 적용하면 상당한 성능 저하를 경험하게 됩니다.

실제 환경에서의 데이터 수집에만 전적으로 의존하는 것은 높은 시간적 비용과 하드웨어 마모로 인해 상당한 어려움을 야기하며, 이는 대규모 구축을 어렵게 만듭니다. 예를 들어, 테슬라는 도장 훈련 센터를 통합하여 옵티머스 휴머노이드 로봇 팀이 기존의 모션 캡처 기술을 버리고 순수한 비디오 학습 방식을 채택할 수 있도록 했습니다. 이 방식을 통해 로봇은 인간의 작업 수행 영상을 관찰하고, 행동 패턴을 자율적으로 추출하여 운영 전략을 수립할 수 있습니다.

로봇 기술이 여전히 수많은 과제에 직면해 있음에도 불구하고, 과학기술의 최전선에서 핵심 방향으로 자리 잡은 체현 지능(embodied intelligence)은 거침없는 발전을 경험하고 있습니다. 이 새로운 분야에서 국내 기업들은 적극적으로 자원을 투입하여 상당한 진전을 이루며 빠른 발전 속도를 보여주고 있습니다.

정책 차원에서도 명확한 지지 신호가 나왔습니다. 2025년 3월 국무원 정부업무보고서는 신흥 미래 산업 육성 및 확장을 우선시할 것이라고 명시했습니다. 이 보고서는 최초로 미래 산업 발전 범위에 바이오 제조, 양자 기술, 6G와 함께 체현 지능을 포함시켜 체현 지능 개발을 국가 전략 수준으로 격상 상승 습니다. 베이징, 항저우 등 여러 도시 또한 체현 지능과 로봇 산업에 초점을 맞춘 정책 문서를 발표하여 기술 혁신과 산업 집적을 가속화하는 것을 목표로 하고 있습니다.

현재 로봇 공학의 발전 과정은 스마트폰 산업의 발전 과정과 놀라울 정도로 유사합니다. 초기 단계에는 각 제조업체가 독립적으로 운영되었고, 기술은 각기 다른 경로를 탐색하며 점차 핵심적인 혁신을 향해 나아갔습니다. "아이폰 모멘텀"이 모바일 단말기의 형태와 생태계를 재정의했듯이, 로봇 공학 분야 또한 미래에 전환점에 도달할 것입니다. 사용자 기대치를 뛰어넘는 경험을 제공하는 기술이나 제품이 등장하면, 산업 표준의 통합과 생태계 형성을 빠르게 촉진할 것입니다.

이러한 획기적인 발전은 단순히 기술적 매개변수의 개선을 넘어 사용자 경험의 근본적인 변화를 가져올 것입니다. AI 분야에서는 ChatGPT의 등장과 유사하며, AI를 실험실 개념에서 일상생활로 전환시키는 역할을 할 것입니다. 대량 생산은 긴 여정의 첫걸음일 뿐입니다. 기술의 급속한 발전은 이미 뚜렷하게 나타나고 있으며, 공상과학 소설 속 지능형 로봇이 일반 가정에 도입되는 날도 멀지 않을 것입니다.

본 기사는 위챗 공식 계정 "하이커 금융" 에서 발췌하였으며, 저자는 쉬쥔하오이고, 36Kr의 허가를 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트