텍스트 | 푸총
편집자: Su Jianxun
인공지능이 'ChatGPT의 순간'을 맞이할 준비를 하고 있지만, 그 순간의 구체적인 정의에 대해서는 업계 내에서 여전히 의견 차이가 크다.
최근 열린 군사정보기술 공개의 날 원탁 토론회에서 AI 산업, 학계 및 연구 분야의 주요 인사 5명이 이 문제에 대한 견해를 공유했습니다. 그들은 다음과 같습니다.
왕위, 칭화대학교 전자공학과 종신교수
왕중위안, 베이징 인공지능학원 원장
Jieyue Xingchen의 창립자이자 CEO인 Jiang Daxin
Gao Jiyang, Xinghai Chart 창립자 겸 CEO
Yuanli Lingji의 공동 창립자이자 CEO인 Tang Wenbin
제위에싱천(Jieyue Xingchen)의 설립자이자 CEO인 장다신(Jiang Daxin)은 "ChatGPT 모멘트"의 정의 기준으로 "제로 샘플 일반화"를 처음 제시했습니다. 이는 이전에 본 적 없는 지시 사항이 주어지더라도 AI가 질문에 답하고 작업을 완료할 수 있는 능력으로, 대규모 언어 모델의 특징과 정확히 일치합니다.
그러나 장다신은 체화된 지능의 일반화에는 시나리오, 작업, 조작 대상 등 더 많은 차원이 포함되기 때문에 로봇이 이러한 기준에 도달하기는 여전히 매우 어렵다고 즉시 지적했습니다.
로봇 스타트업의 CEO인 가오 지양은 체화된 지능의 상용화에 따르는 어려움을 다음과 같이 설명했습니다. 대규모 언어 모델은 휴대폰과 컴퓨터를 단말기로, 인터넷을 채널로 활용하여 "모델 자체를 제품으로" 만들 수 있지만, 체화된 지능은 완전한 기계, 공급망, 실제 기계 데이터, 오프라인 배송 등 어느 하나라도 빠져서는 안 되는 더 긴 산업 사슬을 거쳐야 합니다.
위에서 언급한 해결해야 할 문제들을 바탕으로, 위안리 링지의 공동 창업자이자 CEO인 탕원빈은 보다 현실적인 "체화된 지능의 ChatGPT 순간"을 제안했습니다. 즉, 제한된 시나리오 내에서 폐쇄 루프 방식으로 모든 문제를 해결하고 투자 수익률(ROI)을 계산하는 것입니다.
그의 논리는 간단합니다. ChatGPT는 언어 모델이 도구로서 유용하다는 것을 끊임없이 보여주고 있으며, 이러한 변화가 일어나려면 구현된 지능 또한 장난감이나 연구 프로젝트에서 벗어나 유용한 것으로 변모해야 한다는 것입니다.
따라서 이번 원탁회의에서는 "실체화된 지능의 현재 발전 방향"에 대해 다음과 같은 예비 합의에 도달했습니다. 보다 강력한 일반화를 추구하기 전에, 먼저 수직적 시나리오를 테스트하여 로봇이 실제 작업에서 실제 데이터를 생성하도록 하고, 그 데이터를 모델 및 시스템 반복에 피드백해야 합니다.
이러한 사고방식은 이번 원탁 토론 포럼의 주최사인 포스 인텔리전스가 선택한 방향을 설명해 줍니다. 데이터가 확산되기 전에 실제 기기의 효과를 평가할 수 있는 통일된 표준이 필요하다는 것입니다. 따라서 포스 인텔리전스는 자체 모델과 실제 기기를 출시하기 전에 허깅페이스와 협력하여 실제 기기 평가 벤치마크인 "로보챌린지"를 먼저 시작했습니다.
2025년 3월에 설립된 위안리링지(Yuanli Lingji)는 메그비 테크놀로지(Megvii Technology)의 공동 창업자였던 탕원빈(Tang Wenbin)이 설립했습니다. 회사의 핵심 팀에는 메그비의 전 핵심 멤버들도 다수 포함되어 있습니다. 위안리링지는 설립 1년도 채 되지 않아 알리바바, 니오 캐피털(NIO Capital), 레노버 캐피털(Lenovo Capital) 등을 주주로 하여 약 10억 위안의 융자 유치했습니다.
지난 2월 10일, 자본 시장의 주목을 받고 있는 이 스타트업은 첫 번째 모델인 DM0을 제출했고, 이 모델은 24억 개의 파라미터로 로보챌린지(RoboChallenge) 리더보드에서 1위를 차지했습니다. 당연히 "벤치마크를 만든 사람이 경쟁자이기도 한가?"라는 질문이 제기되었습니다. 탕원빈 대표는 라운드테이블 포럼에서 이러한 질문에 답하며, 모델 개발 전에 벤치마크를 공개한 이유, 실제 기기 테스트의 중요성, 그리고 업계의 우려 사항들을 자세히 설명했습니다.
다음은 저자가 정리한 이 원탁 토론의 내용입니다.
△라운드테이블 포럼 참석자들, 사진 제공: 포스 인텔리전스
진행자: 세계적인 관점에서 볼 때, 우리의 체화된 지능 모델에 대한 주류 기술적 접근 방식은 무엇이며, 현재 우리는 어느 단계에 있다고 생각하십니까?
왕중위안: 인공지능에 대한 과대광고 이면에는 많은 숨겨진 우려가 보입니다. 하드웨어 자체는 빠르게 발전하고 있지만, 지속적이고 안정적인 작동, 보안, 배터리 수명 등 해결해야 할 과제가 여전히 많습니다.
모델과 관련하여, 지난 한 해 동안 여러 구현 모델을 출시했지만, 구현형 ChatGPT를 실현하기에는 아직 멀었다고 생각합니다 . 특히 구현형 지능형 모델과 하드웨어를 실제 기기에 배포한 후, 우리가 진정으로 바라는 대규모 응용 분야와는 여전히 상당한 격차가 있음을 발견했습니다.
현재, 체화된 모델에 대한 기술적 접근 방식은 여전히 개발 단계에 있습니다. 일반적으로 논의되는 접근 방식으로는 제어 기능을 갖춘 VLM과 같은 모듈형 모듈, 엔드투엔드 VLA, 그리고 현재 널리 사용되는 월드 모델 등이 있습니다. 그러나 저는 이러한 접근 방식들이 체화된 지능이 완전한 돌파구를 마련했다고 자신 있게 말할 수 있는 단계에는 아직 멀었다고 생각합니다.
따라서 앞으로 VLA와 강화 학습을 활용하여 각 시나리오를 하나씩 해결해 나가는 모습을 보게 될 가능성이 매우 높습니다. 먼저 실제 기기에서 데이터를 축적하여 데이터 루프를 구축하는 실질적인 작업을 진행하고, 마지막으로 일반화 문제를 해결할 것입니다.
왕위: 저는 해시레이트, 프레임, 엣지 컴퓨팅, 인프라를 포함한 하드웨어 분야를 주로 연구합니다. 제 생각에는 현재 로봇 응용 분야는 상당한 발전을 이루었지만 여전히 단일 작업 환경에 국한되어 있습니다. 기본적으로 여러 감각 양식을 아우르는 다소 긴 작업을 완료하기 위해 대뇌와 뇌척수 기능을 조화롭게 조율하는 것은 매우 어렵습니다.
우리 그룹은 로봇이 실제로 어느 정도의 작업을 해야 하는지에 대해 논의합니다. 예를 들어, 집 청소는 단순히 옷을 개는 것만이 아닙니다. 로봇이 집의 전반적인 상태를 관찰하고, 어떻게 청소해야 할지 파악한 다음, 단계별로 작업을 시작하는 것입니다. 최종 목표는 집 전체를 완벽하게 청소하는 것인데, 이는 매우 어려운 과제입니다.
물론 모델은 획기적이어야 하지만, 그런 복잡한 작업을 처리하려면 건물 자체도 바뀌어야 할지 궁금합니다. 저는 하드웨어 분야 출신이라, 원래 인간의 삶을 위해 설계된 건축물을 로봇이 존재하는 미래에 맞게 재설계해야 할지 고민할 때가 있습니다. 차량 대 사물(V2X) 시스템처럼 로봇을 지원하는 인프라도 구축할 수 있을 것입니다.
진행자: 왕 교수님은 차세대 주택 기준에 로봇 기술을 어떻게 접목할 수 있을지에 대해 이야기하고 계십니다. 인프라에 대한 이야기가 나왔으니 말인데, 왕 교수님, 인공지능 분야에서 중국과 실리콘 밸리의 현재 강점과 약점에 대한 견해를 말씀해 주시겠습니까?
왕위: 미국은 모델과 데이터 측면에서 앞서 나갔고, 응용 분야에서 투자와 돌파구를 마련했습니다. 하지만 구현 측면에서는 중국이 빠르게 따라잡을 수 있다고 확신합니다. 특히 중국은 실체화 측면에서 미국보다 훨씬 더 많은 투자를 해왔기 때문입니다.
많은 사람들이 실체기술은 거품이라고 말하지만, 개인적으로는 우리가 마침내 나아갈 방향을 찾았다는 점에서 긍정적으로 생각합니다. 중국의 투자 강도는 미국보다 훨씬 높습니다. 이는 중국이 산업 및 공급망 전체를 완벽하게 갖추고 있기 때문입니다. 더 많은 응용 분야를 개척하고 모델 및 응용 분야에 대한 투자를 늘린다면, 실체기술 분야에서 미국보다 더 빠르게 획기적인 발전을 이룰 수 있을 것입니다.
게다가, 제가 여기서 하고 있는 것처럼 중국에서도 학계와 산업계 간의 협력이 점차 활발해지고 있다고 생각합니다. 교수들이 연구실에 앉아 논문만 읽고 연구만 하는 것이 아니라, 산업계가 문제를 발견하면 연구기관과 협력하는 방식입니다. 저는 이러한 협력적 접근 방식이 산업계, 학계, 연구기관이 함께 협력하여 실용 기술을 발전시키는 미국 모델과 점차 유사해지고 있다고 생각합니다.
진행자: 흥미로운 현상이 관찰되었습니다. 미국의 춘절 특집 방송으로 불리는 슈퍼볼에서는 경영학 석사(LLM) 과정 홍보가 활발하게 이루어지는데, 중국의 춘절 특집 방송에서는 무대 위의 거의 모든 사람이 로봇인 것 같습니다. 중위안 학장님, 이 주제에 대해 어떻게 생각하시는지 말씀해 주시겠습니까?
왕중위안: 제가 들은 짧은 이야기 두 편을 들려드리겠습니다.
첫 번째 이야기는 한 투자자가 제게 들려준 짧은 일화입니다. 인공지능 분야에 투자하는 미국 투자자들은 스타트업 팀에 중국인 구성원이 있는 것을 선호하는 경향이 있습니다. 그들은 중국인 구성원이 있으면 인공지능 스타트업의 성공 가능성이 높아진다고 믿기 때문입니다.
또 다른 일화는 우리가 체화된 지능 모델을 개발하는 과정에서 가장 힘들었던 점 중 하나가 잦은 하드웨어 고장이었다는 것입니다. 하드웨어가 고장 나면 수리하는 데 보통 2주가 걸렸습니다. 그런데 미국에서는 로봇 하드웨어 수리에 3개월이 걸린다는 이야기를 듣고 나니 훨씬 안심이 되었습니다.
따라서 한편으로는 중국이 제조 분야에서 우위를 점하고 있다는 것을 알 수 있으며, 이는 인공지능 분야에서 우리에게 유리한 점입니다. 다른 한편으로는 전체 산업이 아직 초기 단계에 있고 모두가 급속한 발전과 혁신의 시기를 겪고 있으므로 누가 우월하고 누가 열등한지를 판단하기에는 아직 멀었습니다.
진행자: 미국에서 구현된 기업가 정신을 평가하는 데 있어 '중국 콘텐츠'라는 지표에 대해 논의했습니다. AI 산업 전체를 놓고 볼 때, 중요한 이정표 중 하나는 'ChatGPT의 등장'입니다. 그렇다면 '구체화된 지능을 위한 ChatGPT의 등장'이란 무엇을 의미한다고 생각하십니까? 눈부신 성공을 거둔 장다신 님, 'ChatGPT의 등장'에 대해 더 깊이 있는 이해와 통찰력을 갖고 계신가요?
장다신: 먼저 "ChatGPT의 순간"을 정의해 보겠습니다. 가장 상징적인 특징은 "제로샷"이라고 생각합니다. 샘플이 전혀 없어도 일반화할 수 있다는 점이죠. 이전에 본 적 없는 지시라도, 어떤 지시를 받더라도 AI가 답할 수 있습니다. 이는 기존의 자연어 처리 방식과는 완전히 다른 접근 방식이며, 바로 이 점 때문에 "ChatGPT의 순간"이 매우 흥미롭습니다.
하지만 자연어와 체화된 지능을 비교해 보면, "ChatGPT를 통한 체화된 지능의 구현"은 훨씬 더 어려울 것이라고 생각합니다.
먼저, 문제 자체의 정의에 관해 말씀드리자면, 체화된 지능의 일반화는 여러 차원에서 정의될 수 있다고 생각합니다. 일반화의 차원이 다르기 때문에 "ChatGPT에서 다룬 체화된 지능의 순간"에 대한 의견 일치가 부족한 것입니다.
첫 번째 차원은 시나리오의 일반화로, 폐쇄형 시나리오, 반폐쇄형 시나리오 또는 완전 개방형 시나리오인지 여부입니다. 두 번째 차원은 작업으로, 내비게이션 작업, 잡기 작업 또는 가사 작업과 같은 것입니다. 세 번째 차원은 목표물의 일반화로, 단순한 잡기 동작에서도 잡는 물체는 강철과 유연한 재질로 나눌 수 있습니다.
둘째로, 기술적인 관점에서 볼 때, 체화된 지능은 컴퓨터 비전을 포함하지만, 몇 가지 근본적인 문제에 대해서는 아직 합의가 이루어지지 않았습니다. 예를 들어, 비전을 정확히 어떻게 인코딩해야 하는지, 자기 지도 학습 사전 훈련은 어떻게 수행해야 하는지, 그리고 3D 공간에서 추론은 어떻게 이루어져야 하는지 등이 그렇습니다. 저는 ChatGPT의 목표 달성을 위해서는 이러한 문제들에 대한 획기적인 해결이 필요하다고 생각합니다.
진행자: "ChatGPT에서 구현된 지능의 순간"에 대한 정의는 매우 중요합니다. 구현된 지능에 대해 이야기하고 계신 두 분께서는 ChatGPT에서 구현된 지능의 순간을 어떻게 정의하시나요?
가오 지양: 저는 이 문제가 특히 논의할 가치가 있다고 생각합니다. 인공지능 기술과 언어 모델이라는 두 산업 모두 인공지능 기술의 혁신적인 발전에서 비롯되었지만, 구체적인 산업 분야에서 살펴보면 상당히 다르다는 근본적인 문제가 있을 수 있다고 봅니다.
구체화된 지능은 기술 개발부터 제품 기획 및 상용화에 이르기까지 더 긴 사슬을 가지고 있습니다. 여기에는 상류 및 하류 부품 공급망과 데이터가 포함되며, 구체화된 지능에 필요한 데이터는 이전에는 구할 수 없었습니다. 그 다음에는 알고리즘 개발이 이어집니다. 더욱이, 그 채널과 단말기가 대규모 언어 모델과는 다르다는 것이 분명해집니다. 대규모 언어 모델은 휴대폰과 컴퓨터를 통해 배포되며, 그 채널은 소셜 미디어입니다.
따라서 대규모 언어 모델 산업 전체에서 가장 부족하고 유일하게 결여된 연결 고리는 바로 모델 자체라는 것을 알게 될 것입니다 . 즉, 모델이 곧 제품이며, 좋은 모델이 만들어지면 비로소 전체 상용화 및 산업화 사슬이 형태를 갖추기 시작합니다.
앞서 언급한 분야에서, 체화된 지능은 공급망 및 부품 제조 측면에서 어려움에 직면해 있습니다. 완전한 시스템이 갖춰지지 않으면 신뢰할 수 있는 실제 데이터가 부족합니다. 체화된 지능의 최종 단말기는 로봇 자체이므로 오프라인 채널 개발이 필수적입니다.
이전 질문으로 돌아가서, "ChatGPT를 통한 지능 구현의 순간"의 정의에 대해 말씀드리자면, 업무 생산 라인의 관점에서 볼 때 특정 제한된 범위 내에서 상업적 가치가 실제로 드러나는 순간이라고 생각합니다.
2026년은 변화의 해가 될 것이라고 생각합니다. 2년간의 준비 기간을 거쳐 전체 시스템과 공급망에 많은 변화가 있었기 때문입니다. 또한, 방대한 데이터와 모델, 알고리즘, 사후 학습에서의 강화 학습, 사전 학습에서의 VLA, 그리고 최근 도입된 월드 모델 덕분에 사전 학습의 일반화 성능과 사후 학습의 성공률이 크게 향상되었습니다.
따라서 저는 올해가 애플리케이션이 완성의 고리를 다져야 하는 해라고 생각합니다. 작년 상반기(2025년)에 지능형 애플리케이션 개발이 시작되었고, 하반기에는 그 속도가 더욱 빨라졌습니다. 오픈소스 커뮤니티 내 오픈소스 모델의 수가 그 주요 지표라고 할 수 있습니다.
2026년은 스마트 기술의 폭발적인 성장의 해가 될 것입니다. 이러한 성장은 특정 응용 분야에 파급 효과를 가져오는 동시에 공급망과 전체 기기 제조 공정에 영향을 미칠 것입니다. 특히 중국은 앞서 언급했듯이 미국보다 생산 주기가 5~10배 빠르고 비용이 5~10배 낮아 스마트 기술 분야에서 훨씬 강력한 경쟁력을 보이고 있습니다.
탕원빈: 장다신이 말하는 "ChatGPT의 순간"은 매우 높은 기준을 요구한다고 생각합니다. 이미 인공 일반 지능(AGI)의 순간이라고 할 수 있죠. 오늘 우리는 ChatGPT가 우리에게 가져다준 가장 큰 충격이 무엇이었는지 생각해 봅시다. 이전에는 장난감처럼 여겼지만, 그 순간 우리는 그것이 유용한 도구라는 것을 깨달았습니다.
따라서 제가 정의하는 "ChatGPT가 지능을 구현하는 순간"이란 ChatGPT가 유용하고 신뢰할 수 있게 되는 순간입니다. 이는 결국 우리 회사의 사명과도 일맥상통합니다.
우리가 생각하는 '유용성'의 정의는 매우 간단합니다. 제한된 상황에서 활용될 수 있는 것입니다. 하지만 폐쇄 루프 내의 모든 문제를 진정으로 해결하려면 투자 수익률(ROI)을 명확하게 계산할 수 있어야 합니다. ROI를 명확하게 계산해야만 일괄 적용이 가능해집니다.
이처럼 유용한 정의가 충족될 때 비로소 장난감이나 연구 프로젝트를 진정한 도구로 탈바꿈시킬 수 있습니다. 저는 바로 그 순간이 "Embodied Intelligence ChatGPT"의 실현 시점이라고 생각합니다. 현재 모델들의 역량이 상당히 발전했기 때문에 머지않아 실현될 것이라고 믿습니다.
물론 ChatGPT의 등장 이후에는 DeepSeek의 등장과 같은 순간이 올 것입니다. 이는 지능형 로봇이 진정으로 주류로 자리 잡는 순간을 의미합니다. 오늘날, 실체를 갖춘 지능형 로봇은 창고나 공장에서 나사를 조이는 등의 작업을 수행할 수 있지만, 일반 대중은 이를 제대로 체감하지 못하고 있습니다. 아마도 DeepSeek의 등장과 같은 순간에는 모든 사람이 그 변화를 실감하게 될 것입니다. 산업 물류에서 상업용 애플리케이션, 나아가 소비자 시장으로의 진출은 조금 더 시간이 걸리겠지만, 그리 멀지 않은 미래에 가능해질 것이라고 생각합니다.
진행자: 메그비(Megvii)에서 근무하시는 동안, 포스 인텔리전스(Force Intelligence) 핵심 팀은 AI 1.0 시대를 경험하셨습니다. 이제 우리는 실체화된 지능의 시대에 접어들었습니다. 초기에 모델을 공개하는 대신, 벤치마크로서 로보챌린지(RoboChallenge)를 먼저 공개하셨는데, 어떤 접근 방식을 취하셨나요?
탕원빈: 모델은 하나의 산물입니다. 모델, 알고리즘, 아키텍처, 데이터 등 모든 결과물은 끊임없이 변화합니다. 현재 데이터, 중위안 학장이 언급한 사용자 친화적인 하드웨어, 평가 기준 등 모든 면에서 완전한 기술 아키텍처가 크게 부족한 상황입니다.
오늘날 인공지능 산업에서 알고리즘을 개발하는 우리 모두는 알고리즘을 평가하는 방법을 모르면 개선할 수 없다는 것을 알고 있습니다. 현재 우리가 사용할 수 있는 평가 기준으로는 LIBERO, SimplerEnv, RoboTwin 등이 있지만, 규모가 상대적으로 작습니다. 수많은 벤치마크가 철저한 테스트를 거쳐 개선되었지만, 99점이라는 점수가 현재의 진정한 성능을 제대로 반영한다고 할 수 있을까요? 당연히 아닙니다.
따라서 우리는 앞으로 나아갈 방향을 제시해 줄 물리적 세계에 기반한 대규모의 실제 평가가 절실히 필요하다고 생각합니다.
ForceMed는 Dexbotic 기반 프레임 의 인프라 구축에 많은 노력을 기울였으며, 향후 몇 가지 기능을 출시하여 업계에 기여하고자 합니다. RoboChallenge는 ForceMed가 주도했지만, Zhong Yuan 학장, Gao Jiyang, 그리고 칭화대학교의 Wang 교수님을 비롯한 모든 분들이 함께 이 평가에 참여하고 있으며, 더 많은 업계 관계자들이 참여하여 홍보해 주시기를 바랍니다.
진행자: 오늘 저희 게스트 중에는 로보챌린지의 파트너인 분들이 여러 명 계십니다. 싱하이맵은 로보챌린지에 참여한 초기 기업 중 하나로서 하드웨어를 기증했습니다. 이러한 결정을 내리게 된 배경은 무엇이었습니까?
가오 지양: 하지만 진정으로 응용 중심적이고 실용적인 평가 기준은 실제 기기를 기반으로 해야 합니다.
ChatGTP나 언어 모델의 개발 전반은 상업적 수요에 의해 주도된다고 생각합니다. 에이전트, 코딩, 챗봇이라는 세 가지 주요 분야에서 엄청난 수요가 존재합니다.
구현된 지능을 되돌아보면 미래에는 수직적 범주가 형성될 것입니다. 이러한 수직적 범주는 실제 요구에서 비롯되어야 합니다. 그리고 이러한 실제 요구는 실제 기기에 대한 평가에 반영되어야만 연구 개발 기업과 미래의 수요자에게 공정하고 반복적인 환경을 조성할 수 있습니다.
인공지능은 여전히 실험적인 과학의 영역에 속합니다. 특정 원리와 수학적 기반은 있지만, 궁극적으로는 검증이 필요한 부분이 많습니다. '검증'에는 피드백이 필요하고, 피드백에는 평가가 필요합니다. 인공지능을 비롯한 기업이나 조직의 성공을 결정짓는 매우 중요한 지표 중 하나는 반복 효율성입니다. 따라서 우리는 이 반복 효율성과 피드백의 질을 향상시키기 위해 모든 노력을 기울입니다. 이러한 이유로 저는 선배 동료가 로보챌린지를 추진하고 싶다고 했을 때 적극적으로 찬성하고 지지했습니다.
저희는 모든 구성원이 10가지 시나리오를 반복적으로 검토하는 자체적인 내부 벤치마킹 시스템을 보유하고 있습니다. 저는 업계 전체에 적용 가능한 보편적인 표준을 마련하고, 학계까지 참여시켜 산업과 학계를 더욱 긴밀하게 연계해야 한다고 생각합니다.
진행자: 로보챌린지는 매우 중요하지만, 초기 형식은 다소 특이했습니다. 마치 우수한 학생들이 직접 시험 문제를 만들고 시험을 치르는 것 같았습니다. 왕 교수님은 학생들의 이러한 행동을 어떻게 평가하시나요? (편집자 주: 이는 벤치마크 평가 기준을 처음 도입하고 평가에 참여하여 좋은 결과를 얻은 기업인 위안리링지를 지칭합니다.)
왕위: 저는 미래의 학습 모델이 바뀔 수 있다고 생각합니다. 반드시 교사가 가르치는 방식이 아니라 학생들이 스스로 학습하는 방식이 될 수도 있습니다. 최근 대학 동료들과 이 주제에 대해 논의하고 있습니다. 미래 대학의 발전은 교사가 수업을 가르치는 것에 국한되지 않을 수도 있습니다. 교사는 시험을 치르는 역할만 할 뿐, 시험 문제의 아이디어는 학생들에게서 나올 수도 있고, 그렇게 되는 데에는 아무런 문제가 없다고 생각합니다.
본론으로 돌아가서, 저희는 베이징에서 이좡 로봇 경진대회를 성공적으로 개최했습니다. 마라톤, 로봇 컨퍼런스, 체육대회를 포함한 두 개의 컨퍼런스와 하나의 경진대회를 진행했죠. 처음에는 로봇의 물리적 능력을 테스트하는 데 중점을 두었지만, 이제는 점차 지능 관련 테스트도 추가하고 있습니다.
하지만 이 방법은 흔히 사용되지 않고, 1년에 한두 번 정도밖에 진행되지 않습니다. 따라서 언제 어디서든 비교적 공정한 환경과 테스트 시나리오에서 실제 기기를 사용하여 테스트를 진행할 수 있다는 점이 정말 반갑습니다.
이처럼 빈번하게, 온라인으로, 또는 언제든 참여할 수 있는 활동을 현실로 만드는 것은 분명히 계속 개발해 나갈 가치가 있는 일이라고 생각합니다.
실제로 10명이 넘는 "우수 학생"(참가자)들이 함께 이 로보챌린지 플랫폼을 구축하고 있습니다. 플랫폼에 참여하는 모든 사람들은 공익을 위한 마음가짐으로 이러한 환경에서 경쟁합니다.
이를 보다 공익적인 형태로 제시할 수 있는 방안에 대해서는 계속해서 논의해 볼 수 있습니다. 공익 조직을 구축하는 데에는 본질적으로 많은 시간이 소요됩니다. 하지만 초기 구상부터 빈번한 실제 테스트, 산업계, 로봇공학계, 학계가 협력하여 다양한 시나리오를 정의하고, 나아가 완전한 오픈소스 생태계를 구축하는 과정 전체는 업계 전반에 큰 활력을 불어넣을 것입니다. 따라서 이 문제는 지속적으로 연구할 가치가 충분히 있다고 생각합니다.
탕원빈: 제가 한마디 거들겠습니다. DM0 모델을 공개했을 당시 저희도 내부적으로 이 문제를 논의했었습니다. 로보챌린지는 허긴페이스와 공동으로 진행했고, 많은 업체들이 참여했지만 저희가 주도했기 때문에 포스메이지가 자체 모델을 제출해야 할지, 그리고 결과를 공개해야 할지를 놓고 한동안 열띤 토론을 벌였습니다. 의견 차이도 컸습니다.
왕위: 오픈AI도 자체 벤치마크를 사용하고 테스트 후 결과를 공개합니다. 저는 그 부분에 모순이 있다고 생각하지 않습니다.
탕원빈: 오픈아이얼도 같은 방식으로 진행했기 때문에 저희는 크게 걱정하지 않았습니다. 이번에는 오픈소스 작업이 매우 철저하게 이루어져야 한다는 점을 팀에 요구했습니다. 저희 코드, DM0 모델, 그리고 덱스보틱(개발 프레임)을 다운로드하는 모든 사람이 로보챌린지에 직접 제출하여 현재 점수를 확인할 수 있도록 하고 싶습니다. 이는 저희에게 매우 투명한 부분이므로 모두가 자유롭고 정직하게 참여해 주시면 좋겠습니다.
진행자: 마지막으로 예측 질문 몇 가지로 마무리해 보겠습니다. 2026년을 내다볼 때, 체화된 지능 분야에서 가장 기대되는 발전이나 과제는 무엇이며, 가장 기대되는 결과는 무엇일까요?
왕위: 전자공학과 입장에서, 저는 기계와 인간의 공생 환경을 위한 아키텍처를 혁신하고 인프라를 구축할 수 있는 클라우드-엣지-디바이스 협업 시스템을 개발하고 싶습니다. 이 솔루션의 프로토타입이 올해 안에 나올 수 있을 것 같고, 그때 함께 논의할 수 있기를 바랍니다.
왕중위안: 하드웨어와 모델에 대한 기대도 크지만, 2026년에 가장 기대되는 것은 아마도 표준일 겁니다.
현재의 생태계, 특히 하드웨어 표준, 데이터 표준, 모델 출력 표준이 매우 파편화되어 있다고 생각하기 때문에 2026년에 표준 분야에서 획기적인 발전이 이루어지기를 진심으로 기대하고 있습니다. 이러한 발전은 전체 산업의 발전을 크게 촉진할 수 있을 것입니다.
지위안이 로보챌린지에 참가한 것을 보고 깊은 감명을 받았습니다. 원빈과 이야기를 나누면서, 모두가 각자 데이터를 수집했는데, 형식이나 코드조차 일관되지 않았다는 점에 대해 이야기했습니다. 이는 모델의 반복적인 검증에 직접적인 영향을 미쳤습니다. 솔직히 말해서, 최근 국내외에서 공개된 여러 모델을 다운로드하여 검증해 보았는데, 배포하는 데 상당한 어려움을 겪었습니다. 이는 대부분 표준이 통일되지 않았기 때문입니다.
2026년에는 휴머노이드 및 체화된 지능 아카데미도 표준 위원회에 참여하고 있기 때문에, 체화된 지능에 대한 표준 개발을 주도할 가능성이 매우 높습니다.
장다신: 원빈의 이야기에 큰 감명을 받았습니다. 어떤 시나리오, 어떤 작업, 어떤 목표에서든 '제로샷' 일반화를 달성할 수 있다면, 그것이 바로 '인공지능 기술의 도래'일 것입니다.
2026년에는 포스 머신과 리프 스타의 협력을 통해 원빈이 언급한 ChatGPT의 순간, 즉 안정적이고 효율적으로 작업을 완료할 수 있는 순간을 가장 기대합니다.
만약 원빈이 이 과제가 충분히 도전적이지 않다고 느낀다면, 우리는 상반기에 ChatGPT의 성과를, 하반기에 DeepSeek의 성과를 달성할 것입니다.
가오 지양: 2026년까지 생산성 측면에서 뚜렷한 성장세를 보일 것으로 예상합니다. 그리고 2년 안에 단일 시나리오에서 수만 대의 제품을 덤핑 할 수 있기를 바랍니다. 이는 업계 전체가 시급히 필요로 하는 부분이라고 생각합니다.
탕원빈: 제 목표는 가오지양의 목표보다 조금 더 작습니다. 저는 하나의 시나리오에서 천 대의 기기가 끊임없이 작동하는 모습을 보고 싶습니다.
제가 여기서 강조하고 싶은 것은 지속적인 운영이 가장 중요하다는 점이며, 이를 위해 시나리오를 너무 많이 추가해서는 안 된다는 것입니다. 단순히 시나리오를 늘리는 것이 중요한 것이 아닙니다. 만약 하나의 시나리오에서 천 대의 장치가 지속적으로 가동된다면, 그 시나리오 규모에 맞는 폐쇄 루프를 어느 정도 완성한 셈입니다. 2026년에는 가능할 거라고 생각합니다.
표지 이미지 출처 | AI 생성






