빠른 읽기
- 대규모 모델의 확산은 거의 전적으로 새로운 물리적 인프라에 의존합니다. 해시레이트 클라우드에 집중되어 있고, 터미널은 단지 진입점일 뿐입니다. 반면, 구현된 지능은 완전히 다릅니다. 하드웨어, 알고리즘, 환경 인식 및 운영 체제를 통합한 물리적 시스템입니다.
- 대부분의 로봇이 상당한 발전을 이루었지만, 여전히 "단일 작업대에 국한"되어 있으며 다양한 공간과 방식에 걸쳐 연속적이고 복잡한 작업을 완료하는 데 어려움을 겪고 있습니다.
- 구현된 지능에 있어서 "ChatGPT의 순간"은 재현 가능한 경로라기보다는 빌려온 비유에 가깝습니다. 대규모 모델이 알고리즘의 폭발적인 힘을 입증한다면, 구현된 지능은 전체 산업 시스템의 지속 가능성을 시험하는 것입니다.
인공지능의 여러 분야 중에서도, 체화된 지능은 지난 한 해 동안 가장 많이 언급된 분야 중 하나입니다.
산업용 로봇부터 서비스 로봇, 자율 주행부터 휴머노이드 로봇에 이르기까지, 모든 기술 분야는 주기적으로 "범용 지능형 관문"이 될 것으로 기대됩니다.
하지만 알고리즘 기반 소프트웨어 혁명과는 달리, 이는 항상 현실 세계의 마찰로 인해 속도가 느려져 왔습니다.
공개적으로 이용 가능한 영상만 살펴보면, 인공지능에 대한 대중적 담론은 거의 동일한 이미지들로 가득 차 있습니다. 로봇이 더욱 안정적으로 달리고, 더욱 정확하게 물체를 잡고, 더욱 부드럽게 움직이며, 더욱 복잡한 작업을 수행한다는 것입니다. 융자 가속화되고 있고, 모델은 계속해서 개선되고 있으며, 인공지능은 확실한 상승 를 보일 것으로 예상됩니다.
성공 사례는 반복해서 활용되고 실패 사례는 걸러지지만 , 연구실 밖에서는 또 다른 이야기가 펼쳐집니다. 배포 비용, 안정성, 유지 관리의 복잡성으로 인해 상용화 시기가 계속해서 늦어지고 있는 것입니다.
2월 10일, 포스 인텔리전스의 첫 번째 기술 공개 행사가 베이징 중관춘 국가 혁신 시범구 전시 센터에서 개최되었습니다.
ForceMachine은 DM0(네이티브 구현 모델), Dexbotic 2.0(네이티브 구현 개발 프레임), DFOL(네이티브 구현 애플리케이션 대량 생산 워크플로) 등 세 가지 핵심 제품을 출시했습니다. 또한 이번 발표는 ForceMachine 창립 이후 핵심 팀 구성원들이 처음으로 공식 석상에 함께 모습을 드러낸 자리이기도 합니다.
그날 열린 "Physical AI Next" 원탁 토론 포럼에서 산업계, 학계, 연구 분야의 다섯 명의 참석자는 시간의 절반 정도를 한 가지 질문에 대해 토론하는 데 할애했습니다.
ChatGPT에서 지능이 구체화되는 순간은 언제 올까요?
ChatGPT의 ‘구체화된 지능’이라는 개념은 기술적 혁신, 제품 경험, 그리고 비즈니스적 상상력이 결합된 복합적인 개념입니다. 이는 모델 기능의 비약적인 발전과 더불어, ChatGPT처럼 비전문가 사용자도 저렴한 비용으로 빠르게 이해하고 사용할 수 있어야 하며, 대규모로 확산되어야 한다는 기대를 의미합니다.
이는 일종의 기술적 낙관과 흥분을 내포하고 있습니다. 결국, ChatGPT 출시 이후 대규모 모델은 연구실에서 전 세계 수억 명의 사용자에게 빠르게 확산되었고, 이는 분명한 도약을 이뤄낸 것입니다.
사람들은 인공지능이 육체를 갖게 되었을 때, 즉 걷고, 잡고, 물리적인 세계를 조작할 수 있는 실체가 되었을 때에도 비슷한 획기적인 발전을 이룰 수 있을지 궁금해하는 것이 당연하다.
ChatGPT의 성공은 저렴하고 안정적이며 재현 가능한 사용자 경험을 제공하는 능력에 있습니다. 누구나 브라우저를 열고 문장을 입력하면 몇 초 안에 결과를 얻을 수 있습니다. 이러한 "바로 사용 가능한" 기능 덕분에 널리 사용되는 도구가 되었습니다.
더욱 중요한 것은 대규모 모델의 확산이 거의 전적으로 새로운 물리적 인프라에 의존한다는 점입니다. 해시레이트 클라우드에 집중되어 있고, 터미널은 단지 진입점에 불과합니다. 업계에서 이는 전형적인 "자산 경량화 전략"을 의미합니다.
구현된 지능은 완전히 다른 개념입니다. 이는 하드웨어, 알고리즘, 환경 인식, 운영 및 유지 관리 시스템을 통합한 물리적 시스템입니다.
베이징 인공지능학원 원장 왕중위안은 모델 성능이 향상되었음에도 불구하고, 인공지능이 사물처럼 구현되는 ChatGPT와 같은 순간까지는 아직 멀었다고 생각한다. "특히 인공지능 모델과 실제 하드웨어 장치를 배포한 후, 우리가 진정으로 바라는 대규모 응용 프로그램과는 여전히 상당한 격차가 있음을 발견했습니다."
이러한 격차는 물리적 세계의 본질적인 불확실성에서 비롯됩니다. 지면이 평평한지, 조명이 변하는지, 부품에 미세한 오차가 있는지, 센서가 노후화되는지 등 어떤 변수라도 임무 실패로 이어질 수 있습니다.
이것이 바로 현재 단계에서 구현된 지능이 "대량 복제 가능"한 상태가 아니라 "입증 가능"한 상태에 머물러 있는 이유입니다. 하나의 성공이 시스템적인 성공을 의미하는 것은 아니기 때문입니다.
더욱 중요한 것은, 동일한 로봇이라도 시간과 장소에 따라 극적으로 다른 행동을 보일 수 있다는 점입니다. 이는 ChatGPT처럼 모든 사용자에게 일관되고 예측 가능한 경험을 제공할 수 없다는 것을 의미합니다. 그리고 "순간"의 본질은 바로 이러한 집단적으로 인지 가능한 변화에 달려 있습니다.
칭화대학교 전자공학과 종신교수인 왕위는 대부분의 로봇이 상당한 발전을 이루었지만 여전히 "단일 작업대에 국한되어" 있으며 다양한 공간과 모드에서 연속적이고 복잡한 작업을 완료하는 데 어려움을 겪는다고 생각한다.
그는 심지어 획기적인 아이디어까지 제시했습니다. 미래의 주거 설계에는 "로봇 적응형" 요소가 필요할지도 모른다는 것입니다. 다시 말해, 로봇이 인간의 혼란스러운 생활 환경에 적응하도록 "요구"하는 대신, 건물과 기반 시설이 기계에 맞춰 능동적으로 최적화되도록 하는 것이 더 나을 것이라는 주장입니다.
스노우 레오파드 파이낸스 는 이러한 방식이 산업 역사에서 낯선 것이 아니라고 생각합니다. 조립 라인, 엘리베이터, 자동문 모두 공간을 먼저 변화시킨 다음 자동화의 가치를 창출하는 과정을 거쳤습니다. 구현된 지능 또한 이와 유사한 "환경 공학"을 필요로 할 수 있습니다.
왕위의 관점 또한 대형 모델과 체화된 지능 사이의 주요 차이점을 드러냅니다. 대형 모델은 고도로 표준화된 디지털 세계에서 작동하는 반면, 체화된 지능은 기계가 아닌 인간을 위해 설계된 물리적 세계로 나아가야 합니다. 전자는 명확한 규칙이 있는 체스판과 같지만, 후자는 혼란스러운 미지의 세계와 같습니다.
ChatGPT 순간을 정확히 어떻게 정의해야 할까요?
지에위에 싱천(Jieyue Xingchen)의 설립자이자 CEO인 장다신(Jiang Daxin)에 따르면, 핵심 기능은 제로샷 처리(zero-shot processing)입니다. "제로샷 처리는 일반화 능력을 가능하게 합니다. 이전에 본 적 없는 지시라도 입력하면 답할 수 있습니다. 이는 기존의 자연어 처리 방식과는 완전히 다른 접근 방식이며, 바로 이 때문에 모두가 ChatGPT에 큰 기대를 걸었던 것입니다."
장다신은 자연어 처리와 체화된 지능을 비교하며, 체화된 지능에서 "ChatGPT와 같은 획기적인 순간"을 달성하는 것이 훨씬 더 어려울 것이라고 생각한다. 그는 또한 체화된 지능의 일반화는 시나리오, 작업, 목표와 같은 여러 차원을 포함하며, 어떤 차원에서 "획기적인 발전"을 정의해야 하는지에 대한 합의가 부족하다고 설명한다.
기술적 혁신만으로는 제품이나 산업의 변곡점을 보장할 수 없습니다. 이러한 불일치 때문에 인공지능 분야에서 "ChatGPT의 순간"이 끊임없이 논의되지만, 실제로 달성하기는 여전히 어렵습니다.
'성공'의 기준조차 통일되지 못할 때, '순간'이라는 단어는 자연스럽게 모호한 수사가 된다.
상업적 활용에 진정으로 집중하는 기업가들은 보다 실용적인 정의로 눈을 돌리고 있습니다. 위안리 링지(Yuanli Lingji)의 공동 창업자이자 CEO인 탕원빈(Tang Wenbin)은 ChatGPT가 유용하고 신뢰할 수 있으며 투자수익률(ROI) 측면에서 정량화할 수 있는 도구가 되는 순간을 꿈꿉니다.
탕원빈은 솔직하게 "비록 업계가 매우 뜨겁고 번창하고 있지만, 우리의 전반적인 (실질적인) 지능화 역량은 아직 초기 단계에 머물러 있다"고 인정했다.
싱하이투의 창립자이자 CEO인 가오 지양은 산업 사슬의 관점에서 대형 모델은 "모델 자체가 제품"이라고 지적했습니다. 대형 언어 모델의 단말은 휴대폰과 컴퓨터이며, 유통 채널은 소셜 미디어입니다. 모델이 완성되면 전체 상용화 및 산업화 사슬이 즉시 가동됩니다. 그러나 실체화된 지능의 사슬은 공급망과 완제품 조립부터 데이터 폐쇄 루프 및 사후 서비스에 이르기까지 매우 길지만, 알고리즘은 실제로는 더 짧은 확산 주기를 가진 연결 고리입니다.
이는 체화된 지능의 상용화 속도가 제조업의 특징을 보인다는 것을 의미합니다. 즉, 자본 회수가 느리고, 실패 비용이 높으며, 어느 한 단계에서라도 문제가 발생하면 전체 리스크 증폭됩니다. 단일 기술의 혁신만으로는 전체 시스템의 상용화를 이끌어내기 어렵습니다. 가오 지양은 "업무 생산 라인 관점에서 볼 때, 체화된 지능에 대한 ChatGPT의 성공은 특정 제한된 범위 내에서 그 상업적 가치를 진정으로 확인할 수 있었던 순간이었습니다."라고 말했습니다.
체화된 지능에 있어서 "ChatGPT 순간"은 복제 가능한 경로라기보다는 빌려온 은유에 더 가깝습니다.
인공지능이 실체화되는 진정한 전환점은 전국적인 관심을 끄는 기술적 기적이 아니라, 공장, 창고, 산업 단지에서 조용히 필수불가결하지만 논의되지 않는 존재로 자리 잡는 날일지도 모릅니다.
하지만 최종 단계에 도달하기 전까지, 그 성숙 과정은 인프라의 진화와 더 유사할 것입니다. 즉, 느리고 조용하지만 없어서는 안 될 과정일 것입니다.
대규모 모델이 알고리즘의 폭발적인 위력을 입증한다면, 실체화된 지능은 전체 산업 시스템의 지속 가능성을 시험하는 것이다.
기적 같은 일이 없는 이 마라톤에서 승자는 가장 멋진 알고리즘을 가진 사람이 아니라, 공급망을 가장 잘 이해하고, 실제 기기에서 폐쇄 루프를 가장 잘 운영하며, 특정 시나리오에 가장 적극적으로 몰입하려는 사람이 될 것입니다.
이 글은 위챗 공식 계정 "설표금융"(ID: xuebaocaijingshe) 에서 발췌한 것으로, 저자는 Cao Quanjing, 편집자는 Huang Yuntao이며, 36Kr의 허가를 받아 게재되었습니다.





