OpenAI는 크게 베팅하고 로봇 NEO 월드 모델이 데뷔합니다. 로봇이 ChatGPT 순간을 안내할까요?

avatar
36氪
09-18
이 기사는 기계로 번역되었습니다
원문 표시

[소개] 방금 OpenAI가 막대한 투자를 한 휴머노이드 로봇 스타트업 1X가 마침내 그 뒤에 숨은 "세계 모델"을 공개했습니다. 실제 데이터를 기반으로 다양한 시나리오에 대한 행동 예측을 생성할 수 있습니다! 로봇 공학 분야에서 ChatGPT 순간이 실제로 다가오고 있을 수 있습니다.

OpenAI는 이달 초 휴머노이드 로봇 스타트업 1X에 대규모 투자를 했고, 마침내 NEO 공식 발표 영상을 공개했다.

처음 등장했을 때 모두를 놀라게 했습니다.

외모적으로는 '양복 입은 남자'라는 별명이 붙을 뿐만 아니라, 능력 면에서도 주인공이 가방을 들고 함께 요리를 할 수 있도록 도와주어 완벽한 만능 가정용 로봇으로 거듭난다.

청소, 정리 등 우리가 원하지 않는 다양한 집안일을 인간이 수행하도록 설계되었습니다.

반달 만에 1X는 마침내 NEO의 뒤를 잇는 '월드 모델'을 출시했습니다.

이 가상 세계 시뮬레이터를 통해 NEO는 유용한 개체 상호 작용을 예측할 수 있습니다.

즉, 다양한 환경에서 영상을 생성할 수 있습니다.

예를 들어, 티셔츠를 접고 커튼을 여는 등의 가변적인 물체는 집 안 곳곳에서 발견할 수 있지만 이를 가상세계 시뮬레이터에 집어넣는 것은 어렵다.

흥미롭게도 1X AI의 에릭 장 부사장은 '모델'이 거울 속의 자신을 알아볼 수 있도록 사무실에 전신 거울을 배치했다고 밝혔다.

NEO는 이제 자기 성찰 능력을 가지게 되었지만, 자기 인식은 아직 깨어나지 않았습니다.

1X "World Model"은 세계를 이해하고 상호 작용함으로써 고화질 비디오를 생성하고 신경망에서 이를 다시 계획, 시뮬레이션 및 평가할 수 있습니다.

이는 로봇에 있어서 세계 모델의 중요성이기도 합니다.

1X 창립자이자 CEO인 Bernt Bornich는 인간형 로봇 데이터의 첫 번째 증거가 스케일링 법칙을 크게 발전시키고 있다고 말했습니다.

Google DeepMind Robotics의 수석 연구원인 Ted Xiao는 1X의 "학습" 세계 모델이 놀라운 물리적 상호 작용 데이터를 통해 지속적으로 개선될 수 있다고 말했습니다.

- 월드 모델은 다중 에이전트 환경에서 반복 가능하고 확장 가능한 평가를 위한 유일한 방법일 가능성이 높습니다. (자율주행 세계모델 평가 성공사례 참여)

- 2024년 AI 기술을 기반으로 지난해 기술 기반보다 월드 모델 구축이 더 용이하다.

- 일단 월드 모델이 평가하기에 충분하다면 훈련 작업의 최소 90%를 완료했을 가능성이 높습니다.

로봇 "월드 모델"이 여기에 있습니다!

직설적으로 말하면 세계 모델은 컴퓨터 프로그램이다.

에이전트의 행동에 따라 세상이 어떻게 진화하는지 상상할 수 있습니다.

1X는 비디오 생성 및 자율주행차 세계 모델 연구를 기반으로 자체 세계 모델을 NEO용 가상 시뮬레이터로 훈련시켰습니다.

동일한 시작 이미지 시퀀스에서 시작하는 1X 세계 모델은 다양한 로봇의 동작을 기반으로 여러 가능한 미래 시나리오를 예측할 수 있습니다.

왼쪽: 왼쪽 문으로 이동, 중앙: 에어 기타 연주, 오른쪽: 오른쪽 문으로 이동

그렇다면 체화된 로봇의 존재에 있어서 가장 중요한 것은 물리적 세계와 상호작용할 수 있는 능력이다.

이 복잡한 세상에서 효과적으로 상호작용하는 방법은 어려운 문제가 되었습니다.

월드 모델은 NEO가 강체, 물체 낙하 효과, 불완전하게 보이는 물체(컵), 변형 가능한 물체(커튼, 옷) 및 힌지 물체(문, 서랍, 의자)와 같은 정확한 상호 작용을 완료하는 데 도움이 될 수 있습니다.

접시를 배수 선반에 놓을 수 있습니다.

커튼을 열 수도 있습니다.

서랍에서 물건을 꺼내는 등의 작업을 수행합니다.

구현된 로봇공학 딜레마 - 평가

또한 월드 모델은 범용 로봇을 구축할 때 매우 현실적이지만 종종 간과되는 과제인 평가를 해결합니다.

로봇이 1,000가지의 고유한 작업을 수행하도록 훈련되었다고 가정하면 새 모델이 실제로 모든 작업에서 이전 모델에 비해 개선되었는지 여부를 말하기는 어렵습니다.

더욱 문제는 동일한 모델 무게라도 환경 배경이나 주변 조명의 미묘한 변화로 인해 단 며칠 만에 성능이 저하될 수 있다는 점입니다.

연구원들은 티셔츠를 접는 로봇 모델을 훈련시켰고, 그 성능은 50일에 걸쳐 점차 감소했습니다.

더욱이, 환경이 계속 변하면 실험의 재현성이 문제가 됩니다.

특히 가정이나 사무실과 같은 환경에서 멀티태스킹 시스템을 평가할 때 이 문제는 더욱 어려워집니다.

이러한 요인들로 인해 현실 세계에서 엄격한 로봇 연구를 시작하는 것은 극히 어려워집니다.

데이터, 해시레이트, 모델 크기를 확장할 때 AI 시스템 성능이 어떻게 확장될지는 정밀한 측정을 통해 예측할 수 있습니다.

스케일링 법칙은 ChatGPT와 같은 범용 AI 시스템의 성능 향상을 위한 강력한 지원 장치가 되었습니다.

따라서 로봇공학 분야가 자체적인 "ChatGPT 순간"을 시작하려면 먼저 "확장 법칙"을 확립해야 합니다.

원시 데이터를 통해 학습하여 미래 시나리오 예측

Bullet, Mujoco, Isaac Sim, Drake와 같은 물리 시뮬레이션 기반 엔진은 로봇 전략을 신속하게 테스트하는 합리적인 방법이 되었습니다.

또한 이러한 시뮬레이터는 재설정 및 재사용이 가능하므로 연구자는 다양한 제어 알고리즘을 주의 깊게 비교할 수 있습니다.

그러나 이러한 시뮬레이터는 주로 "강체 역학"을 위해 설계되었으며 대량 수동 데이터 수집이 필요합니다.

그렇다면 시뮬레이션된 로봇이 커피 필터 상자를 열고, 칼로 과일을 자르고, 잼병을 풀고, 인간이나 다른 AI 에이전트와 상호 작용하도록 하려면 어떻게 해야 할까요?

가정 환경에서는 일반적인 일상 사물과 애완동물을 시뮬레이션하기 어렵고 훈련 로봇은 실제 사용 사례가 극히 부족합니다.

따라서 제한된 수의 작업에서 로봇에 대한 소규모 실제/시뮬레이션 평가는 로봇이 실제 세계에서 어떻게 수행될지 정확하게 예측하지 못합니다.

즉, 이렇게 훈련된 로봇이 현실 세계에서 '보편적 일반화' 능력을 갖추기는 어렵다는 것이다.

1X 연구팀은 다음을 통해 로봇을 평가하는 데 완전히 새로운 접근 방식을 취했습니다.

기본 센서 데이터에서 직접 시뮬레이션을 학습하고 이를 사용하여 수백만 가지 시나리오에서 로봇 전략을 평가합니다.

이 "세계 모델" 접근 방식의 장점은 수동으로 자산을 생성할 필요 없이 한 번의 클릭으로 실제 세계의 모든 복잡한 데이터를 얻을 수 있다는 것입니다.

지난 해 1X 팀은 5,000시간 이상의 EVE 휴머노이드 로봇 데이터를 수집했습니다.

데이터에는 로봇이 다양한 모바일 작업 작업을 수행하고 가정 및 사무실 환경에서 사람들과 상호 작용하는 시나리오가 포함됩니다.

그런 다음 비디오와 모션 데이터를 결합하여 세계 모델을 교육했습니다.

이 모델은 관찰된 상황을 기반으로 동작을 수행할 수 있을 뿐만 아니라 비디오를 생성하고 미래 장면을 예측할 수도 있습니다.

움직임을 제어할 수 있으며 "두뇌 강화" 기능으로 에어 기타를 연주할 수 있습니다.

1X 월드 모델은 다양한 작업 지침을 기반으로 다양한 출력을 생성할 수 있습니다.

아래 그림과 같이 4가지 서로 다른 액션 시퀀스를 기반으로 생성된 다양한 결과가 표시됩니다. 이러한 액션 시퀀스는 모두 동일한 초기 프레임에서 시작됩니다.

이전과 마찬가지로 표시된 예제 중 어느 것도 훈련 데이터에 포함되지 않습니다.

월드 모델의 주요 가치는 객체 간의 상호 작용을 시뮬레이션하는 능력입니다.

후속 시뮬레이션 생성에서 연구원들은 동일한 초기 시나리오를 모델에 제공하고 상자를 잡기 위한 세 가지 다른 동작 세트를 설정했습니다.

시뮬레이션된 각 장면에서 잡힌 상자는 조작기의 움직임에 따라 들어올려지고 이동하는 반면, 잡지 않은 다른 상자는 움직이지 않고 제자리에 유지됩니다.

구체적인 동작 지침이 없어도 월드 모델은 합리적으로 보이는 동영상을 생성할 수 있습니다.

예를 들어, 앞으로 나아갈 때 보행자나 장애물을 피할 수 있는 것은 매우 상식적인 일입니다.

장기간 작업에도 티셔츠 접기 시뮬레이션

또한 1X는 긴 동영상도 생성할 수 있습니다.

시작 부분의 예에서 볼 수 있듯이 NEO는 완전한 티셔츠 접기 시연을 시뮬레이션했습니다.

티셔츠와 같은 변형 가능한 물체는 종종 "강체 시뮬레이터"에서 구현하기 어렵다는 점을 언급할 가치가 있습니다.

현재 문제

그러나 1X 월드 모델에도 몇 가지 문제가 있습니다.

객체 일관성

예를 들어, 모델은 객체와 상호 작용하는 동안 객체의 모양과 색상 일관성을 유지하지 못할 수 있습니다.

특히 객체가 가려지거나 이상적인 각도로 제시되는 경우, 세계 모델의 영상 생성 과정에서 객체의 외형이 변형될 수 있습니다.

때로는 물체가 완전히 사라지기도 합니다.

예를 들어, 빨간 공을 집어 접시 위에 올려놓는 동작을 수행할 때, 그 과정에서 공이 설명할 수 없이 사라지는 현상이 발생합니다.

물리학 법칙

게다가 물리적 세계의 기본 법칙도 이해하지 못합니다.

때로는 NEO가 로봇 손을 놓은 후 숟가락이 테이블로 떨어지는 등 물리적 특성을 자연스럽게 이해할 수도 있습니다.

그러나 많은 경우 생성된 결과는 물리 법칙을 따르지 않습니다. 예를 들어 다음 예에서는 플레이트가 공중에 직접 매달려 있습니다.

이는 세계 모델이 모든 물체가 수직 하향 중력의 영향을 받는다는 것을 이해하지 못한다는 것을 보여줍니다.

자기 인식

또 연구진은 AI 로봇 EVE에게 거울 앞을 걸어가며 거울 속의 행동과 일치하는 행동을 하는지 관찰하게 했다.

놀랍게도 다른 쪽 팔을 들었을 때 거울에는 동기화가 없었습니다.

현행 1X 모델에는 자기인식 기능이 없다는 것을 알 수 있다.

참고자료:

https://x.com/ericjang11/status/1836096888178987455

https://x.com/1x_tech/status/1836094175630200978

이 기사는 WeChat 공개 계정 "Xin Zhiyuan" 에서 가져온 것입니다. 편집자: Taozi Haoshan, 36 Krypton은 승인을 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트