Physical Intelligence는 로봇이 실제 작업에 필요한 메모리를 갖출 수 있도록 MEM 아키텍처를 도입했습니다.

이 기사는 기계로 번역되었습니다

원문 표시

Physical Intelligence는 로봇이 실제 작업에 필요한 메모리를 갖출 수 있도록 MEM 아키텍처를 도입했습니다.

수년 동안 진정으로 유용한 가정용 로봇에 대한 꿈은 눈앞에 아른거렸습니다. 로봇은 이미 "프라이팬 씻어줘", "빨래 개줘", "샌드위치 만들어줘"와 같은 명령을 수행할 수 있습니다. 실험실 환경에서 이러한 시스템은 놀라운 민첩성과 정확성을 보여줍니다. 그러나 로봇 기본 모델의 빠른 발전에도 불구하고 근본적인 무언가가 부족했습니다. 바로 메모리입니다.

단일 작업을 수행할 수 있는 로봇과 전체 작업을 완료할 수 있는 로봇은 다릅니다. 주방 전체를 청소하거나, 요리를 하거나, 레시피에 필요한 재료를 준비하는 데는 개별적인 기술 이상의 것이 필요합니다. 이미 완료된 작업, 아직 해야 할 작업, 그리고 모든 재료의 위치를 기억하는 능력, 즉 연속성이 필수적입니다. 이러한 연속성이 없다면 아무리 뛰어난 로봇이라도 놀라울 정도로 무능해질 수 있습니다.

이것이 바로 Physical Intelligence의 연구원들이 현재 다중 스케일 구현 메모리(MEM)라는 새로운 아키텍처로 해결하고자 하는 과제입니다. MEM은 로봇에게 단기 기억과 장기 기억을 모두 제공하여 로봇이 몇 초가 아닌 몇 분에 걸쳐 진행되는 작업을 수행할 수 있도록 설계된 시스템입니다.

이번 결과는 중요한 점을 시사합니다. 로봇공학의 미래는 더 나은 기계 손보다는 더 나은 인지 구조에 더 크게 좌우될 수 있다는 것입니다.

최신 로봇 모델은 이미 놀라운 수준의 운동 능력을 갖추고 있습니다. 깨지기 쉬운 물체를 잡고, 도구를 조작하며, 복잡한 환경을 탐색할 수 있습니다. 하지만 로봇에게 부엌 전체를 청소하라고, 즉 조리대를 닦고, 식료품을 정리하고, 설거지를 하고, 식기를 정리하라고 하면 그 한계가 금방 드러납니다.

문제는 기술 자체에 있는 것이 아닙니다. 문제는 그러한 기술들을 어떻게 조율하느냐입니다. 복잡한 작업에는 지속적인 인식이 필요합니다. 로봇은 이미 어떤 수납장을 열었는지, 냄비 뚜껑을 어디에 두었는지, 설거지를 했는지 등을 기억해야 합니다. 또한 시야에서 벗어나는 물체를 추적하고 새로운 동작을 수행하는 동안에도 주변 환경에 대한 정신적 지도를 유지해야 합니다.

인간의 인지 능력은 이러한 과정을 자연스럽게 수행합니다. 하지만 기계는 최근까지 그렇지 못했습니다. 로봇이 몇 분 또는 몇 시간 동안 관찰한 모든 정보를 저장하는 것은 계산적으로 불가능합니다. 그렇다고 정보를 버리면 시스템이 과거의 사건을 잘못 해석하고 잘못된 행동을 강화하는 등 혼란스러운 행동을 보이게 됩니다. 로봇 공학 연구에서는 이러한 문제를 "인과적 혼란"이라고 부르기도 합니다.

그 결과, 숏 시연에서는 인상적으로 보이지만 실제 작업에서는 어려움을 겪는 로봇이 탄생했습니다.

신체적 지능을 위한 메모리 시스템

MEM 아키텍처는 다계층 메모리 구조를 도입하여 이 문제를 해결합니다. 모든 데이터를 동일하게 저장하는 대신, 시스템은 메모리를 두 가지 상호 보완적인 형태로 분리합니다.

단기 시각 기억은 효율적인 비디오 인코딩 아키텍처를 사용하여 최근 관찰 내용을 저장합니다. 이를 통해 로봇은 움직임을 이해하고, 프레임 간에 물체를 추적하며, 몇 초 전에 발생한 사건을 기억할 수 있습니다. 이는 구운 치즈 샌드위치를 뒤집거나 접시를 닦는 것과 같은 정밀한 동작에 매우 중요합니다.

한편, 장기 개념 기억은 작업 진행 상황을 자연어로 저장합니다. 로봇은 시각 데이터를 무한정 기억하는 대신, 발생한 일을 설명하는 간략한 텍스트 "메모"를 작성합니다. 예를 들어 "냄비를 싱크대에 넣었습니다" 또는 "냉장고에서 우유를 꺼냈습니다"와 같은 문장입니다.

이러한 요약 정보는 로봇의 추론 과정의 일부가 됩니다. 사실상 로봇은 작업에 대한 자체적인 스토리를 구축하는 것입니다. 시스템의 추론 엔진은 다음에 수행할 행동과 기억할 가치가 있는 정보라는 두 가지를 동시에 결정합니다. 이러한 조합을 통해 모델은 최대 15분 동안 지속되는 작업을 추적할 수 있는데, 이는 기존의 대부분의 로봇 시연보다 훨씬 긴 시간입니다.

MEM이 제공하는 가장 흥미로운 기능 중 하나는 상황에 맞춘 적응력입니다. 로봇은 실수를 합니다. 그것은 불가피합니다. 하지만 대부분의 로봇 시스템은 실패에 대한 기억이 없기 때문에 그러한 실수를 끝없이 반복합니다.

간단한 실험을 통해 그 차이가 명확히 드러납니다. 한 실험에서 로봇은 납작한 젓가락을 집으려고 시도합니다. 메모리 기능이 없는 로봇은 같은 방식으로 계속해서 실패를 반복합니다. 하지만 메모리 기능이 활성화된 로봇은 실패한 시도를 기억하고 다른 방식을 시도하여 결국 성공합니다.

또 다른 예로 냉장고 문을 여는 경우를 생각해 보겠습니다. 로봇은 시각 정보만으로는 문이 어느 방향으로 열리는지 즉시 판단할 수 없습니다. 메모리가 없는 시스템은 같은 동작을 계속해서 반복할 뿐입니다. 반면 메모리가 있는 로봇은 한 방향으로 시도하고 실패를 기억한 다음 반대 방향으로 시도합니다.

이러한 작은 조정들은 매우 중요한 의미를 지닙니다. 바로 작업 자체 내에서 학습하는 능력입니다. 로봇은 훈련 데이터에만 전적으로 의존하는 대신, 실시간으로 적응해 나갑니다.

연구진은 메모리 기능을 갖춘 시스템을 점점 더 복잡한 작업으로 평가했습니다. 첫 번째 과제는 비교적 간단한 작업인 그릴드 치즈 샌드위치 만들기였습니다. 이 작업은 빵을 뒤집고 샌드위치를 접시에 담는 것과 같은 섬세한 동작을 수행하면서 타이밍을 맞추기 위해 단기 기억력이 필요했습니다.

다음으로는 재료 준비 작업이 이어졌습니다. 로봇은 이미 수집한 재료가 무엇인지, 어디에 있는지, 서랍과 찬장이 닫혀 있는지 등을 기억해야 했습니다. 마지막으로 가장 까다로운 시나리오인 주방 전체 청소 작업이 진행되었습니다.

이는 물건을 제자리에 정리하고, 설거지를 하고, 조리대를 닦고, 방의 어느 부분이 이미 청소되었는지 기록하는 것을 의미했습니다.

구조화된 메모리가 추가된 모델은 구조화된 메모리가 없는 버전보다 훨씬 뛰어난 성능을 보였으며, 더 높은 신뢰성과 작업 완료율을 입증했습니다.

이러한 차이는 로봇 공학의 핵심적인 변화를 보여줍니다. 연구자들은 이제 개별적인 동작을 최적화하는 대신, 지속적인 작업 흐름을 수행할 수 있는 시스템을 구축하고 있습니다.

로봇공학의 차세대 핵심 과제가 메모리인 이유

MEM의 더 넓은 의미는 로봇 공학이 새로운 단계로 접어들고 있다는 것입니다. 수십 년 동안 로봇 공학 분야는 기계가 세상을 인식하고 물체를 조작하도록 돕는 지각 및 제어에 집중해 왔습니다. 그러나 최근에는 대규모 멀티모달 모델을 통해 로봇이 명령을 해석하고 복잡한 운동 동작을 실행하는 능력이 획기적으로 향상되었습니다.

하지만 이러한 기능들이 성숙해짐에 따라 병목 현상은 다른 곳으로 옮겨갔습니다. 다음 과제는 인지적 연속성, 즉 로봇이 목표를 잊지 않고 장기간 작동할 수 있도록 하는 것입니다. MEM과 같은 메모리 시스템은 이러한 연속성을 위한 기반을 제공합니다. 로봇은 순간순간 반응하는 대신 자신의 행동, 결정, 그리고 주변 환경에 대한 내부적인 서사를 유지할 수 있습니다. 이러한 서사가 복잡한 행동을 가능하게 합니다.

이러한 접근 방식이 계속 발전한다면, 그 영향은 주방 청소를 훨씬 넘어설 것입니다. 미래의 로봇은 몇 시간 또는 며칠에 걸쳐 진행되는 지시를 따라야 할 수도 있습니다. 예를 들어, 가정용 음성 비서에게 다음과 같이 말하는 것을 상상해 보세요.

"저는 오후 6시에 집에 옵니다. 수요일에는 저녁 준비를 해 주시고 집 청소도 해 주세요."

그러한 요청을 실행하려면 긴 지침을 분석하고, 하위 작업을 계획하고, 진행 상황을 기억하고, 문제가 발생할 경우 대처해야 합니다.

그렇게 오랜 기간 동안 모든 행동에 대한 원본 비디오 기록을 유지하는 것은 불가능합니다. 대신 로봇은 경험을 점점 더 추상적인 표현으로 압축하는 계층적 메모리 시스템에 의존할 가능성이 높습니다.

MEM은 그러한 아키텍처를 향한 초기 단계입니다. 이는 더욱 뛰어난 로봇의 핵심이 더 강력한 모터나 더 정밀한 센서가 아니라, 더 나은 메모리와 그에 대한 추론 능력일 수 있음을 시사합니다. 로봇이 마침내 자신이 무엇을 하고 있는지 기억할 수 있게 된다면, 마침내 작업을 완료할 수 있을 것입니다.

"물리적 지능이 로봇에게 실제 작업에 필요한 메모리를 제공하기 위해 MEM 아키텍처를 도입했습니다"라는 제목의 게시물이 Metaverse Post 에 처음으로 게재되었습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트