세계 모델: 계산 불가능한 것을 계산하기

Not Boring by Packy McCormick

03-19

이 기사는 기계로 번역되었습니다

원문 표시

지난번 글 이후로 Not Boring에 새롭게 합류하신 458명의 분들 을 환영합니다! 지금 바로 구독하셔서 260,170명의 똑똑하고 호기심 많은 사람들과 함께하세요!

지금 구독하세요

안녕하세요 친구들 👋 ,

즐거운 수요일 되세요!

몇 달 전, 핌 드윗과 켄트 롤린스가 저를 뉴욕에 있는 그들의 사무실로 초대하여 제너럴 인튜이션 에서 진행 중인 프로젝트를 보여주었습니다. 저는 그들이 1억 3370만 달러라는 거액의 시드 투자 유치를 발표했을 때 이 회사에 대해 들었고, 그들이 개발 중인 월드 모델이라는 제품에 대해서도 들었지만, 그 외에는 아는 것이 거의 없었습니다.

그날 그들이 제게 보여준, 동작이 표시된 게임 클립을 통해 가까운 미래를 예측하는 모델들, 그리고 그 이후 수많은 대화와 수십 시간의 연구를 통해 제가 모델의 가능성에 대해 가졌던 인식이 바뀌었습니다. 저는 LLM이 우리를 초지능으로 이끌 것이라는 데에는 회의적이지만, 월드 모델이 우리가 할 수 없거나 하고 싶지 않은 일들을 해내는, 인간을 보완하는 초인적인 기계를 만들어낼 가능성은 충분히 있다고 생각합니다.

첫 만남 이후 월드 모델 분야는 뜨겁게 달아올랐습니다. 페이페이 리의 월드 랩스는 10억 달러를, 얀 르쿤의 AMI는 10억 3천만 달러를 유치했습니다. 월드 모델은 이번 주 NVIDIA GTC의 주요 화두 중 하나였습니다. 하지만 이 분야는 아직 초기 단계이고, 수많은 천재들이 경쟁적이거나 협력적인 접근 방식을 추구하고 있어 모든 것을 이해하기란 쉽지 않습니다.

그래서 저는 핌에게 세계 모델의 역사, 이론, 발전 과정, 그리고 잠재력에 대한 공동 에세이를 함께 써보자고 제안했습니다. 그는 흔쾌히 동의했고, 그와 제너럴 인튜이션 팀은 제가 관련 지식을 습득하고 여러분이 이를 이해하는 데 도움을 줄 수 있도록 아낌없이 시간과 지혜를 투자해 주었습니다.

저는 세상에서 가장 멋진 직업을 갖고 있어요. 지난 몇 달 동안, 꿈을 통해 훈련된 모델과 에이전트가 현실 세계에서 기계를 조종하여 우리를 위해 일하게 하는, 실체화된 인공지능의 미래를 가장 가까이서 지켜볼 수 있었거든요.

저는 이러한 탐구의 결실, 즉 현존하는 월드 모델에 대한 가장 포괄적인 가이드라고 생각하는 이 책을 여러분과 공유하게 되어 매우 기쁩니다. 물론 핌과 GI 팀은 월드 모델을 구축하는 최선의 방법에 대한 자신만의 관점을 가지고 있지만, 저는 그들이 자신들의 방식을 포함한 모든 접근 방식의 장단점을 신중하게 제시하고, 미래가 아직 결정되지 않았다는 점을 인정하는 모습에 깊은 인상을 받았습니다.

이 분야는 놀라울 정도로 빠르게 변화하고 발전하고 있습니다. 이 글이 여러분이 쏟아져 나오는 흥미로운 소식들을 이해하고 파악하는 데 도움이 되기를 바랍니다.

자, 시작해 볼까요?

오늘의 지루하지 않은 콘텐츠는 프레이머(Framer) 에서 제공합니다.

Framer는 디자이너에게 초능력을 부여합니다.

Framer 는 디자인 중심의 노코드 웹사이트 빌더로, 누구나 몇 분 만에 바로 사용 가능한 웹사이트를 제작할 수 있도록 해줍니다. 템플릿을 사용하든 빈 캔버스에서 시작하든, Framer는 코딩 없이 완벽한 창의적 자유를 제공합니다. 애니메이션을 추가하고, 클릭 한 번으로 현지화하고, 팀 전체와 실시간으로 협업할 수 있습니다. 내장된 분석 기능을 통해 A/B 테스트를 진행하고 클릭률을 추적하는 것도 가능합니다.

Framer.com에서 무료로 시작하세요. 코드 NOTBORING을 입력하시면 Framer Pro를 한 달 무료로 이용하실 수 있습니다.

Framer로 바로 게시하세요

세계 모델: 계산 불가능한 것을 계산하기

핌 드윗과 공동 집필한 에세이

"어젯밤에 잠들고 싶었어요. 그런데 잠 대신 내일 겪을 수 있는 모든 상황과 그에 대한 내 반응을 상상하기 시작했죠."

이것은 흔한 경험입니다. 인간은 복잡한 스포츠 경기장이든, 잠재적인 로맨스든, 열띤 토론이든 쉽게 상상합니다. 맨체스터 유나이티드 경기를 상상하는 것은 수천 명의 행동을 시뮬레이션하고 모델링하는 것을 포함하지만, 이는 오늘날의 전통적인 컴퓨터와 게임 엔진으로는 수년이 걸릴 것 입니다 .

맨체스터 유나이티드 경기를 묘사하는 코드를 작성한다고 생각해 보세요. 언제든 팬이 직접 만든 깃발을 가져올 수 있습니다. 그러면 경기장 전체가 그 깃발과 관련된 노래를 부르기 시작합니다. 하지만 모두 함께 노래를 부르는 것은 아닙니다. 어떤 사람들은 아이들과 함께 뛰놀고, 또 어떤 노부부는 이 경기가 마지막이 될지도 모른다는 생각에 조용히 앉아 모든 순간을 음미합니다.

세상은 예상치 못한 미래가 펼쳐지는 곳이지만, 어느 정도 예측 가능한 방식으로 전개됩니다. 인간은 거의 모든 미래를 비슷한 노력과 시간으로 그려낼 수 있지만, 컴퓨터는 그렇지 못합니다.

이러한 복잡성을 처리하는 데 기존 컴퓨팅 방식이 어려움을 겪는 것은 당연합니다. 모든 행동은 물론, 그 행동들 간의 상호작용까지 예측하고 코딩해야 한다고 상상해 보세요. 수학적으로, 기존 엔진에서 N명의 팬을 시뮬레이션하는 것은 최소한 O(N) 또는 O( ^N² ) 문제입니다. 각 사람, 깃발, 의자, 공을 명시적으로 계산해야 하며, 실제로 이들 간의 상호작용까지도 계산해야 합니다.

로봇공학에서는 기계가 실제 상황의 복잡성과 관계없이 동일한 시간 내에 반응해야 합니다. 하지만 기존 컴퓨팅 환경에서는 다양한 상황을 시뮬레이션하는 데 걸리는 시간이 크게 다를 수 있습니다. 이는 로봇공학 및 인공지능 기술의 발전을 가로막는 주요 병목 현상이었습니다.

세계 모델은 그 문제에 대한 해결책입니다.

월드 모델은 비디오와 그 안에서 일어나는 행동들을 통해 이러한 역동성을 예측하는 법을 학습합니다. 축구 경기처럼 확률적이고 행동에 따라 달라지는 집단 행동을 포함하여, 역동적이고 대규모 시뮬레이션이 어려운 상황들을 신경망 내의 단일 고정 비용 연산으로 단순화합니다.

월드 모델에서는 경기장 전체가 신경망을 통한 고정 비용 순방향 전달로 시뮬레이션됩니다. 장면의 복잡성이 추론 과정에서 '엔진'의 속도를 기하급수적으로 저하시키지 않는데, 이는 가중치가 훈련 과정에서 이미 실제 세계의 패턴을 흡수했기 때문입니다.

어떻게? 행동을 통해서.

행동은 전개되는 역학을 예측하기 위한 일종의 압축 역할을 합니다. 행동은 환경의 미래 상태를 펼쳐낼 정보를 담고 있으며, 더 많은 행동이 발생하여 새로운 입력이 추가될 때까지 그 상태를 유지합니다. 각 행동은 다음에 무슨 일이 일어날지 예측하기에 충분한 정보를 담고 있으며, 다음 행동이 발생하여 전체적인 상황을 업데이트합니다.

이러한 행동 기반 접근 방식은 모델이 상호작용적으로 학습하고 계획할 수 있도록 해줍니다. 오늘날 이러한 방식은 최고의 시뮬레이션 엔진에서도 구현하기 어렵고, 계산 비용을 예측하는 것은 더욱 불가능합니다. 행동은 모델이 우리처럼 세상과 상호작용할 수 있도록 도와줍니다.

매일매일 끊임없이 관찰하고, 계산하고, 무엇을 할지 결정하고, 행동합니다. 이것이 삶입니다. 어느 순간이든, 시공간과 관련된 모든 정보는 당신이 취하는 행동 하나로 집약됩니다.

컴퓨터에게 있어 행동은 시뮬레이션 비용을 우회하는 일종의 편법입니다 . 만약 인간의 두뇌가 최고 수준의 논리 모델(LLM)보다 훨씬 효율적이라면, 인간이 환경의 수많은 변수에 어떻게 반응하는지 관찰하는 것만으로도 필요한 모든 계산을 사실상 무료로 얻을 수 있습니다. 이는 비결정적 연산을 효율적으로 수행하고 기존의 컴퓨팅 제약 조건으로는 불가능했던 시뮬레이션을 만들어낼 수 있는 방법을 제시합니다.

이처럼 계산 불가능한 것을 계산할 수 있는 능력이야말로 현재의 모델 아키텍처로는 불가능한 방식으로 월드 모델이 실체화된 AI의 발전을 이끌어낼 것이라고 믿는 이유입니다.

모델을 꿈처럼 생각해 보세요.

꿈에서 당신은 그저 가만히 서서 무슨 일이 일어나는지 지켜볼 수밖에 없는 상황을 경험해 본 적이 있나요? 그것이 바로 비디오 모델입니다 .

현실 세계는 다릅니다. 현실 세계는 당신의 행동이나 지시에 반응하고, 그 결과로 발생할 수 있는 모든 가능성을 예측합니다. 단지 가장 가능성이 높거나 가장 흥미로운 다음 상황만을 예측하는 것이 아닙니다.

혹시 꿈속에서 마음속으로 만들어낸 배경 속에서 이야기를 직접 만들어갈 수 있었던 경험이 있으신가요? 그것이 바로 월드 모델입니다 .

여기서 직접 사용해 볼 수 있는 비교 프로그램을 만들었습니다.

보다 공식적으로 말하자면, 표준 비디오 모델은 확률 P(x _t+1 | x _t )에 기반하여 다음 프레임을 예측하는 반면, 월드 모델은 개입 P(s t+1 | s t , a t ) 에 기반하여 다음 상태를 _예측 _합니다 _.

시간 t에서의 행동 _, 즉 ' _t' 가 바로 마법이다.

제너럴 인튜이션은 세계 모델이 심층적인 공간 및 시간 추론이 필요한 환경, 즉 우리 현실 세계와 같은 환경에서 LLM보다 잠재적으로 더 강력한 새로운 유형의 기반 모델이 될 수 있다고 믿으며, 실제로 초기 징후를 통해 이를 확인하고 있습니다.

세계 모델, 즉 세상을 관찰하고 세상에서 일어나는 행동들을 통해 학습하는 시스템은 근본적으로 새로운 유형의 기초 모델입니다. 이러한 모델은 이전에는 계산할 수 없었던 것들을 계산할 수 있습니다.

그것들은 현재 누구도 인식하지 못하는 것보다 훨씬 더 중요해질 것입니다. 왜냐하면 그것들은 언어와 코드만으로는 도달할 수 없는 일반 지능으로 가는 길을 제시하기 때문입니다. 결국 인간이란 경험하고 관찰하고 배우는 것을 바탕으로 평생 행동하는 존재이니까요.

잠시 멈춰보세요. 월드 모델이 LLM과는 달리 일반 지능에 이르는 길을 제시한다는 주장에 혼란스러울 수도 있습니다. 충분히 이해할 만합니다.

최근 월드 모델이 큰 주목을 받고 있습니다. LLM이 일반 지능으로 가는 길이라는 데 회의적인 입장을 보여왔던 얀 르쿤이 AMI를 위해 10억 3천만 달러를 모금했다고 발표했습니다 . 페이페이 리의 월드 랩스 역시 월드 모델 연구를 위해 10억 달러 이상을 모금했습니다. 기술 업계에서 사실상 무한 자금력을 보유한 구글 딥마인드 역시 월드 모델에 투자하고 있습니다. 하지만 지금까지 그 투자로 우리가 본 것은 멋진 영상과 3D 가상 세계뿐입니다.

LLM(법학 석사)들은 셰익스피어를 인용하고 에르되시 문제를 풀 수 있습니다. 반면 세계 모델은 일반 지능으로 가는 길이라기보다는 메타버스로 가는 길에 더 가까워 보입니다.

하지만 월드 모델이 아직 LLM만큼 큰 주목을 받지 못하는 이유 중 하나는 그 정의가 아직 불분명하기 때문입니다.

월드 모델이란 무엇일까요? 앞서 언급했듯이 비디오 모델은 월드 모델의 정의에 부합하지 않습니다. 3D 공간 모델도 마찬가지입니다. 하지만 둘 다 월드 모델로 가는 하나의 경로가 될 수 있습니다. 오늘날 로봇 애니메이션에 사용되는 모델들은 월드 모델일까요? 엄밀히 말하면 그렇지 않습니다. 물론 일부는 월드 모델에 해당하지만, 그렇지 않은 모델들조차도 월드 모델 아키텍처와 공통적인 특징을 가지고 있습니다.

늘 그렇듯 과장된 홍보는 혼란을 가중시킨다. AMI Labs(분명히 월드 모델 기업이다)의 CEO인 알렉상드르 르브룬은 테크크런치와의 인터뷰에서 "내 예측으로는 '월드 모델'이 다음 유행어가 될 것이다. 6개월 안에 모든 회사가 자금 조달을 위해 스스로를 월드 모델이라고 칭할 것이다."라고 말했다 .

과장된 기대감은 그중 작은 부분일 뿐입니다. 우리를 비롯해 이 분야에서 활동하는 모든 사람들이 믿는 것은 월드 모델이 물리적 세계의 기계를 제어하는 길이라는 점입니다. 이 길이 구체적으로 어떤 모습일지는 각자의 생각이 다를 수 있지만, 미래는 월드 모델을 통해 나아갈 것이라는 점에는 모두 동의합니다.

"이러한 변화가 얼마나 광범위한지 이해하는 사람은 거의 없습니다."라고 NVIDIA 로봇 공학 부문 이사이자 저명한 과학자인 짐 팬은 최근 말했습니다. "안타깝게도 현재 월드 모델의 가장 과대광고된 활용 사례는 AI 비디오(그리고 앞으로는 게임)와 같은 저급한 콘텐츠입니다. 저는 2026년이 대규모 월드 모델이 로봇 공학 및 더 나아가 멀티모달 AI 전반에 걸쳐 진정한 토대를 마련하는 첫 해가 될 것이라고 확신합니다."

오늘, 우리는 여러분을 "이러한 변화가 얼마나 광범위한지 이해하는" 극소수의 그룹에 초대하고자 합니다. 우리는 세계 모델의 역사, 현재 이 분야의 현황, 각 주요 연구소의 접근 방식에 대한 개괄적인 설명, 그리고 제너럴 인튜이션의 방향을 이끄는 신념에 대해 공유할 것입니다.

우리와 함께 갈지 말지는 당신에게 달려 있습니다. 파란 약을 선택하면 이야기는 끝납니다. 당신은 침대에서 깨어나 원하는 대로 믿게 되겠죠. 빨간 약을 선택하면... 이상한 나라에 남게 되고, 토끼굴이 얼마나 깊은지 보여드리겠습니다.

예를 들어… 당신 자신이 월드 모델 내부에서 작동하는 에이전트가 아니라는 것을 어떻게 확신할 수 있을까요?

요원들은 자신의 꿈속에서 학습할 수 있을까?

일어나, 네오.

세계 모델은 새로운 개념이 아닙니다. 오히려 가장 오래된 발상 중 하나죠. 인류가 우주 속 우리의 위치에 대해 생각하고, 우리가 왜 여기에 있는지 질문할 수 있게 된 이후로, 우리는 현실이 단지 시뮬레이션에 불과한 것은 아닌지 끊임없이 고민해 왔습니다.

기원전 380년, 플라톤은 소크라테스를 통해 동굴의 비유를 제시했습니다. 목에 쇠사슬이 묶인 채 동굴 속에 갇혀 벽에 비친 그림자만 바라볼 수밖에 없는 사람들을 상상해 보세요. 그들은 그 그림자를 현실 이라고 믿겠지만, 사실 그림자는 현실의 그림자에 불과합니다. 이것이 플라톤의 비유입니다. 그는 우리 모두가 목에 쇠사슬이 묶인 채 동굴에 갇혀, 자신이 인식하는 것을 진정한 현실로 착각하고 있다고 말합니다.

80년 후, 중국 도교 철학자 장자는 그의 저서 『나비몽』 의 한 구절에서 이와 유사한 질문들을 고찰했다.

장자는 꿈속에서 자신이 나비가 된 것을 보았다. 나비는 펄럭이며 날아다니고, 마음대로 행동하며 즐거워했다. 그는 자신이 장자라는 것을 몰랐다. 갑자기 잠에서 깨어보니, 그는 분명 장자였다. 하지만 그는 자신이 나비가 된 꿈을 꾼 장자인지, 아니면 장자가 된 꿈을 꾼 나비인지 알 수 없었다. 장자와 나비 사이에는 분명 어떤 차이가 있을 것이다! 이것이 바로 사물의 변천이라 불린다.

세월이 흐르고 기술력이 발전함에 따라 SF 작가들은 현실의 진정한 본질을 탐구하는 오랜 사상가들의 계보에 합류했습니다. 프레드릭 폴의 1955 년작 『터널 언더 더 월드』 , 대니얼 F. 갈루예의 『시뮬라크론-3 』, 스타니슬라프 렘의 『논 세르비암 』, 버너 빈지의 『트루 네임즈』 , 윌리엄 깁슨의 『 뉴로맨서』, 닐 스티븐슨의 『 스노우 크래시』 는 모두 시뮬레이션된 세계를 글로 그려낸 작품들입니다.

1977년 프랑스 메츠에서 열린 연설에서 SF계의 거장 필립 K. 딕은 청중에게 자신 있게 이렇게 말했습니다 . "우리는 컴퓨터로 프로그래밍된 현실 속에 살고 있으며, 우리가 그것을 알 수 있는 유일한 단서는 어떤 변수가 바뀌어 우리 현실에 변화가 일어날 때뿐입니다."

여러분이 시뮬레이션을 처음 접한 것은 아마 영화 '매트릭스'였을 겁니다. 저희도 그랬고요. 영화 '매트릭스' 의 초기 각본에서 워쇼스키 자매는 매트릭스를 신경망으로 연결된 인간 두뇌들이 집단적으로 만들어낸 시뮬레이션으로 구상했습니다.

제작사는 인간을 컴퓨터로 보는 것이 대중 관객에게 너무 혼란스러운 개념이라고 생각하여, 열역학적으로 다소 문제가 있는 결정인 인간을 시뮬레이션에 전력을 공급하는 배터리로 바꾸는 설정을 택했습니다. 아마도 이는 상업적으로는 옳은 선택이었을 것입니다. 매트릭스 시리즈는 전 세계적으로 거의 20억 달러의 수익을 올렸습니다. 더 중요한 것은, 이 시리즈가 대중에게 "현실"과 구별할 수 없을 정도로 정교하게 만들어진 시뮬레이션 세계라는 개념을 소개했다는 점입니다.

이 아이디어가 우리 모두의 상상력을 사로잡은 것도 놀랄 일이 아닙니다. 확실히 기묘하면서도 놀랍도록 반박하기 어렵기 때문입니다. 관찰 내용과 행동이 동일하다면, 계산 과정 또한 동일합니다. 보는 것과 하는 것이 같다면, 시뮬레이션 속에 있든 현실 속에 있든 상관없습니다. 실제 거리를 걷든 시뮬레이션 속 거리를 걷든 마찬가지입니다. 뇌는 둘 다 똑같이 처리합니다. 네오는 모피어스가 깨워줄 때까지 자신이 매트릭스 안에 있다는 사실조차 몰랐습니다.

크리스토퍼 놀란은 관객의 혼란을 완전히 무시하고, 오히려 즐기는 듯 2010년에 <인셉션 3>를 개봉했다. 꿈속의 꿈, 그 속의 꿈.

놀란 감독의 핵심 전제는 꿈이 정보를 추출하거나, 더 중요하게는 정보를 주입할 수 있는 통제 가능한 공간이라는 것이다.

하지만 그건 전부 공상과학 소설일 뿐이잖아요, 그렇죠?

1990년, 뮌헨 공과대학교의 젊은 연구원이었던 위르겐 슈미트후버는 『세상을 차별화하기』라는 책을 출판했습니다.

이 논문에서는 순환 신경망(RNN) 구축을 제안했는데, 이 신경망은 두 가지 역할을 수행합니다. 첫째, 시뮬레이션된 세계에서 다음에 무슨 일이 일어날지 예측하는 법을 학습하고, 둘째, 그 시뮬레이션된 세계를 사용하여 에이전트가 그 안에서 행동하도록 훈련시키는 것입니다.

에이전트는 "실제" 환경과 전혀 상호작용할 필요가 없습니다. 모델 내부에서, 꿈속에서 학습할 수 있습니다.

이듬해, 『 씁쓸한 교훈(Bitter Lesson) 』으로 유명한 리처드 서튼은 비슷한 아이디어를 떠올렸습니다. 그의 저서 『 다이나: 학습, 계획, 반응을 위한 통합 아키텍처(Dyna: an Integrated Architecture for Learning, Planning, and Reacting)』에서 그는 학습, 계획, 반응이 분리된 시스템이 되어서는 안 된다고 주장했습니다. 이들은 하나의 아키텍처로 통합되어야 한다는 것입니다. 즉, 이론적으로 세상의 모델을 구축하고, 그 안에서 연습한 후, 학습한 내용을 현실에 적용하는 것이 가능하다는 의미입니다.

두 논문 모두 선구적인 내용을 담고 있었습니다. 해당 분야의 발전으로 연구자들의 비전이 현실이 되면서 두 논문은 지속적인 영향을 미쳤습니다. 하지만 발표 당시에는 두 논문 모두 공상 과학 소설처럼 들렸을지도 모릅니다.

1990년 당시 전 세계 컴퓨팅 자원은 지금보다 약 100조에서 1경 배 정도 적었습니다. 그 당시 전 세계 총 처리 능력은 기껏해야 10~100기가플롭스(GFLOPS) 정도였을 것입니다. 2024년 한 해에만 수십 제타플롭스(10^22 FLOPS)에 달하는 컴퓨팅 성능이 판매되었습니다. 1990년 전 세계 디지털 데이터 용량은 약 10페타바이트(PB)였는데, 이는 현재 우리가 단일 학습 실행에 사용하는 비디오 데이터의 0.005%에도 미치지 못하는 매우 작은 용량이었습니다. 2026년에는 이 용량이 2,200만 배 증가하여 221제타바이트에 이를 것으로 예상됩니다.

하지만 기술은 발전하고, 가장 강력한 꿈은 사라지지 않습니다.

거의 30년 후인 2018년 3월, 데이비드 하(당시 구글 브레인 소속)와 슈미드후버는 '세계 모델(World Models)' 이라는 제목의 논문을 발표했습니다. 4

논문은 " 에이전트가 자신의 꿈속에서 학습할 수 있을까?" 라는 질문을 던졌습니다.

Ha와 Schmidhuber는 자신들의 질문에 답하기 위해 세 가지 구성 요소로 이루어진 가상의 시스템을 구축했습니다. 이 시스템은 원시 픽셀 관측값을 압축된 표현으로 변환하는 비전 모델(V) , 메모리 모델(M) , 다음에 무슨 일이 일어날지 예측하도록 학습하는 순환 신경망, 그리고 V와 M의 출력만을 기반으로 무엇을 할지 결정하는 소형 컨트롤러(C) 로 구성됩니다.

세계 모델은 V + M으로 구성되었으며, 관찰 결과를 입력받아 그럴듯한 미래를 상상할 수 있었습니다. 제어자는 에이전트 또는 정책 이었으며, 어떤 행동을 취할지 선택했습니다.

이 논문은 수 세기 동안 이어져 온 사고 실험, 소설, 영화들과의 대화에 참여했다. 꿈이 현실일 수도 있고, 현실이 꿈일 수도 있다. 그런데 만약 우리가 꿈속에서 실제로 행동할 수 있다면 어떨까? 그것은 현실에 어떤 영향을 미칠까?

하와 슈미드후버는 자동차 경주 게임과 1인칭 슈팅 게임에서 얻은 관찰 데이터를 바탕으로 월드 모델을 훈련시켰습니다. 월드 모델은 새로운 디지털 세계를 생성했습니다. 그런 다음, 에이전트가 월드 모델이 만들어낸 환각적인 꿈속에서 완전히 연습하도록 했습니다. 이후, 학습된 정책을 실제 환경으로 옮겼습니다.

그리고… 효과가 있었다. 에이전트는 현실에서는 결코 접해보지 못했던 과제들을 해결할 수 있었다. 꿈은 충분히 현실이 된 것이다.

컴퓨터 과학적인 관점에서 보면 충격적인 일이었다. 하지만 정말 그렇게 놀라운 일이었을까? 인간은 원래 이런 식으로 세상을 살아가는 것 아닌가?

하와 슈미드후버는 인간이 끊임없이 머릿속에서 세계 모델을 실행한다고 지적했습니다. 시속 160km의 강속구를 상대하는 야구 선수는 공의 위치를 알려주는 시각적 신호가 뇌에 도달하기도 전에 어떻게 스윙할지 결정해야 합니다. 모든 타석이 삼진으로 끝나지 않는 이유는 타자가 현실에 반응하는 것이 아니라, 뇌의 "내부 세계 모델"이 예측하는 공의 위치에 반응하기 때문입니다.

캘리포니아 대학교 어바인 캠퍼스의 인지과학 교수인 도널드 호프만은 이러한 아이디어를 한 단계 더 발전시켰습니다. 그는 우리 모두가 양자 세계의 엄청난 복잡성을 사용자 친화적인 인터페이스로 단순화하는 "현실 헤드셋"을 착용하고 다닌다고 믿습니다. 현실은 너무나 풍부하기 때문에 우리는 일종의 지속적인 깨어있는 꿈을 통해 현실을 탐색한다는 것입니다.

이 이야기는 당신이 원하는 만큼 깊이 파고들 수 있지만, 결국 끝까지 월드 모델과 관련되어 있습니다.

하와 슈미드후버는 컴퓨터가 우리처럼 세상에 접근할 수 있다는 것을 보여주었습니다. 즉, 행동을 기반으로 미래 상태를 예측하는 시뮬레이션을 만들고, 그 예측에 따라 행동하고, 업데이트하고, 이 과정을 반복하는 것입니다.

말보다 행동이 중요하다.

언어만으로는 충분하지 않습니다 (코드도 마찬가지입니다).

게임 한 판 하자.

손뼉을 다섯 번 치세요.

자, 이제 실제로 손뼉을 치는 대신, 말로 손뼉을 치는 것을 묘사해 보세요.

손이 공간에서 어디에 위치하는지, 서로 어떤 상대적인 위치에 있는지, 이 모든 것을 피코초 단위로 생각하세요. 손이 닿는 지점, 소리, 손이 서로 가까워지고, 닿고, 떨어질 때 손의 모양, 손이 서로 눌리는 방식, 두 손바닥 사이의 공기는 어떻게 되는지, 손뼉을 칠 때 보이는 것까지 모두 기억하세요. 팔도 잊지 마세요. 손뼉을 치기 위해 팔은 어떻게 구부러지나요? 이 모든 것을 피코초 단위로 생각해야 합니다. 소매의 천은 어떻게 반응하나요? 배경에서는 무슨 일이 일어나고 있나요? 옆 사람이 당신이 손뼉 치는 것을 알아챘나요? 그 사람은 어떻게 반응했나요? 회의 중에 집중해야 할 시간에 읽지 말아야 할 에세이의 지시대로 손뼉을 쳐서 해고당한 적이 있나요? 상사의 이마에 있는 핏줄을 묘사해 보세요. 튀어나오고 있나요?

그럴 수 없겠죠? 자, 이제 그만. 요점은 전달됐습니다.

언어는 현실을 엄청나게 손실하는 압축 방식이다.

물론 언어는 중요합니다. 언어는 우리가 소통하고 협력하는 수단이니까요. 몸짓 게임(Charades)은 아이디어를 전달하는 데 있어 언어가 행동보다 훨씬 효율적일 수 있음을 보여줍니다. 언어 학습 모델(LLM)은 바로 그런 점에서 중요합니다. 하지만 언어만으로는 충분하지 않습니다.

코드는 어떻습니까? 코드는 기계가 어떤 작업을 수행하도록 만드는 매우 정밀한 언어의 한 형태입니다.

클로드에게 "실제 환경에서 손뼉을 다섯 번 치는 시뮬레이션을 코딩해 줘"라고 부탁했더니, 이런 결과물이 나왔습니다. 보기만 해도 고통스러워 보이네요.

규모가 커지면 언어와 코드가 모든 시공간적 지능 문제를 해결하고 인공 일반 지능(AGI) 또는 인공 초지능(ASI)을 만들어낼 수 있을 것이라는 믿음이 있습니다.

일부에서는 코드가 모든 물리적 형태에 정확하고 완벽하게 명령을 내릴 수 있기 때문에 현실 세계의 많은 지능적 문제를 해결하는 열쇠라고 주장합니다.

우리는 그러한 생각에 동의하지 않습니다. 코드 기반 시뮬레이션은 꿈의 불완전한 버전일 뿐입니다. 규칙에 얽매여 현실의 확률적 혼란을 처리할 수 없습니다.

세상을 알기 위해서는 세상과 상호작용해야 한다.

1946년 노벨 문학상을 안겨준 헤르만 헤세의 소설 『유리구슬 게임 』(Das Glasperlenspiel) 에서 독자들은 순수 사상에 헌신하는 미래의 지적 유토피아, 카스탈리아를 만나게 됩니다. 카스탈리아의 중심에는 모든 인류 지식을 하나의 형식 언어로 통합한 정교한 게임, 바로 제목과 같은 유리구슬 게임이 있습니다. 플레이어들은 마치 푸가를 작곡하듯 "게임"을 구성합니다. 한 번의 움직임으로 바흐 칸타타와 수학적 증명, 공자의 구절을 연결할 수도 있습니다. 이 게임은 궁극적인 추상화이며, 인류 문화 전체가 상징적 조작으로 압축된 것입니다.

주인공 요제프 크네히트는 카스탈리아에서 가장 높은 지위인 '게임의 달인', 즉 '마기스테르 루디'의 자리에 오르지만, 점차 환멸을 느낀다. 그 화려함에도 불구하고 게임은 무의미 하기 때문이다. 카스탈리아의 지식인들은 추상적인 세계에 너무 깊이 빠져들어 현실과의 접촉을 잃어버렸다. 그들은 현실을 놀라울 정도로 우아 하게 표현할 수는 있지만, 현실 속에서 행동할 수는 없다.

결국 크네히트는 카스탈리아를 떠나 평범한 가정교사가 되기로 결심한다. 그는 완벽한 상징의 세계 대신 혼란스럽고, 현실적이며, 예측 불가능한 세계를 선택한다. 그는 자신의 삶을 게임에 바쳤는데, 그 게임의 숙달은 언어를 초월한 추상적인 차원, 즉 세계를 모델링하는 것과 같은 차원에서 이루어지는 것이었다. 하지만 그것만으로는 충분하지 않았다. 현실과의 접촉이 없는 상징만으로는 결국 한계에 부딪히게 마련이다.

대규모 언어 모델은 우리 시대의 카스탈리아인과 같습니다. 이들은 기호를 정교하게 조작하여 인류가 보유한 모든 텍스트 지식의 연결고리를 찾아낼 수 있습니다. 물리학을 논하고, 시를 짓고, 코드를 작성하고, 야구 규칙을 설명할 수도 있습니다. 진정으로 인류 역사상 가장 위대한 지적 성취 중 하나입니다.

하지만 그들은 전적으로 표현의 영역에서만 활동합니다. 그들은 박수를 칠 수는 있지만, 직접 박수를 칠 수는 없습니다. 그들은 중력에 대해 이야기 할 수는 있지만, 어린아이가 중력을 아는 것처럼 중력을 알지는 못합니다. 그들은 몸이 수천 번의 넘어지고 비틀거리는 과정을 통해 "아래"가 무엇을 의미하는지 배우는 것처럼 배우지 못합니다.

언어 모델은 다음 토큰을 놀라울 정도로 정확하게 예측합니다. 유일한 문제는 토큰이 플라톤의 동굴 벽에 드리워진 그림자와 같다는 점입니다. 마치 묘사를 통해 경기장의 관중을 현실적으로 표현할 수 없는 것처럼, 코딩만으로는 현실적인 경기장 관중을 구현할 수 없습니다.

현실 세계는 계산 불가능한 것이다 . (혹은 과거에는 그랬다 .)

인류의 가장 강력한 발명품 두 가지인 언어와 코드가 우리 세계를 표현하기에 부족하다면, 우리에게 남은 것은 무엇일까요?

AI2 (앨런 인공지능 연구소)는 마이크로소프트 공동 창립자였던 고(故) 폴 앨런이 설립하고 자금을 지원하는 비영리 단체입니다. AI2는 훌륭한 오픈 소스 연구와 도구 개발을 진행하며, 최근에는 "시뮬레이션으로만 학습된 로봇 공학용 오픈 모델 제품군"인 몰모봇(MolmoBot)을 출시했습니다.

"저희 연구 결과는 시뮬레이션에서 실제 상황으로의 제로샷 전송을 통한 조작이 가능하다는 것을 보여줍니다."라고 그들은 트윗했습니다 .

이 프로젝트에 참여한 프린스턴 대학교 교수이자 구글 딥마인드 연구원인 드루브 샤는 다음과 같이 말했습니다 . "시뮬레이션이 용이한 작업 범위 내에서, 순수하게 시뮬레이션으로만 학습된 정책이 수천 시간의 실제 데이터로 학습된 최첨단 VLA보다 우수한 성능을 보였습니다!"

이는 상당히 놀라운 발견입니다. 우리 연구팀과 더 나아가 세계 모델 분야 전반의 주요 목표 중 하나는 시뮬레이션하기 쉬운 과제의 범위를 확장하는 것입니다.

작동 방식은 다음과 같습니다. 먼저, 월드 모델은 현실적인 환경과 미래 상태를 상상합니다. 이상적으로는 실제 세계와 가상 세계에서 훈련받은 방식대로 행동이나 지시에 반응하는 모델을 만들어야 합니다. 다음으로, 에이전트를 생성된 월드에 투입하여 훈련합니다. 마지막으로, 에이전트를 실제 환경으로 다시 가져와 학습한 내용을 테스트합니다.

이것이 바로 Ha와 Schmidhuber가 2018년에 입증한 내용이며, 이 분야의 핵심적인 약속으로 남아 있습니다.

세계 모델은 어떻게 구축되는가

월드 모델은 비교적 역사가 짧습니다. 어떤 단일 접근 방식이나 그 조합도 다른 방식보다 월등히 우수하다고 입증되지 않았기 때문에, 범용 월드 모델의 최종 아키텍처는 여전히 미해결 과제로 남아 있습니다. 하지만 학습에 있어 반복적으로 활용 가능한 요소들은 존재합니다.

데이터, 즉 방대한 양의 관찰 데이터부터 시작하세요 . 관찰 데이터는 종종 관찰 결과를 생성한 행동 데이터와 함께 제공됩니다. 이러한 데이터 쌍은 여러 가지 방식으로 이루어질 수 있습니다. 관찰 데이터(일반적으로 비디오)는 사전에 수집되고, 행동 데이터는 관찰 데이터와 함께 기록되거나, 사후에 다른 모델을 통해 추론될 수 있습니다. 또는, 모델 자체가 직접 행동을 수행하여 환경과의 직접적인 상호작용을 통해 자체적인 관찰 데이터와 행동 데이터를 생성함으로써 학습할 수도 있습니다.

훈련 데이터가 관찰 데이터나 비디오인 경우 , 원본 프레임은 시간에 따라 변화하는 환경의 관찰 데이터 역할을 합니다. 이러한 비디오에는 이상적으로는 비디오를 생성한 동작이 레이블링되어 있어야 합니다(동시에 녹화되었거나 별도의 AI 모델을 통해 추론된 경우). 동작은 인과 관계를 제공합니다. 즉, 환경 변화를 일으킨 행위가 무엇인지 알려줍니다. 예를 들어, 플레이어가 왼쪽으로 방향을 틀자 카메라가 복도를 비추는 게임 플레이 영상, 핸들을 돌리자 차가 곡선을 따라가는 운전 영상, 로봇 팔이 움직여 컵이 이동하는 원격 조작 영상 등이 있습니다. 각 사례에서 모델은 '이전', '동작', '이후'를 인식합니다.

모델이 상호작용을 통해 학습할 때 , 이전, 행동, 이후라는 동일한 구조가 적용되지만, 데이터는 사전에 수집되는 것이 아니라 실시간으로 생성되며, 행동은 외부 소스가 아닌 모델 자체의 개발 정책에서 비롯됩니다.

월드 모델의 핵심 목표는 변함없이 현재 상태와 주어진 행동 또는 지시를 바탕으로 다음 상태를 예측하는 것입니다. 월드 모델은 프레임 t 와 행동 a 를 보고, 프레임 t+1의 상태를 생성하려고 시도합니다.

하지만 모든 것을 픽셀 단위로 예측하는 것은 비용이 많이 들고 비효율적인 경우가 많습니다. 비디오 프레임 안의 대부분은 순간순간 변하지 않습니다. 벽은 제자리에 있고, 하늘은 여전히 하늘입니다. 그리고 프레임 안의 세부 정보 대부분은 불필요합니다. 하늘의 색깔이나 벽의 질감 같은 것들은 더 간결한 형태로 표현할 수 있습니다.

따라서 현대 세계 모델은 잠재 공간 , 즉 가장 필수적인 정보만 유지되는 압축되고 학습된 표현을 포함합니다.

비주얼 인코더는 각 프레임을 압축하여 간결한 벡터(장면의 수학적 특징)로 변환하고, 모델은 동작에 따라 다음 특징 벡터를 예측하도록 학습합니다. 즉, 4K 프레임의 모든 픽셀을 예측하는 것이 아니라, 동작에 반응하여 다음 특징을 예측하는 것입니다. 바로 이 부분에서 계산 효율성이 향상됩니다.

세계의 진화를 정확하게 모델링하려면 세계 모델은 발생 가능한 모든 결과들을 표현할 수 있어야 합니다. 이러한 결과의 불확실성을 일반적으로 환경의 확률성 이라고 합니다.

세계 모델은 아직 알지 못하는 것(인식적 불확실성: 예를 들어, 신호등을 본 적이 없는 모델은 노란불 다음에 빨간불이 온다는 것을 알지 못합니다)과 본질적으로 알 수 없는 것(확률적 불확실성: 주사위를 굴리는 것과 같은 무작위성)을 헤쳐나가는 방법을 배워야 합니다.

모델이 환경의 행동에 대해 알 수 있는 모든 것을 학습했더라도(즉, "인식적" 불확실성을 최소화했더라도), 다음에 무슨 일이 일어날지에 대해서는 거의 항상 내재적인 불확실성("확률적" 불확실성)이 존재합니다. 이는 일반적인 세계 상태의 변화를 예측할 수만 있으면 좋은 성능을 발휘하는 순수 엔터테인먼트 비디오 모델과는 대조적입니다.

만약 자동차가 코너를 도는 것을 예측하기 위해 단순한 예측 방식(예를 들어, 평균 제곱 오차(MSE)로 학습된 모델)을 사용한다면, 모델은 모든 가능한 결과를 평균화하기 때문에 '흐릿해질' 수 있습니다. 자동차는 좌차선에 머무를 수도 있고, 우차선으로 합류할 수도 있습니다. 실제로 오차를 최소화하는 궤적은 자동차가 두 차선의 중간에 머무르는, 있을 법하지 않은 궤적입니다. 이것이 바로 모델이 흐릿해지는 이유이며, 모델마다 이를 처리하는 방식이 다릅니다.

확산 모델은 결과로 점진적으로 확산함으로써 이러한 문제를 피하며, 모든 가능성을 평균화하는 대신 결과 분포의 특정 모드에 전념하고 명확하고 그럴듯한 미래를 샘플링할 수 있도록 합니다.

결과 변수당 여러 토큰을 사용하는 자기회귀 모델은 다중 모드도 처리할 수 있습니다. 토큰을 순차적으로 샘플링함으로써 미래 토큰 예측이 이전 예측과 일관성을 유지하도록 합니다.

반면 JEPA 스타일 아키텍처는 흐릿함을 단순히 회피하는 방식으로 해결합니다. JEPA는 픽셀 공간으로 디코딩하지 않기 때문에 흐릿함 분포를 명시적으로 모델링할 필요가 거의 없습니다. 이러한 모델은 프레임을 예측하는 것이 아니라 하위 작업에 유용한 표현을 개발하는 데 목적이 있기 때문에 평균화가 덜 심각한 영향을 미치는 공간에서 작동합니다.

이 과정의 결과물은 필요한 것에 따라 달라집니다. 예를 들어, 시각적 세계 시뮬레이터, 즉 보고 탐색할 수 있는 무언가를 구축하려는 경우, 잠재적인 예측값을 시각적 디코더를 통해 픽셀로 다시 디코딩하여 그럴듯한 미래를 보여주는 가상 영상을 생성합니다. 구글 딥마인드와 월드랩의 데모 영상이 현실적이고 인상적으로 보이는 이유가 바로 이것입니다.

월드 모델을 학습시키는 데에는 여러 가지 접근 방식이 있습니다. 이러한 접근 방식들과 그것들이 어떻게 발전해 왔는지, 그리고 이 분야의 8년이라는 짧은 현대사를 통해 어떻게 서로 영향을 주고받으며 구축되었는지 곧 살펴보겠습니다.

지금은 다음 사항을 명심하십시오. 관찰 데이터와 해당 관찰에서 발생한 상황을 야기한 행동들을 결합하여 월드 모델을 학습시켜 다음 상태를 예측하고, 에이전트를 학습시켜 해당 월드에서 다음 행동을 예측합니다.

행동이 궁극적인 압축 형태인 이유

월드 모델의 핵심적인 통찰은 바로 행동이 궁극적인 압축 형태라는 점입니다.

물웅덩이를 피하기 위해 왼쪽으로 발을 내딛기로 결정했을 때 어떤 일이 일어나는지 생각해 보세요. 뇌는 시각적 장면(인도, 물웅덩이, 주변 사람들, 연석, 다가오는 버스)을 처리하고, 가까운 미래를 예측하고(물웅덩이는 움직이지 않을 것이고, 버스는 지나갈 것이며, 뒤에 있는 사람은 계속 걸어갈 것이다), 여러 선택지(왼쪽으로 발을 내딛기, 오른쪽으로 발을 내딛기, 점프하기, 젖은 신발을 감수하기)를 평가한 후 하나를 선택합니다.

외부 관찰자는 당신의 머릿속을 들여다볼 수 없고, 당신이 정확히 무슨 생각을 하고 있었는지, 무의식적으로 무엇을 처리하고 있는지 알 수 없습니다. 당신이 피곤한지, 서두르고 있는지도 모릅니다. 당신의 도덕률이나, 당신이 구체적으로 트롤리 문제에 어떻게 답할지 알지 못합니다. 하지만 그럴 필요도 없습니다. 그들은 거의 즉각적으로 이루어지는 모든 계산의 결과만 볼 뿐입니다. 왼쪽으로 한 걸음.

제게 그것은 마법과도 같습니다.

물론 모든 사람이 올바른 결정을 내리는 것은 아닙니다. 영상을 앞으로 재생하면 그 결과도 알 수 있습니다. 왼쪽으로 발을 디디면 더 큰 물웅덩이에 빠지고, 왼쪽으로 발을 디디면 차에 치이고, 왼쪽으로 발을 디디면 유모차에서 아기를 떨어뜨립니다. 수십억 번의 관찰과 지시, 행동을 통해 우리는 인간이 입력에 따라 어떻게 반응하는지뿐만 아니라 그 결정의 결과까지도 학습합니다. 집단 세계 모델은 그 어떤 개인보다도 더 똑똑하게 행동하는 법을 학습합니다.

이제 개개인의 관점으로 돌아가 보겠습니다. 만약 누군가의 관찰과 행동의 흐름을 완벽하게 재구성할 수 있다면, 그 사람이 현실과 상호작용한 거의 모든 기록을 얻을 수 있을 것입니다. 그들이 무엇을 보았고, 그에 대해 무엇을 했는지 알 수 있겠죠. 월드 모델은 바로 이러한 매핑을 학습합니다. 공간과 시간을 압축하여 간결한 표현으로 만든 다음, 행동을 통해 다음에 일어날 일을 펼쳐냅니다. 이것이 바로 월드 모델이 계산 효율성이 매우 높은 이유입니다.

이는 월드 모델이 기존 시뮬레이션으로는 처리할 수 없는 확률적 요소를 다룰 수 있는 이유와도 같습니다. 그 이유를 이해하기 위해 월드 모델의 작동 방식에 대한 새로운 이해를 바탕으로 맨유와의 경기를 다시 살펴보겠습니다.

기존 시뮬레이션 엔진에서는 가능한 모든 행동을 코드로 구현해야 합니다. 예를 들어, 수천 명의 축구 팬들이 골에 대해 현실적으로 반응하도록 하려면 각 반응 유형에 대한 규칙을 작성해야 합니다. 이러한 계산 비용은 에이전트 수와 상호작용의 복잡성에 비례하여 증가합니다.

월드 모델에서는 비용이 신경망 한 번의 통과로 고정됩니다. 확률적이고 예측 불가능하며 혼란스러운 인간의 현실은 이미 학습된 가중치에 반영되어 있고, 모델 학습에 사용된 수백만 시간의 비디오 데이터에서 흡수되었습니다. 이 모델은 군중이 어떻게 행동해야 하는지를 계산하는 것이 아니라, 군중이 실제로 어떻게 행동하는지를 관찰하고 그 정보를 바탕으로 가능성 있는 예측을 내놓는 것입니다.

이것이 바로 제가 월드 모델을 '계산 불가능한 것을 계산하는 도구'라고 부르는 이유입니다. 전통적인 컴퓨팅은 결정론적입니다. 즉, 알려진 입력, 알려진 규칙, 알려진 출력이 있습니다. 하지만 현실 세계는 결정론적이지 않기 때문에 월드 모델은 이러한 것들을 코드로 구현하려고 시도조차 하지 않습니다. 월드 모델은 관찰하고, 학습하고, 행동하며, 시나리오가 얼마나 복잡해지든 상관없이 고정된 계산 비용으로 처리합니다.

세계 모델 및 정책

더 나아가기 전에 한 가지 더 구분해야 할 사항이 있는데, 이는 세계 모델에 대한 일반적인 대화에서 혼동되기 쉬운 부분입니다.

월드 모델은 환경을 시뮬레이션한 것으로, 사용자의 행동을 입력받아 예측된 결과를 생성합니다. 즉, 어떤 행동을 했을 때 어떤 결과가 나타날지 보여줍니다.

정책은 해당 환경 내에서 작동하는 에이전트의 두뇌와 같습니다. 관찰 내용(그리고 종종 지시 사항)을 입력받아 행동을 결정하고, 무엇을 해야 할지 결정합니다.

세계 모델은 꿈이다. 정책은 꿈꾸는 자이다. 꿈꾸는 자가 행동하고, 꿈은 그에 반응한다. 꿈이 반응하면 꿈꾸는 자가 행동한다.

실제로 둘 사이의 관계는 그러한 구분이 시사하는 것보다 훨씬 더 밀접하고 복잡하게 얽혀 있습니다. 최근 연구에서는 월드 모델을 기반으로 정책을 학습시키거나 처음부터 함께 구축하는 방식을 조사했습니다. 먼저 다음에 무슨 일이 일어날지 예측하는 방법을 학습한 시스템인 월드 모델의 가중치를 사용한 다음, 미래 프레임이나 상태를 예측하도록 모델을 학습시키는 대신 미래 행동을 예측하도록 학습시키는 것입니다.

섹터:

바이낸스 런치풀

P2E(Play to Earn)

게이밍 길드