[서론] 엔비디아는 인공지능이 "라이브 스트리밍 시청"만으로 기본적인 게임 조작법을 학습할 수 있도록 했습니다. 가상 세계는 인공지능의 해킹 제국이 되었고, 4만 시간의 라이브 스트리밍 시청만으로 거의 모든 게임을 학습할 수 있게 되었습니다!
우리 모두가 알다시피, 테슬라의 FSD가 걸작으로 여겨지는 이유는 바로 그 핵심적인 "엔드 투 엔드" 하드코어 로직 때문입니다.
이 자동차는 더 이상 엄격하고 정밀한 지도나 센서에 의존하지 않고, 노련한 운전자처럼 작동합니다.
도로에 시선을 고정하고(시각적 입력), 발은 가속 페달에, 손은 핸들에 올려놓는 것(행동 출력).
자, 여기서 질문은 이것입니다. 이 논리를 게임 시나리오에 적용하고 인공지능이 이를 학습하게 하면 어떻게 될까요?
원리는 완전히 똑같습니다! 과거 인공지능이 게임을 할 때는 적의 위치를 파악하기 위해 배경 데이터를 읽거나 심지어 "꼼수"를 써야 했습니다.
그렇다면 실제 선수들은 어떤 모습일까요?
우리는 화면의 픽셀을 응시하고 (시각적 인지) , 두뇌를 작동시키며, 손가락으로 키보드를 두드리고 컨트롤러를 누릅니다 (조작) .
예를 들어, 페이커의 화면 전환 속도는 인간의 반응 속도 중 가장 빠른 축에 속합니다.
화면에서 마우스와 키보드로 직접 제어되는 이 장치는 게임계의 "FSD"라고 할 수 있습니다.
엔비디아가 최근 정말 무자비한 일을 저질렀습니다!
그들은 예상을 완전히 뒤엎는 '니트로젠(NitroGen) '이라는 새로운 모델을 출시했습니다.
- 프로젝트 주소: https://nitrogen.minedojo.org/assets/documents/nitrogen.pdf
이 모델은 게임 코드를 읽으며 자라지 않았습니다. 유튜브와 트위치에서 영상을 보며 자랐습니다.
컨트롤러 입력으로 플레이하는 영상을 4만 시간이나 봤어요 !
마치 매우 학구적인 "클라우드 게이머"가 다른 사람들이 어떻게 움직이는지 관찰하면서 다양한 게임에서 기본적인 공격과 이동 방법을 배우는 것과 같습니다.
RPG와 횡스크롤 플랫폼 게임 모두 구동할 수 있습니다.
"영상만 보고 어떻게 조작법을 배울 수 있죠? 스트리머가 어떤 버튼을 눌렀는지도 모르는데요."라고 질문하실 수도 있습니다.
이를 보면 엔비디아 연구원들의 창의성에 감탄하게 된다.
그들은 특히 "컨트롤러 오버레이"가 등장하는 유튜브와 트위치 영상을 찾아냈습니다.
네, 스트리머가 화면 구석에 작은 컨트롤러를 놓고, 버튼을 누르면 화면 속 컨트롤러에 불이 들어오는 그런 종류의 영상입니다.
NitroGen은 4만 시간 분량의 비디오 영상을 꼼꼼히 살펴보며 게임 내에서 일어나는 일(예: 링크가 검을 휘두르는 장면)과 컨트롤러 화면 모서리에 있는 어떤 버튼에 불이 들어오는지(예: X 버튼을 누르는 장면)를 분석했습니다.
마치 악보를 보지 않고 수만 편의 콘서트 영상을 보면서 기타를 배우고 싶어하는 사람이 어떻게든 "듣는 것"과 "손가락 움직임"을 일치시키려고 하는 것과 같아요!
이 일은 인공지능만이 할 수 있다.
전문화를 거부하고 다재다능한 만능 인재가 되십시오.
과거에는 게임 AI가 특정 장르에 특화되어 있는 경우가 많았습니다. 예를 들어 "Honor of Kings"를 잘하는 사람은 "Super Mario"를 잘할 수 없었죠.
하지만 NitroGen의 가장 큰 장점은 바로 "다재다능함"입니다.
이 시스템은 1,000 개가 넘는 다양한 게임에서 학습했습니다.
이는 일종의 "게임 직관"을 개발했다는 것을 의미할 수도 있습니다!
우리 인간이 게임을 할 때, 예를 들어 엘든 링 같은 두뇌 게임을 해본 적이 있거나 블랙 미스: 우콩 같은 새로운 액션 게임을 해본 적이 있다면, 비록 이 게임을 처음 접하더라도 왼쪽 스틱은 달리기용이고 오른쪽 버튼은 공격용이라는 것을 알 가능성이 높습니다.
테스트 데이터에 따르면 NitroGen을 이전에 접해본 적 없는 새로운 게임에 적용했을 때, 처음부터 학습시킨 모델 보다 52% 더 뛰어난 성능을 보였습니다.
액션 RPG든, 플랫폼 게임이든, 로그라이크든, 누구나 쉽게 배우고 즐길 수 있습니다.
다음 단계: 하이룰에서 현실 세계로
엔비디아의 이러한 움직임은 단순히 우리와 경쟁할 더 강력한 NPC를 만들기 위한 것일까요?
엔비디아의 야망이 전략적 비전보다 훨씬 커져 버렸습니다!
최근 게임에서 인공지능의 성능을 살펴보겠습니다.
디코더의 최신 연구에 따르면 인공지능이 이제 복잡한 추론 능력까지 갖추기 시작했다고 합니다.
연구진은 '젤다의 전설'에 나오는 색깔 변화 퍼즐을 이용해 최상위급 대규모 모델의 추론 능력에 대한 독특한 '스트레스 테스트'를 실시했습니다.
이 테스트에서는 모델이 인터넷 연결 없이 오직 스크린샷만을 기반으로 퍼즐을 해결하기 위한 6단계 계획을 세워야 합니다.
결과는 모델 간의 차이점을 명확하게 보여줍니다.
- GPT-5.2-Thinking은 놀라운 우위를 보여주며, 전체 분야를 빠르고 정확하게 장악했습니다.
- 구글의 제미니 3 프로는 문제를 해결할 수 있지만, 때때로 최대 42페이지에 달하는 추론 텍스트를 생성하며 장기간의 시행착오 루프에 빠지는 경우가 있습니다.
- 하지만 Claude Opus 4.5는 시각적 이해에 어려움을 겪었고 수학 공식의 도움을 필요로 했습니다.
저자는 이러한 강력한 추론 능력이 NVIDIA NitroGen과 같은 자율 에이전트 기술과 결합될 때 다음과 같은 미래를 예고한다고 믿습니다.
인간이 게임 가이드와 소프트웨어 설명서를 작성하는 시대는 저물고 있습니다. 인공지능이 우리가 안내 정보를 얻는 방식을 완전히 바꿔놓을 것입니다.
예를 들어, 젤다의 전설에서 6단계 이상의 예측이 필요한 색깔 변화 퍼즐도 이제 AI 모델을 이용하면 수학 문제를 푸는 것처럼 쉽게 해결할 수 있습니다.
NitroGen은 단순히 게임 플레이뿐만 아니라 게임 플레이를 녹화하고 검토하는 데에도 사용할 수 있어 한 단계 더 나아갑니다.
인공지능이 게임을 한 번만 플레이하고도 손쉽게 "플래티넘 트로피 가이드"를 작성하거나 게임 버그까지 자동으로 수정해주는 미래를 상상해 보세요. 이보다 더 바랄 게 있을까요?
(게임 사이언스의 "블랙 미스: 종규"에 AI 기술이 접목될 가능성이 매우 높아 보인다.)
하지만 황의 진정한 야망은 사실 코드 속에 숨겨져 있습니다. NitroGen은 NVIDIA의 GR00T(로봇 기본 모델)를 기반으로 구축되었습니다.
이 남자는 엄청난 야망을 가지고 있군요!
- 이 게임에서 로봇은 다음과 같은 것을 학습합니다. 절벽을 보고 -> 떨어질 것을 알고 -> 컨트롤러를 조작하여 절벽을 뛰어넘는 것.
- 실제로 이는 다음과 같은 상황에 해당합니다. 땅에 물웅덩이가 보이면 미끄러질 것을 예상하고, 로봇의 다리를 조종하여 물웅덩이를 넘어가는 것입니다.
가상 세계는 사실상 현실 세계에서 가장 효율적인 "훈련장"입니다.
엔비디아는 수백만 번의 시행착오를 거쳐 미래에 우리 집에 들어올 로봇들이 모든 종류의 혼란을 처리할 수 있도록 "범용 두뇌"를 개발하고 있습니다.
어쩌면 언젠가 당신이 팀원의 놀라운 실력에 감탄할 때, 화면 저편에 앉아 있는 사람이 실제로는 사람이 아닐지도 모릅니다.
사실 이건 컨트롤러를 들고 당신과 게임을 하는 진짜 로봇이에요!
게임은 현실이다
비디오 게임은 단순한 인공지능 테스트 도구에서 벗어나 신체 지능 훈련장으로 진화했습니다.
이는 게임 AI의 승리일 뿐만 아니라, 로봇 기술이 "모라벡 역설"을 극복하는 데 있어 중요한 전환점이기도 합니다.
"뇌"에서 "몸"으로의 도약
지난 10년 동안 인공지능 분야는 지각 지능에서 인지 지능으로 비약적인 발전을 이루었습니다.
하지만 대규모 언어 모델은 시를 쓰고, 코드를 작성하고, 심지어 변호사 시험에 합격할 수도 있지만, 물리적인 세계 대면 때는 종종 서투른 모습을 보인다.
튜링 테스트를 통과한 인공지능이라 할지라도 "컵을 식기세척기에 넣는" 가장 간단한 작업조차 로봇 팔로 제어하지 못할 수도 있습니다.
이것이 바로 유명한 "모라위크의 역설" 입니다. 컴퓨터에게 있어 논리적 추론과 같은 고차원 지능을 구현하는 데는 매우 적은 컴퓨팅 능력만 필요하지만, 지각과 움직임과 같은 저차원 지능을 구현하는 데는 막대한 컴퓨팅 자원이 필요하다는 것입니다.
체화된 지능은 이러한 문제를 해결하고자 합니다. 이는 지능형 에이전트가 단순히 "생각"하는 것뿐만 아니라 "몸"을 가지고 주변 환경과 물리적으로 상호작용할 수 있어야 함을 의미합니다.
오랫동안 체화된 지능의 발전은 두 가지 주요 병목 현상에 의해 제한되어 왔습니다.
- 데이터 부족
인터넷에는 수조 개의 텍스트 데이터가 있지만, 정확한 행동 태그가 포함된 로봇 데이터는 그에 상응하는 규모로 존재하지 않습니다.
- 일반화의 어려움
기존의 강화 학습(RL) 알고리즘은 일반적으로 특정 환경(예: 바둑판이나 특정 공장 조립 라인)에서만 우수한 성능을 보이며, 환경이 조금이라도 변하면 모델이 제대로 작동하지 못합니다.
게임은 현실의 시뮬레이터이다
2025년, 우리는 앞서 언급한 병목 현상을 극복할 수 있는 완전히 새로운 길을 보았습니다. 바로 비디오 게임을 현실 세계와 연결하는 다리로 활용하는 것입니다 .
이 게임은 풍부한 시각적 환경, 복잡한 물리 법칙, 명확한 임무 목표를 제공하며, 본질적으로 디지털 방식이므로 확장성이 뛰어납니다. 더욱 중요한 것은 게임 세계의 "인지-결정-행동"이라는 폐쇄 루프가 실제 로봇의 그것과 완벽하게 동일하다는 점입니다.
복잡하고 예측 불가능한 현실 세계에서 실체를 가진 지능형 에이전트가 생존하기 위해서는 조건반사만으로는 충분하지 않습니다.
깊이 있는 추론 능력과 계획 능력을 갖춰야 합니다.
젤다 컬러볼 퍼즐 챌린지
이 퍼즐은 젤다의 전설 시리즈 게임에서 유래했습니다. 규칙은 간단해 보이지만, 실제로는 상당한 논리적 사고력을 요구합니다.
- 장면
빨간색과 파란색 구체로 이루어진 격자.
- 규칙
구체를 클릭하면 해당 구체와 위, 아래, 왼쪽, 오른쪽에 있는 구체의 색상이 바뀝니다(빨간색에서 파란색으로, 파란색에서 빨간색으로).
- 목표
일련의 버튼을 클릭하여 모든 구체를 파란색으로 바꾸세요.
이 문제의 핵심은 제약 조건 만족 문제 또는 그래프 이론 문제입니다.
그 복잡성은 상태 공간의 조합적 폭발과 연산의 비가역성에 있다.
플레이어는 현재 수의 이득에만 집중해서는 안 되며, 앞으로 몇 수 동안 상황이 어떻게 변할지 예측해야 합니다.
이는 미래를 내다보는 탁월한 계획 능력 , 즉 머릿속에 "의사결정 트리"를 구축하고 다양한 분기의 결과를 추론하는 능력을 요구합니다. 이는 바로 인간 인지 심리학에서 정의하는 "시스템 2" 사고방식, 즉 느리고 차분하며 논리적인 사고방식입니다.
디코더의 심층 분석에 따르면:
현재 최고의 AI 모델들은 이러한 과제를 대면 에서 세대 간 상당한 차이를 보이고 있으며, 이는 인공지능 에이전트의 "두뇌"로서의 잠재력을 직접적으로 반영합니다.
GPT-5.2-Thinking의 성공은 단순히 퍼즐을 해결한 데 그치지 않고, 알고리즘의 내면화 경향을 보여준다는 점에서도 드러납니다.
예를 들어, 로봇이 물건이 어수선하게 쌓인 테이블을 대면 때, 마치 젤다 퍼즐을 푸는 것처럼 머릿속으로 예행연습을 할 수 있습니다. "맨 아래에 있는 책을 먼저 집으면 위에 있는 컵이 넘어질 테니, 컵을 먼저 옮겨야겠다."
이러한 기능은 "자동화된 기계"에서 "자율적인 지능형 에이전트"로의 전환에 핵심적인 요소입니다.
GPT-5.2가 "무엇을 생각해야 하는가"라는 문제를 해결했다면, NVIDIA의 NitroGen 모델은 "어떻게 생각해야 하는가"라는 문제를 해결했습니다.
NitroGen의 출시로 인터넷 규모의 데이터를 활용하여 일반적인 동작 제어 전략을 훈련하는 로봇 학습 분야에서 "ImageNet 시대"가 시작되었습니다.
NitroGen 팀은 게임 라이브 스트리밍에서 흔히 볼 수 있는 입력 오버레이를 활용하는 매우 독창적인 "데이터 마이닝" 전략을 제안했습니다.
이 전략의 탁월함은 비지도 비디오 데이터를 지도 시각-행동 쌍으로 즉시 변환할 수 있다는 점에 있습니다.
NVIDIA는 이 기술을 사용하여 1,000개 이상의 게임에 대한 40,000시간 분량의 데이터를 포함하는 NitroGen 데이터 세트를 구축했습니다.
이는 로봇 학습 분야에서 전례 없는 규모입니다.
시뮬레이션 레이어: 로봇의 "매트릭스"로서의 월드 모델
영화 매트릭스에서 네오는 가상 세계에서 쿵푸를 배웁니다.
로봇에게 있어 세계 모델은 그들의 "매트릭스"와 같습니다.
로봇이 극도로 현실적인 가상 세계에서 초당 수천 번의 시행착오를 거칠 수 있다면, 그 진화 속도는 물리적 시간의 한계를 훨씬 뛰어넘을 것이다.
위의 분석을 바탕으로, 게임을 통해 범용 지능형 에이전트를 구현하는 경로는 실현 가능할 뿐만 아니라, 이미 구체적인 형태를 갖추기 시작했다고 볼 수 있다.
이러한 학습 경로는 "게임에서 조작법을 배우고, 시뮬레이션에서 물리 법칙을 배우고, 현실에서 적응하는 법을 배우는 것"으로 요약할 수 있습니다.
미래의 범용 지능형 에이전트는 필연적으로 계층형 아키텍처를 갖게 될 것입니다.
- 최상위 레벨(두뇌)
GPT-5.2와 유사한 추론 모델이 장기 계획, 논리 퍼즐, 그리고 인간의 지시를 이해하는 역할을 담당합니다.
- 중간층(소뇌)
NitroGen의 일반 전략 모델과 유사하게, 이 부분은 방대한 양의 비디오 데이터에서 얻은 "움직임 직관"을 활용하여 고수준의 명령을 구체적인 동작 궤적으로 변환하는 역할을 합니다.
- 기저층(척수)
GR00T 기반의 고주파 전신 제어기는 특정 모터 토크 출력 및 균형 유지를 담당합니다.
밝은 전망에도 불구하고, 해결해야 할 몇 가지 핵심적인 문제가 여전히 남아 있습니다.
- 촉각 피드백 부족
게임과 비디오는 주로 시각적, 청각적 정보만을 제공하며 촉각적 피드백이 부족합니다. NitroGen은 "물체의 무게"나 "표면의 미끄러움"을 학습할 수 없습니다.
- 고정밀 작동
현재의 비전-모션 모델은 걷기나 큰 물체 잡기와 같은 대략적인 움직임에는 우수한 성능을 보이지만, 바늘에 실을 꿰거나 정밀 조립과 같이 밀리미터 수준의 정밀도가 요구되는 작업에는 여전히 부족합니다. 이러한 작업에는 고해상도 시각 인코더 또는 특수 정밀 가공 전략이 필요할 수 있습니다.
- 안전 및 윤리
로봇이 자율적인 계획 기능을 갖추게 되면, 로봇의 목표 함수가 인간의 가치관과 일치하도록 어떻게 보장할 수 있을까요? 예를 들어, "설거지해"라는 명령을 받았을 때 로봇이 "접시를 깨뜨리고 싱크대를 최대한 빨리 비워라"라고 해서는 안 됩니다.
게임은 더 이상 단순한 오락거리가 아닙니다. 게임은 인류가 인공지능을 위해 만들어 놓은 요람입니다.
이 요람에서 AI는 계획 수립(젤다), 제어(니트로젠), 그리고 세상의 물리 법칙(코스모스)을 배웠습니다.
그들이 요람을 떠나 프로젝트 GR00T의 몸에 들어가게 될 때, 우리는 진정한 물리적 지능의 탄생을 목격하게 될 것입니다.
이는 기술의 승리일 뿐만 아니라, 인류가 가상 세계를 창조함으로써 현실 세계에 기여할 수 있는 다양한 가능성을 궁극적으로 보여주는 사례입니다.
참고 자료:
https://the-decoder.com/a-zelda-puzzle-proves-ai-models-can-crack-gaming-riddles-that-require-thinking-six-moves-ahead/
https://the-decoder.com/nvidia-wants-to-create-universal-ai-agents-for-all-worlds-with-nitrogen/
이 글은 위챗 공식 계정 "뉴 인텔리전스" 에서 딩후이가 작성하고 36Kr의 허가를 받아 게재한 글입니다.




