엔비디아가 Lyra 2.0을 출시했습니다. Lyra 2.0은 단일 이미지에서 탐험 가능한 3D 세계를 생성하고, 공간적 기억 상실 및 시간적 왜곡 문제를 해결하며, 세계 모델을 학습합니다.

이 기사는 기계로 번역되었습니다

원문 표시

사진 앞에 서서 버튼을 누르는 모습 을 상상해 보세요 . 카메라가 앞으로 움직이기 시작하고, 복도, 모퉁이, 로비가 하나씩 나타납니다. 각 프레임은 이전 프레임과 기하학적으로 정확하게 정렬되어, 마침내 건물 전체가 즉시 렌더링 가능한 3D 모델로 생생하게 구현됩니다.

이는 NVIDIA 공간 지능 연구소에서 출시한 최신 오픈 소스 Lyra 2.0 의 최종 결과물입니다.

장거리 발전의 두 가지 치명적인 결함

기존 비디오 생성 모델은 시각적으로 정교한 짧은 클립을 제작할 수 있지만, "건물 전체를 돌아다니는" 것과 같은 상황으로 확장하려고 하면 품질이 급격히 저하됩니다. NVIDIA 연구팀은 이러한 현상의 근본 원인을 두 가지 서로 다른 품질 저하 메커니즘으로 파악했습니다.

첫 번째 유형은 "공간적 망각"입니다. 모델의 컨텍스트 창이 제한적이어서 카메라가 멀어지면 이전에 스캔했던 영역이 기억에서 사라집니다. 카메라가 다시 돌아오면 모델은 복도 조명의 위치가 바뀌거나 문틀의 비율이 맞지 않는 등 완전히 새로운 버전을 만들어낼 수밖에 없습니다.

두 번째 유형은 "시간적 편차"입니다. 자기회귀 방식으로 생성된 각 프레임은 이전 프레임을 기반으로 합니다. 미묘한 합성 오류가 점차 누적되어 수십 프레임이 지나면 장면의 색조와 질감이 완전히 달라집니다.

이 두 가지 문제가 결합되어 "먼저 비디오를 생성한 다음 3D를 재구성하는" 접근 방식은 장거리 시나리오에서는 거의 효과적이지 않습니다.

Lyra 2.0용 2분기 솔루션

공간적 기억상실 문제를 해결하기 위해 Lyra 2.0은 "공간 메모리" 메커니즘을 도입했습니다. 이 시스템은 각 프레임에 대한 3D 기하학적 정보를 프레임 단위로 유지합니다. 새로운 목표 시점이 나타나면, 시스템은 과거 프레임 중에서 목표 시점과 가장 많이 겹치는 프레임을 검색하고, 정규 좌표 투영을 정렬하여 밀집된 3D 대응 관계를 설정한 다음, 어텐션 메커니즘을 통해 DiT(Diffusion Transformer)에 주입합니다.

핵심은 기하학적 정보가 "위치" 파악에만 사용되고, 외형 합성은 여전히 생성적 사전 정보에 의해 완전히 처리된다는 점입니다. 이를 통해 모델은 새로운 구조를 무작정 만들어내지 않고도 시각적 풍부함을 유지할 수 있습니다.

시간적 편차 문제를 해결하기 위해 Lyra 2.0은 "자체 증강 학습"을 사용합니다. 학습 과정에서 모델 자체가 생성한 노이즈가 포함된 과거 프레임을 의도적으로 입력하여 모델이 "편차를 따르는 것"이 아니라 "편차를 감지하면 수정하는 것"을 학습하도록 합니다.

이 접근 방식은 학생들이 수업 시간에 스스로 시험지를 채점하는 것과 직관적으로 유사합니다. 자신의 실수를 직접 눈으로 확인해야만 오류를 바로잡는 능력을 기를 수 있기 때문입니다.

대화형 탐색 및 3D 내보내기

Lyra 2.0은 사용자가 누적된 포인트 클라우드를 즉시 확인하고 장면 내에서 다음 샷의 궤적을 수동으로 계획할 수 있는 대화형 GUI를 제공합니다. 여기에는 탐색했던 영역으로 돌아가거나 미지의 방향으로 탐험하는 것도 포함됩니다. 장면 생성은 점진적 아키텍처를 채택하여 사용자가 이동하는 위치에 따라 모델이 생성되므로, 시작하기 전에 전체 경로를 지정할 필요가 없습니다.

생성된 비디오 프레임은 피드포워드 재구성 모델을 통해 3D 가우시안 스플래팅(3DGS) 또는 삼각형 메쉬로 변환됩니다. 두 형식 모두 물리 엔진으로 직접 가져올 수 있습니다. NVIDIA는 장면을 Isaac Sim으로 내보내 로봇이 물리 기반 탐색 및 상호 작용 작업을 수행할 수 있도록 하는 시연을 진행했습니다.

해당 논문(arXiv:2604.13036)은 Apache 2.0 라이선스 하에 GitHub 에서 오픈 소스로 제공됩니다.
모델 가중치는 HuggingFace (nvidia/Lyra-2.0)에 게시되어 있습니다.

이 단계에 주목해야 하는 이유

지난 2년간 3D 세계 생성은 인공지능 기반 로봇 및 로봇 훈련의 핵심 인프라 요구 사항으로 자리 잡았습니다. 문제는 3D 생성 가능 여부가 아니라, 생성된 3D 공간이 충분히 크고 안정적이며, 로봇이 기하학적 구조의 충돌 없이 반복적으로 이동할 수 있는지 여부입니다.

Lyra 2.0의 두 가지 솔루션, 즉 기하학적 인덱스 메모리와 드리프트 오류 수정 학습은 이러한 병목 현상을 직접적으로 해결합니다. 더욱 중요한 것은 이 접근 방식이 오픈 소스로 공개되어 로봇 스타트업, 게임 엔진 개발자 및 가상 환경 플랫폼이 이를 기반으로 자체 애플리케이션 레이어를 직접 구축할 수 있다는 점입니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트