Nvidia 发布 Lyra 2.0:一张图生成可探索 3D 世界,破解空间失忆与时序漂移 训练世界模型

像你站在一张照片前,按下一个按钮,镜头开始向前推进:走廊、转角、大厅,逐一浮现,每一帧都与前一帧在几何上精准咬合,最终整座建筑以可即时渲染的 3D 模型的形式落地。

这是 NVIDIA Spatial Intelligence Lab 最新发布的开源 Lyra 2.0 已能交付的成果。

长程生成的两大死穴

现有影片生成模型能做出视觉精致的短片段,但一旦试图延伸到「绕著整栋楼走一圈」这种规模,品质便急速崩解。NVIDIA 研究团队将根本原因归结为两种截然不同的衰退机制。

第一种是「空间失忆」(spatial forgetting):模型的上下文视窗有限,当镜头走远之后,早先扫过的区域就从记忆中滑落;等到镜头回头时,模型只能凭空幻觉出一个新的版本,走廊的灯换了位置,门框的比例不对了。

第二种是「时序漂移」(temporal drifting):自回归生成的每一帧都以前一帧为基础,细微的合成误差逐步叠加,几十帧之后场景的色调、材质已面目全非。

这两个问题叠加在一起,使得「先生成影片、再重建 3D」的路径在长程场景上几乎失效。

Lyra 2.0 的两支解法

针对空间失忆,Lyra 2.0 引入了一套「空间记忆」机制:系统对每一帧维护逐帧的 3D 几何资讯,当新的目标视角出现时,系统从历史帧中检索与目标视角重叠度最高的那几帧,将其正则座标投影对齐,建立稠密的 3D 对应关系,再透过注意力机制注入 DiT(Diffusion Transformer)。

关键在于,几何资讯只用来「定位」,外观合成仍完全交由生成先验处理,这让模型得以保有视觉丰富度,又不会对著空气凭空发明新结构。

针对时序漂移,Lyra 2.0 采用「自增强训练」(self-augmented training):训练时刻意喂入模型自己生成的带噪历史帧,强迫模型学会「看到漂移就修正」而非「跟著漂移继续走」。

这个做法的直觉类似课堂上让学生批改自己的考卷 — 只有亲眼见过自己的错误,才能培养出纠错反射。

互动式探索与 3D 汇出

Lyra 2.0 配备了互动式 GUI,让使用者可以即时检视累积的 point cloud,并在场景中手动规划下一段镜头轨迹:包括重返已探索区域或朝未知方向推进。场景生成采渐进式架构:使用者走到哪,模型就生成到哪,不需要在启动前指定完整路径。

生成完成后,影片帧会透过前馈重建模型转换为 3D Gaussian Splatting(3DGS)或三角网格,两种格式均可直接汇入物理引擎。NVIDIA 特别示范了将场景输出至 Isaac Sim,供机器人执行有物理基础的导航与互动任务。

  • 论文编号 arXiv:2604.13036,程式码以 Apache 2.0 开源于 GitHub
  • 模型权重发布于 HuggingFace(nvidia/Lyra-2.0)。

为何这一步值得关注

3D 世界生成在过去两年已成为具身 AI(embodied AI)与机器人训练的核心基础设施需求。问题不在于生不生得出 3D,而在于生出来的 3D 够不够「大」、够不够「稳定」、能不能让机器人在里面反复走动而不撞见自相矛盾的几何结构。

Lyra 2.0 的两支解法:几何索引记忆 + 漂移纠错训练,直接攻克的正是这个瓶颈。更重要的是,这套方法以开源形式发布,意味著机器人新创、游戏引擎开发者、虚拟环境平台都可以直接在此基础上叠加自己的应用层。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论