Nvidia 发布 Lyra 2.0：一张图生成可探索 3D 世界，破解空间失忆与时序漂移训练世界模型

本文目录

想像你站在一张照片前，按下一个按钮，镜头开始向前推进：走廊、转角、大厅，逐一浮现，每一帧都与前一帧在几何上精准咬合，最终整座建筑以可即时渲染的 3D 模型的形式落地。

这是 NVIDIA Spatial Intelligence Lab 最新发布的开源 Lyra 2.0 已能交付的成果。

现有影片生成模型能做出视觉精致的短片段，但一旦试图延伸到「绕著整栋楼走一圈」这种规模，品质便急速崩解。NVIDIA 研究团队将根本原因归结为两种截然不同的衰退机制。

第一种是「空间失忆」（spatial forgetting）：模型的上下文视窗有限，当镜头走远之后，早先扫过的区域就从记忆中滑落；等到镜头回头时，模型只能凭空幻觉出一个新的版本，走廊的灯换了位置，门框的比例不对了。

第二种是「时序漂移」（temporal drifting）：自回归生成的每一帧都以前一帧为基础，细微的合成误差逐步叠加，几十帧之后场景的色调、材质已面目全非。

这两个问题叠加在一起，使得「先生成影片、再重建 3D」的路径在长程场景上几乎失效。

针对空间失忆，Lyra 2.0 引入了一套「空间记忆」机制：系统对每一帧维护逐帧的 3D 几何资讯，当新的目标视角出现时，系统从历史帧中检索与目标视角重叠度最高的那几帧，将其正则座标投影对齐，建立稠密的 3D 对应关系，再透过注意力机制注入 DiT（Diffusion Transformer）。

关键在于，几何资讯只用来「定位」，外观合成仍完全交由生成先验处理，这让模型得以保有视觉丰富度，又不会对著空气凭空发明新结构。

针对时序漂移，Lyra 2.0 采用「自增强训练」（self-augmented training）：训练时刻意喂入模型自己生成的带噪历史帧，强迫模型学会「看到漂移就修正」而非「跟著漂移继续走」。

这个做法的直觉类似课堂上让学生批改自己的考卷 — 只有亲眼见过自己的错误，才能培养出纠错反射。

Lyra 2.0 配备了互动式 GUI，让使用者可以即时检视累积的 point cloud，并在场景中手动规划下一段镜头轨迹：包括重返已探索区域或朝未知方向推进。场景生成采渐进式架构：使用者走到哪，模型就生成到哪，不需要在启动前指定完整路径。

生成完成后，影片帧会透过前馈重建模型转换为 3D Gaussian Splatting（3DGS）或三角网格，两种格式均可直接汇入物理引擎。NVIDIA 特别示范了将场景输出至 Isaac Sim，供机器人执行有物理基础的导航与互动任务。

3D 世界生成在过去两年已成为具身 AI（embodied AI）与机器人训练的核心基础设施需求。问题不在于生不生得出 3D，而在于生出来的 3D 够不够「大」、够不够「稳定」、能不能让机器人在里面反复走动而不撞见自相矛盾的几何结构。

Lyra 2.0 的两支解法：几何索引记忆 + 漂移纠错训练，直接攻克的正是这个瓶颈。更重要的是，这套方法以开源形式发布，意味著机器人新创、游戏引擎开发者、虚拟环境平台都可以直接在此基础上叠加自己的应用层。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢

Nvidia 发布 Lyra 2.0：一张图生成可探索 3D 世界，破解空间失忆与时序漂移 训练世界模型