Nvidia 發布 Lyra 2.0：一張圖生成可探索 3D 世界，破解空間失憶與時序漂移訓練世界模型

本文目錄

想像你站在一張照片前，按下一個按鈕，鏡頭開始向前推進：走廊、轉角、大廳，逐一浮現，每一幀都與前一幀在幾何上精準咬合，最終整座建築以可即時渲染的 3D 模型的形式落地。

這是 NVIDIA Spatial Intelligence Lab 最新發布的開源 Lyra 2.0 已能交付的成果。

現有影片生成模型能做出視覺精緻的短片段，但一旦試圖延伸到「繞著整棟樓走一圈」這種規模，品質便急速崩解。NVIDIA 研究團隊將根本原因歸結為兩種截然不同的衰退機制。

第一種是「空間失憶」（spatial forgetting）：模型的上下文視窗有限，當鏡頭走遠之後，早先掃過的區域就從記憶中滑落；等到鏡頭回頭時，模型只能憑空幻覺出一個新的版本，走廊的燈換了位置，門框的比例不對了。

第二種是「時序漂移」（temporal drifting）：自回歸生成的每一幀都以前一幀為基礎，細微的合成誤差逐步疊加，幾十幀之後場景的色調、材質已面目全非。

這兩個問題疊加在一起，使得「先生成影片、再重建 3D」的路徑在長程場景上幾乎失效。

針對空間失憶，Lyra 2.0 引入了一套「空間記憶」機制：系統對每一幀維護逐幀的 3D 幾何資訊，當新的目標視角出現時，系統從歷史幀中檢索與目標視角重疊度最高的那幾幀，將其正則座標投影對齊，建立稠密的 3D 對應關係，再透過注意力機制注入 DiT（Diffusion Transformer）。

關鍵在於，幾何資訊只用來「定位」，外觀合成仍完全交由生成先驗處理，這讓模型得以保有視覺豐富度，又不會對著空氣憑空發明新結構。

針對時序漂移，Lyra 2.0 採用「自增強訓練」（self-augmented training）：訓練時刻意餵入模型自己生成的帶噪歷史幀，強迫模型學會「看到漂移就修正」而非「跟著漂移繼續走」。

這個做法的直覺類似課堂上讓學生批改自己的考卷 — 只有親眼見過自己的錯誤，才能培養出糾錯反射。

Lyra 2.0 配備了互動式 GUI，讓使用者可以即時檢視累積的 point cloud，並在場景中手動規劃下一段鏡頭軌跡：包括重返已探索區域或朝未知方向推進。場景生成採漸進式架構：使用者走到哪，模型就生成到哪，不需要在啟動前指定完整路徑。

生成完成後，影片幀會透過前饋重建模型轉換為 3D Gaussian Splatting（3DGS）或三角網格，兩種格式均可直接匯入物理引擎。NVIDIA 特別示範了將場景輸出至 Isaac Sim，供機器人執行有物理基礎的導航與互動任務。

3D 世界生成在過去兩年已成為具身 AI（embodied AI）與機器人訓練的核心基礎設施需求。問題不在於生不生得出 3D，而在於生出來的 3D 夠不夠「大」、夠不夠「穩定」、能不能讓機器人在裡面反覆走動而不撞見自相矛盾的幾何結構。

Lyra 2.0 的兩支解法：幾何索引記憶 + 漂移糾錯訓練，直接攻克的正是這個瓶頸。更重要的是，這套方法以開源形式發布，意味著機器人新創、遊戲引擎開發者、虛擬環境平台都可以直接在此基礎上疊加自己的應用層。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論

Nvidia 發布 Lyra 2.0：一張圖生成可探索 3D 世界，破解空間失憶與時序漂移 訓練世界模型