Nvidia 發布 Lyra 2.0:一張圖生成可探索 3D 世界,破解空間失憶與時序漂移 訓練世界模型

像你站在一張照片前,按下一個按鈕,鏡頭開始向前推進:走廊、轉角、大廳,逐一浮現,每一幀都與前一幀在幾何上精準咬合,最終整座建築以可即時渲染的 3D 模型的形式落地。

這是 NVIDIA Spatial Intelligence Lab 最新發布的開源 Lyra 2.0 已能交付的成果。

長程生成的兩大死穴

現有影片生成模型能做出視覺精緻的短片段,但一旦試圖延伸到「繞著整棟樓走一圈」這種規模,品質便急速崩解。NVIDIA 研究團隊將根本原因歸結為兩種截然不同的衰退機制。

第一種是「空間失憶」(spatial forgetting):模型的上下文視窗有限,當鏡頭走遠之後,早先掃過的區域就從記憶中滑落;等到鏡頭回頭時,模型只能憑空幻覺出一個新的版本,走廊的燈換了位置,門框的比例不對了。

第二種是「時序漂移」(temporal drifting):自回歸生成的每一幀都以前一幀為基礎,細微的合成誤差逐步疊加,幾十幀之後場景的色調、材質已面目全非。

這兩個問題疊加在一起,使得「先生成影片、再重建 3D」的路徑在長程場景上幾乎失效。

Lyra 2.0 的兩支解法

針對空間失憶,Lyra 2.0 引入了一套「空間記憶」機制:系統對每一幀維護逐幀的 3D 幾何資訊,當新的目標視角出現時,系統從歷史幀中檢索與目標視角重疊度最高的那幾幀,將其正則座標投影對齊,建立稠密的 3D 對應關係,再透過注意力機制注入 DiT(Diffusion Transformer)。

關鍵在於,幾何資訊只用來「定位」,外觀合成仍完全交由生成先驗處理,這讓模型得以保有視覺豐富度,又不會對著空氣憑空發明新結構。

針對時序漂移,Lyra 2.0 採用「自增強訓練」(self-augmented training):訓練時刻意餵入模型自己生成的帶噪歷史幀,強迫模型學會「看到漂移就修正」而非「跟著漂移繼續走」。

這個做法的直覺類似課堂上讓學生批改自己的考卷 — 只有親眼見過自己的錯誤,才能培養出糾錯反射。

互動式探索與 3D 匯出

Lyra 2.0 配備了互動式 GUI,讓使用者可以即時檢視累積的 point cloud,並在場景中手動規劃下一段鏡頭軌跡:包括重返已探索區域或朝未知方向推進。場景生成採漸進式架構:使用者走到哪,模型就生成到哪,不需要在啟動前指定完整路徑。

生成完成後,影片幀會透過前饋重建模型轉換為 3D Gaussian Splatting(3DGS)或三角網格,兩種格式均可直接匯入物理引擎。NVIDIA 特別示範了將場景輸出至 Isaac Sim,供機器人執行有物理基礎的導航與互動任務。

  • 論文編號 arXiv:2604.13036,程式碼以 Apache 2.0 開源於 GitHub
  • 模型權重發布於 HuggingFace(nvidia/Lyra-2.0)。

為何這一步值得關注

3D 世界生成在過去兩年已成為具身 AI(embodied AI)與機器人訓練的核心基礎設施需求。問題不在於生不生得出 3D,而在於生出來的 3D 夠不夠「大」、夠不夠「穩定」、能不能讓機器人在裡面反覆走動而不撞見自相矛盾的幾何結構。

Lyra 2.0 的兩支解法:幾何索引記憶 + 漂移糾錯訓練,直接攻克的正是這個瓶頸。更重要的是,這套方法以開源形式發布,意味著機器人新創、遊戲引擎開發者、虛擬環境平台都可以直接在此基礎上疊加自己的應用層。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論