小米發佈重建生成一體化世界模型框架，刷新主流基準性能紀錄

據動察 Beating 監測，小米汽車正式發佈 Xiaomi EV World Model 輔助駕駛世界模型全新框架，首次在內部實現三維重建與視頻生成模塊的深度耦合。在自動駕駛仿真中，傳統技術往往將重建與生成割裂。重建模塊能還原場景但無法預測變化，生成模塊雖能預測未來但長時序下容易失真漂移。團隊提出 JointWM 架構，以三維幾何結構作為物理骨架錨定場景，再通過生成模塊補全視覺細節並預測未觀測區域，在 Waymo 和 nuScenes 等主流基準中刷新多項最佳性能紀錄。具體機制上，重建模塊 WorldRec 捨棄傳統逐像素範式，改用稀疏三維查詢點進行場景表徵，增量融合為跨視角 4D Gaussian 空間骨架，實現 10 秒快速重建 10 秒視頻。基於重建模塊提供的幾何先驗，生成模塊 WorldGen 受限於骨架物理邊界，只負責生成合理的光影與紋理。對於未來幀與視野盲區等邊界之外的內容，生成模塊通過兩階段時序訓練與分佈匹配蒸餾機制進行物理預測。整個架構在 H20 GPU 上實現單視角 0.19 秒、三視角 0.46 秒的生成速度，並支持最長 1 分鐘的視頻生成。這套方案在 Waymo 重建精度測試中取得 28.48 PSNR 成績，並在 nuScenes 零樣本泛化中保持領先。在生成效率上，方案比自迴歸基線 Epona 快 5.6 倍，時空連貫度在同類算法中位居前列。目前，研究成果已在小米汽車三大場景落地，包括交付超 10 萬段高質量合成數據用於感知模型訓練、構建高逼真閉環仿真環境復現長尾路況，以及上線輔助駕駛學堂以生成式視頻指導用戶操作。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論