據動察 Beating 監測,小米汽車正式發佈 Xiaomi EV World Model 輔助駕駛世界模型全新框架,首次在內部實現三維重建與視頻生成模塊的深度耦合。在自動駕駛仿真中,傳統技術往往將重建與生成割裂。重建模塊能還原場景但無法預測變化,生成模塊雖能預測未來但長時序下容易失真漂移。團隊提出 JointWM 架構,以三維幾何結構作為物理骨架錨定場景,再通過生成模塊補全視覺細節並預測未觀測區域,在 Waymo 和 nuScenes 等主流基準中刷新多項最佳性能紀錄。 具體機制上,重建模塊 WorldRec 捨棄傳統逐像素範式,改用稀疏三維查詢點進行場景表徵,增量融合為跨視角 4D Gaussian 空間骨架,實現 10 秒快速重建 10 秒視頻。基於重建模塊提供的幾何先驗,生成模塊 WorldGen 受限於骨架物理邊界,只負責生成合理的光影與紋理。對於未來幀與視野盲區等邊界之外的內容,生成模塊通過兩階段時序訓練與分佈匹配蒸餾機制進行物理預測。整個架構在 H20 GPU 上實現單視角 0.19 秒、三視角 0.46 秒的生成速度,並支持最長 1 分鐘的視頻生成。 這套方案在 Waymo 重建精度測試中取得 28.48 PSNR 成績,並在 nuScenes 零樣本泛化中保持領先。在生成效率上,方案比自迴歸基線 Epona 快 5.6 倍,時空連貫度在同類算法中位居前列。目前,研究成果已在小米汽車三大場景落地,包括交付超 10 萬段高質量合成數據用於感知模型訓練、構建高逼真閉環仿真環境復現長尾路況,以及上線輔助駕駛學堂以生成式視頻指導用戶操作。
小米發佈重建生成一體化世界模型框架,刷新主流基準性能紀錄
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論
分享



