샤오미, 통합 세계 모델 재구성 및 생성 프레임 출시로 주요 벤치마크 성능 기록 경신.

이 기사는 기계로 번역되었습니다

원문 표시

Beating에 따르면, 샤오미 오토는 샤오미 EV 월드 모델(Xiaomi EV World Model)의 자율주행 시뮬레이션을 프레임 공식 발표했는데, 이 프레임워크는 3D 재구성 모듈과 비디오 생성 모듈 간의 심층적인 결합을 최초로 구현했습니다. 자율주행 시뮬레이션에서 기존 기술은 재구성과 생성을 분리하는 경우가 많았습니다. 재구성 모듈 장면을 복원할 수 있지만 변화를 예측할 수 없고, 생성 모듈 미래를 예측할 수 있지만 장기간 사용 시 왜곡이나 오차가 발생하기 쉬웠습니다. 샤오미 오토는 3D 기하학적 구조를 물리적 골격으로 사용하여 장면을 고정하고, 생성 모듈 통해 시각적 세부 정보를 완성하고 관찰되지 않은 영역을 예측하는 JointWM 아키텍처를 제안했습니다. 이 아키텍처는 Waymo, nuScenes 등 주요 벤치마크에서 여러 차례 최고 성능 기록을 경신했습니다. 구체적인 메커니즘을 살펴보면, 재구성 모듈 인 WorldRec은 기존의 픽셀 단위 방식을 버리고 희소한 3D 쿼리 포인트를 사용하여 장면을 표현하고, 이를 점진적으로 융합하여 교차 시점의 4D 가우시안 공간 골격을 생성함으로써 10초 분량의 비디오를 10초 만에 빠르게 재구성할 수 있습니다. 재구성 모듈 에서 제공하는 기하학적 사전 정보를 기반으로 하는 생성 모듈 WorldGen은 골격의 물리적 경계에 제한되어 있으며, 적절한 조명과 텍스처 생성만을 담당합니다. 미래 프레임의 경계 밖 콘텐츠와 사각지대에 대해서는 2단계 시간 학습 및 분포 일치 증류 메커니즘을 통해 물리적 예측을 수행합니다. 전체 아키텍처는 H2O 모듈 에서 단일 뷰의 경우 0.19초, 세 개의 뷰의 경우 0.46초의 생성 속도를 달성하며, 최대 1분 길이의 비디오 생성을 지원합니다. 이 솔루션은 Waymo의 재구성 정확도 테스트에서 28.48의 PSNR을 달성했으며, nuScenes 제로샷 일반화 테스트에서 선두를 유지했습니다. 생성 효율성 측면에서 이 솔루션은 자기회귀 기반 알고리즘인 Epona보다 5.6배 빠르며, 시공간적 일관성 측면에서도 유사 알고리즘 중 최고 수준을 자랑합니다. 현재 연구 결과는 샤오미 자동차의 세 가지 주요 시나리오에 적용되었습니다. 여기에는 인지 모델 학습을 위한 10만 개 이상의 고품질 합성 데이터 세그먼트 제공, 장거리 도로 상황을 재현하는 매우 현실적인 폐쇄 루프 시뮬레이션 환경 구축, 그리고 생성형 비디오를 통해 사용자 조작을 안내하는 운전 보조 교육 프로그램 출시가 포함됩니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트