Xiaomi ra mắt khung phần mềm tích hợp tái tạo và tạo mô hình thế giới, phá vỡ các kỷ lục hiệu năng chuẩn mực của các hệ máy chính thống.

Bài viết này được dịch máy
Xem bản gốc
Theo Beating, Xiaomi Auto đã chính thức ra mắt một khung phần mềm mới cho mô hình thế giới hỗ trợ lái xe Xiaomi EV World Model, lần đầu tiên đạt được sự kết hợp độ sâu giữa mô-đun tái tạo 3D và tạo video. Trong mô phỏng lái xe tự động, các công nghệ truyền thống thường tách biệt quá trình tái tạo và tạo hình. mô-đun tái tạo có thể khôi phục hiện trường nhưng không thể dự đoán sự thay đổi, trong khi mô-đun tạo hình có thể dự đoán tương lai nhưng dễ bị biến dạng và trôi lệch trong thời gian dài. Đội ngũ nghiên cứu đã đề xuất kiến ​​trúc JointWM, sử dụng cấu trúc hình học 3D làm khung xương vật lý để neo giữ hiện trường, sau đó sử dụng mô-đun tạo hình để hoàn thiện các chi tiết hình ảnh và dự đoán các khu vực chưa được quan sát, thiết lập nhiều kỷ lục hiệu suất tốt nhất trong các chuẩn mực chính thống như Waymo và nuScenes. Về cơ chế cụ thể, mô-đun tái tạo WorldRec từ bỏ mô hình pixel-by-pixel truyền thống và sử dụng các điểm truy vấn 3D thưa thớt để biểu diễn hiện trường, kết hợp chúng một cách tăng dần thành khung xương không gian Gaussian 4D đa chiều, đạt được khả năng tái tạo nhanh chóng video 10 giây chỉ trong 10 giây. Dựa trên các thông tin hình học tiên nghiệm được cung cấp bởi mô-đun tái tạo, mô-đun tạo WorldGen bị giới hạn bởi các ranh giới vật lý của khung xương và chỉ chịu trách nhiệm tạo ra ánh sáng và kết cấu hợp lý. Đối với nội dung nằm ngoài ranh giới của các khung hình tương lai và các điểm mù, mô-đun đun tạo thực hiện dự đoán vật lý thông qua cơ chế huấn luyện theo thời gian hai giai đoạn và cơ chế chưng cất khớp phân phối. Toàn bộ kiến ​​trúc đạt tốc độ tạo 0,19 giây cho một khung hình và 0,46 giây cho ba khung hình trên GPU H2O, và hỗ trợ tạo video có độ dài lên đến 1 phút. Giải pháp này đạt được PSNR là 28,48 trong bài kiểm tra độ chính xác tái tạo của Waymo và duy trì vị trí dẫn đầu trong khả năng khái quát hóa không cần dữ liệu huấn luyện của nuScenes. Về hiệu quả tạo, giải pháp này nhanh hơn 5,6 lần so với thuật toán tự hồi quy Epona, và độ nhất quán không gian-thời gian của nó nằm trong số những thuật toán hàng đầu tương tự. Hiện tại, kết quả nghiên cứu đã được triển khai trong ba kịch bản chính của Xiaomi Automotive, bao gồm cung cấp hơn 100.000 dữ liệu tổng hợp chất lượng cao để huấn luyện mô hình nhận thức, xây dựng hoàn cảnh mô phỏng vòng kín cực kỳ chân thực để tái tạo điều kiện đường xá dài và ra mắt chương trình đào tạo lái xe hỗ trợ hướng dẫn người dùng thao tác bằng video tạo sinh.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận