Mục lục lục
ToggleHãy tưởng tượng bạn đang đứng trước một bức ảnh và nhấn một nút. Máy ảnh bắt đầu lia về phía trước: các hành lang, góc phố và sảnh xuất hiện từng cái một, mỗi khung hình được căn chỉnh chính xác về mặt hình học với khung hình trước đó, cho đến khi toàn bộ tòa nhà được hiện thực hóa thành một mô hình 3D có thể được hiển thị ngay lập tức.
Đây là kết quả đầu ra của phiên bản mã nguồn mở Lyra 2.0 mới nhất do NVIDIA Spatial Intelligence Lab phát hành.
Hai nhược điểm chí mạng chính của thế hệ tầm xa
Các mô hình tạo video hiện có có thể tạo ra các đoạn video ngắn có chất lượng hình ảnh tinh tế, nhưng chất lượng nhanh chóng giảm sút khi cố gắng mở rộng quy mô lên những cảnh như "đi bộ xung quanh toàn bộ một tòa nhà". Đội ngũ nghiên cứu của NVIDIA cho rằng nguyên nhân gốc rễ là do hai cơ chế suy giảm chất lượng khác nhau.
Loại đầu tiên là "quên không gian": cửa sổ ngữ cảnh của mô hình bị giới hạn, và khi camera di chuyển ra xa, các khu vực đã được quét trước đó sẽ bị mất khỏi bộ nhớ; khi camera quay trở lại, mô hình chỉ có thể tạo ra một phiên bản mới từ hư không, chẳng hạn như đèn hành lang ở các vị trí khác nhau và khung cửa bị lệch tỷ lệ.
Loại thứ hai là "lệch lạc thời gian": mỗi khung hình được tạo ra bằng phương pháp tự hồi quy đều dựa trên khung hình trước đó. Các lỗi ghép ảnh nhỏ được tích lũy dần dần, và sau hàng chục khung hình, tông màu và kết cấu của cảnh hoàn toàn khác biệt.
Hai vấn đề này kết hợp lại khiến phương pháp "tạo video trước, sau đó tái tạo 3D" gần như không hiệu quả đối với các tình huống tầm xa.
Giải pháp hai nhánh cho Lyra 2.0
Để khắc phục chứng mất trí nhớ không gian, Lyra 2.0 giới thiệu cơ chế "bộ nhớ không gian": hệ thống duy trì thông tin hình học 3D từng khung hình. Khi một điểm nhìn mục tiêu mới xuất hiện, hệ thống sẽ truy xuất các khung hình có độ trùng khớp cao nhất với điểm nhìn mục tiêu từ các khung hình lịch sử, căn chỉnh các phép chiếu tọa độ thông thường của chúng, thiết lập sự tương ứng 3D dày đặc, và sau đó đưa nó vào DiT (Diffusion Transformer) thông qua cơ chế chú ý.
Điểm mấu chốt là thông tin hình học chỉ được sử dụng cho "vị trí", trong khi việc tổng hợp hình ảnh vẫn được xử lý hoàn toàn bằng thuật toán tạo sinh. Điều này cho phép mô hình duy trì sự phong phú về mặt hình ảnh mà không cần tạo ra các cấu trúc mới từ hư không.
Để giải quyết hiện tượng trôi lệch theo thời gian, Lyra 2.0 sử dụng "huấn luyện tự tăng cường": trong quá trình huấn luyện, các khung hình lịch sử nhiễu do chính mô hình tạo ra được cố ý đưa vào, buộc mô hình phải học cách "sửa lỗi khi phát hiện sự trôi lệch" thay vì "theo dõi sự trôi lệch".
Cách tiếp cận này về mặt trực quan tương tự như việc cho sinh viên tự chấm điểm bài kiểm tra của mình trên lớp—chỉ khác là khi trực tiếp nhìn thấy lỗi sai của chính mình, họ mới có thể hình thành phản xạ tự sửa lỗi.
Khám phá tương tác và xuất 3D
Lyra 2.0 sở hữu giao diện người dùng đồ họa (GUI) tương tác cho phép người dùng xem ngay lập tức đám mây điểm đã tích lũy và lập kế hoạch thủ công cho quỹ đạo của cú bắn tiếp theo trong khung cảnh: bao gồm cả việc quay lại các khu vực đã khám phá hoặc mạo hiểm theo những hướng chưa biết. Quá trình tạo khung cảnh áp dụng kiến trúc tiến bộ: mô hình được tạo ra bất cứ nơi nào người dùng di chuyển, mà không cần phải chỉ định toàn bộ đường đi trước khi bắt đầu.
Sau khi được tạo ra, các khung hình video được chuyển đổi thành lưới Gaussian Splatting 3D (3DGS) hoặc lưới tam giác thông qua mô hình tái tạo truyền thẳng. Cả hai định dạng đều có thể được nhập trực tiếp vào công cụ vật lý. NVIDIA đã trình diễn việc xuất cảnh sang Isaac Sim, cho phép robot thực hiện nhiệm vụ điều hướng và tương tác dựa trên vật lý.
- Bài báo, arXiv:2604.13036, mã nguồn mởGitHub theo giấy phép Apache 2.0.
- Các tỷ trọng của mô hình được công bố trên HuggingFace (nvidia/ Lyra-2.0).
Vì sao bước này cần được chú ý
Trong hai năm qua, việc tạo ra thế giới 3D đã trở thành một yêu cầu cơ sở hạ tầng cốt lõi cho trí tuệ nhân tạo thể hiện và huấn luyện robot. Vấn đề không phải là liệu có thể tạo ra 3D hay không, mà là liệu 3D được tạo ra có đủ "lớn", đủ "ổn định" và cho phép robot di chuyển xung quanh nhiều lần mà không gặp phải các cấu trúc hình học mâu thuẫn hay không.
Hai giải pháp của Lyra 2.0—bộ nhớ chỉ số hình học và huấn luyện sửa lỗi trôi dạt—giải quyết trực tiếp nút thắt cổ chai này. Quan trọng hơn, phương pháp này được phát hành dưới dạng mã nguồn mã nguồn mở, có nghĩa là các công ty khởi nghiệp về robot, nhà phát triển công cụ trò chơi và nền tảng hoàn cảnh ảo có thể trực tiếp xây dựng các lớp ứng dụng của riêng họ trên đó.



