Dưới đây là một phân tích tuyệt vời về sự khác biệt giữa Mô hình Ngôn ngữ Thị giác (VLM) và Mô hình Hành động Video (VAM):
VLM và VAM vô cùng mạnh mẽ. Chúng vượt trội trong nhận thức, truy xuất, tìm kiếm và hiểu ngữ nghĩa.
Nếu bạn muốn tìm kiếm, phân loại hoặc suy luận về những gì tồn tại trong thế giới thực, VLM là vô địch.
Nhưng Trí tuệ Nhân tạo Vật lý lại gặp vấn đề ở một khía cạnh khác: chuyển động, nhân quả và động lực học.
Đó là nơi dữ liệu video và Mô hình Thế giới phát huy tác dụng.
Chúng học cách thế giới phát triển theo thời gian, chứ không chỉ đơn thuần là tên gọi của các đối tượng.
Tương lai không phải là VLM hay Mô hình Thế giới. Mà là cả hai.
VLM để hiểu và truy xuất thực tế. Mô hình Thế giới để mô phỏng, kiểm tra độ bền và huấn luyện các tác nhân bên trong nó.
Các công cụ khác nhau. Các lớp khác nhau. Cùng một mục tiêu: những cỗ máy thực sự hoạt động trong thế giới thực.
twitter.com/AlirezaGhods2/stat...