Dưới đây là một phân tích tuyệt vời về sự khác biệt giữa Mô hình Ngôn ngữ Thị giác (VLM) và Mô hình Hành động Video (VAM): VLM và VAM vô cùng mạnh mẽ. Chúng vượt trội trong nhận thức, truy xuất, tìm kiếm và hiểu ngữ nghĩa. Nếu bạn muốn tìm kiếm, phân loại hoặc suy luận về những gì tồn tại trong thế giới thực, VLM là vô địch. Nhưng Trí tuệ Nhân tạo Vật lý lại gặp vấn đề ở một khía cạnh khác: chuyển động, nhân quả và động lực học. Đó là nơi dữ liệu video và Mô hình Thế giới phát huy tác dụng. Chúng học cách thế giới phát triển theo thời gian, chứ không chỉ đơn thuần là tên gọi của các đối tượng. Tương lai không phải là VLM hay Mô hình Thế giới. Mà là cả hai. VLM để hiểu và truy xuất thực tế. Mô hình Thế giới để mô phỏng, kiểm tra độ bền và huấn luyện các tác nhân bên trong nó. Các công cụ khác nhau. Các lớp khác nhau. Cùng một mục tiêu: những cỗ máy thực sự hoạt động trong thế giới thực. twitter.com/AlirezaGhods2/stat...
Bài viết này được dịch máy
Xem bản gốc
Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan





