Alibaba đã công bố Wan2.1-VACE, một mô hình AI nguồn mở được thiết kế để thay đổi cách chúng ta tạo và chỉnh sửa video.
VACE không phải tự nhiên mà có; nó là một phần của gia đình Wan2.1 rộng hơn của Alibaba về các mô hình AI video. Và họ đang đưa ra một tuyên bố khá táo bạo về nó, tuyên bố rằng đây là "mô hình nguồn mở đầu tiên trong ngành cung cấp giải pháp thống nhất cho nhiều tác vụ tạo và chỉnh sửa video".
Nếu Alibaba có thể thành công trong việc chuyển người dùng khỏi việc phải sử dụng nhiều công cụ riêng biệt sang một trung tâm hợp lý thì đây có thể là một bước ngoặt thực sự.
Vậy, thứ này thực sự có thể làm gì? Vâng, để bắt đầu, nó có thể tạo video bằng đủ loại lời nhắc, bao gồm lệnh văn bản, hình ảnh tĩnh và thậm chí là các đoạn trích từ các video clip khác.
Nhưng không chỉ là tạo video từ đầu. Bộ công cụ chỉnh sửa hỗ trợ tham chiếu hình ảnh hoặc khung hình cụ thể để hướng dẫn AI, "tô lại" video nâng cao (sẽ nói thêm về điều này sau), chỉnh sửa chỉ Bits đã chọn của video hiện có của bạn và thậm chí kéo dài video. Alibaba cho rằng các tính năng này "cho phép kết hợp linh hoạt nhiều tác vụ khác nhau để tăng cường khả năng sáng tạo".

Hãy tưởng tượng bạn muốn tạo một video với các nhân vật cụ thể tương tác, có thể dựa trên một số bức ảnh bạn có. VACE tuyên bố có thể làm được điều đó. Bạn có một hình ảnh tĩnh mà bạn muốn là động? Mô hình AI nguồn mở của Alibaba có thể thêm chuyển động trông tự nhiên để làm cho nó trở nên sống động.
Đối với những người thích tinh chỉnh, có những chức năng "vẽ lại video" nâng cao mà tôi đã đề cập trước đó. Điều này bao gồm những thứ như chuyển tư thế từ chủ thể này sang chủ thể khác, kiểm soát chính xác chuyển động, điều chỉnh nhận thức độ sâu và thậm chí thay đổi màu sắc.
Một tính năng thu hút sự chú ý của tôi là khả năng "hỗ trợ thêm, sửa đổi hoặc xóa vào các khu vực cụ thể được chọn của video mà không ảnh hưởng đến môi trường xung quanh". Đó là một điểm cộng lớn cho các chỉnh sửa chi tiết - không còn vô tình làm hỏng nền khi bạn chỉ cố gắng tinh chỉnh một thành phần nhỏ. Thêm vào đó, nó có thể làm cho khung video của bạn lớn hơn và thậm chí lấp đầy không gian mới bằng nội dung có liên quan để làm cho mọi thứ trông phong phú và rộng hơn.
Bạn có thể chụp một bức ảnh phẳng, biến nó thành video và cho các vật thể trong đó biết chính xác cách di chuyển bằng cách vẽ ra một đường đi. Cần hoán đổi một nhân vật hoặc một vật thể với thứ gì đó khác mà bạn cung cấp làm tài liệu tham khảo? Không vấn đề gì. Làm hoạt hình cho các nhân vật được tham chiếu đó? Xong. Kiểm soát chính xác tư thế của chúng? Bạn đã hiểu.
Alibaba thậm chí còn đưa ra ví dụ về mô hình AI nguồn mở của mình, lấy một hình ảnh dọc cao, gầy và khéo léo mở rộng nó sang một bên thành một video màn hình rộng, tự động thêm Bits và phần mới bằng cách tham chiếu đến các hình ảnh hoặc lời nhắc khác. Thật tuyệt.
Tất nhiên, VACE không chỉ là phép thuật. Có một số công nghệ thông minh liên quan, được thiết kế để xử lý thực tế thường lộn xộn của việc chỉnh sửa video. Một phần quan trọng là thứ mà Alibaba gọi là Đơn vị điều kiện video (VCU), "hỗ trợ xử lý thống nhất các đầu vào đa phương thức như văn bản, hình ảnh, video và mặt nạ".
Sau đó, có cái mà họ gọi là "Cấu trúc Bộ điều hợp ngữ cảnh". Bit kỹ thuật thông minh này "tiêm nhiều khái niệm nhiệm vụ khác nhau bằng cách sử dụng các biểu diễn chính thức về chiều thời gian và không gian". Về cơ bản, hãy nghĩ về nó như việc cung cấp cho AI khả năng hiểu thực sự tốt về thời gian và không gian trong video.
Với tất cả công nghệ thông minh này, Alibaba cho rằng VACE sẽ thành công ở khá nhiều lĩnh vực. Hãy nghĩ đến các clip truyền thông xã hội nhanh, quảng cáo và nội dung tiếp thị bắt mắt, hiệu ứng đặc biệt hậu kỳ mạnh mẽ cho phim và TV, và thậm chí để tạo video giáo dục và đào tạo tùy chỉnh.
Alibaba tạo ra Wan2.1-VACE mã nguồn mở để lan tỏa tình yêu AI
Việc xây dựng các mô hình AI mạnh mẽ như vậy thường tốn kém và cần sức mạnh tính toán khổng lồ cùng hàng tấn dữ liệu. Vậy, Alibaba tạo ra Wan2.1-VACE mã nguồn mở? Đó là một vấn đề lớn.
Alibaba giải thích: “Truy cập mở giúp giảm rào cản để nhiều doanh nghiệp tận dụng AI hơn, cho phép họ tạo ra nội dung trực quan chất lượng cao phù hợp với nhu cầu của mình, nhanh chóng và tiết kiệm chi phí”.
Về cơ bản, Alibaba hy vọng sẽ cho phép nhiều người hơn – đặc biệt là các doanh nghiệp nhỏ và những người sáng tạo cá nhân – có được AI hàng đầu mà không tốn kém. Việc dân chủ hóa các công cụ mạnh mẽ này luôn là một cảnh tượng đáng hoan nghênh.
Và họ không chỉ tung ra một phiên bản. Có một mô hình tham số 14 tỷ dành cho những người có công suất lớn và một mô hình tham số 1,3 tỷ nhanh nhẹn hơn dành cho các thiết lập nhẹ hơn. Bạn có thể tải miễn phí ngay bây giờ trên Hugging Face và GitHub hoặc thông qua cộng đồng nguồn mở của Alibaba Cloud, ModelScope .
(Nguồn ảnh: www.alibabagroup.com )
Xem thêm: Hoa Kỳ siết chặt Quy tắc khuếch tán AI, thắt chặt hạn chế xuất khẩu chip

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ những người dẫn đầu ngành? Hãy xem Triển lãm AI & Big Data diễn ra tại Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị tự động hóa thông minh , BlockX , Tuần lễ chuyển đổi số và Triển lãm an ninh mạng & đám mây .
Khám phá các sự kiện công nghệ doanh nghiệp sắp tới và hội thảo trực tuyến do TechForge hỗ trợ tại đây .
Bài đăng Alibaba Wan2.1-VACE: Công cụ video AI nguồn mở dành cho tất cả mọi người xuất hiện đầu tiên trên AI News .