Tác giả: Haotian
Ngoài việc "hạ xuống" của bản địa hóa A, thay đổi lớn nhất của đường đua AI gần đây không gì khác hơn là: Công nghệ tạo video đa phương thức đã đột phá, từ việc hỗ trợ tạo video từ văn bản thuần túy phát triển thành công nghệ tạo tích hợp toàn bộ chuỗi từ văn bản + hình ảnh + âm thanh.
Tôi sẽ nêu ra một vài ví dụ về các đột phá kỹ thuật để mọi người cảm nhận:
1) Khung EX-4D mã nguồn mở của ByteDance: Chuyển đổi video đơn nhãn thành nội dung 4D góc nhìn tự do, độ nhận thức của người dùng đạt 70.7%. Nghĩa là, với một video thông thường, AI có thể tự động tạo ra hiệu ứng xem từ bất kỳ góc độ nào, điều này trước đây cần đội ngũ mô hình 3D chuyên nghiệp mới có thể thực hiện;
2) Nền tảng "Vẽ tưởng" của Baidu: Tạo video 10 giây từ một bức ảnh, tuyên bố có thể đạt chất lượng "cấp điện ảnh". Nhưng liệu có bị phóng đại bởi marketing hay không, phải chờ đến phiên bản Pro vào tháng 8 để xem hiệu quả thực tế;
3) Google DeepMind Veo: Có thể đồng bộ tạo video 4K + âm thanh môi trường. Điểm nổi bật về kỹ thuật chính là khả năng "đồng bộ", trước đây luôn là việc ghép nối hai hệ thống video và âm thanh riêng biệt, để đạt được sự phù hợp ở cấp độ ngữ nghĩa cần vượt qua thách thức lớn, chẳng hạn như đồng bộ hình ảnh và âm thanh bước chân trong các cảnh phức tạp;
4) ContentV của TikTok: 8 tỷ tham số, tạo video 1080p trong 2.3 giây, chi phí 3.67 nhân dân tệ/5 giây. Thành thực mà nói, việc kiểm soát chi phí này khá ổn, nhưng xét về chất lượng tạo ra hiện tại, vẫn còn hạn chế khi gặp các cảnh phức tạp;
Tại sao nói những ví dụ này có giá trị và ý nghĩa lớn lao ở khía cạnh chất lượng video, chi phí tạo, các ứng dụng?
1, Về mặt đột phá giá trị kỹ thuật, độ phức tạp của việc tạo video đa phương thức thường là cấp số nhân, một khung hình ảnh đơn lẻ có khoảng 10^6 điểm ảnh, video phải đảm bảo tính liên tục theo thời gian (ít nhất 100 khung), cộng thêm việc đồng bộ âm thanh (10^4 điểm lấy mẫu mỗi giây), và còn phải xem xét tính nhất quán không gian 3D.
Tổng hợp lại, độ phức tạp kỹ thuật không hề thấp, ban đầu đều là một mô hình siêu lớn xử lý tất cả các nhiệm vụ, nghe nói Sora đã đốt hàng chục nghìn GPU H100 mới có khả năng tạo video. Hiện nay có thể thực hiện thông qua việc phân giải mô-đun + phân công hợp tác của mô hình lớn. Ví dụ, EX-4D của ByteDance thực chất là chia nhiệm vụ phức tạp thành: mô-đun ước tính độ sâu, mô-đun chuyển đổi góc nhìn, mô-đun nội suy thời gian, mô-đun tối ưu hóa kết xuất, v.v. Mỗi mô-đun chuyên làm một việc, sau đó phối hợp thông qua cơ chế điều phối.
2, Về mặt giảm chi phí: Thực chất là tối ưu hóa kiến trúc suy luận, bao gồm chiến lược tạo theo lớp, trước tiên tạo khung xương độ phân giải thấp rồi tăng cường nội dung hình ảnh độ phân giải cao; cơ chế tái sử dụng bộ nhớ đệm, tức là tái sử dụng các cảnh tương tự; phân bổ tài nguyên động, thực chất là điều chỉnh độ sâu mô hình theo độ phức tạp của nội dung cụ thể.
Sau một loạt tối ưu hóa như vậy, mới có kết quả 3.67 nhân dân tệ/5 giây của ContentV của TikTok.
3, Về tác động ứng dụng, việc sản xuất video truyền thống là trò chơi tài sản nặng: thiết bị, địa điểm, diễn viên, hậu kỳ, một đoạn quảng cáo 30 giây có chi phí sản xuất vài chục vạn là chuyện bình thường. Giờ đây AI nén quy trình này xuống còn prompt + vài phút chờ đợi, và còn có thể thực hiện các góc nhìn và hiệu ứng mà việc quay chụp truyền thống khó đạt được.
Như vậy, rào cản kỹ thuật và tài chính ban đầu trong sản xuất video đã trở thành sự sáng tạo và thẩm mỹ, có thể sẽ thúc đẩy việc tái cơ cấu toàn bộ nền kinh tế người sáng tạo.
Vấn đề là, nói nhiều về sự thay đổi nhu cầu của công nghệ AI web2, thì có liên quan gì đến AI web3?
1, Đầu tiên, sự thay đổi cấu trúc tỷ lệ băm, trước đây AI cạnh tranh quy mô tỷ lệ băm, ai có cụm GPU đồng nhất lớn hơn thì thắng, nhưng nhu cầu tạo video đa phương thức lại cần sự kết hợp đa dạng của tỷ lệ băm, đối với tỷ lệ băm nhàn rỗi phân tán, cũng như các nhu cầu tinh chỉnh mô hình phân tán, thuật toán, nền tảng suy luận;
2, Thứ hai, nhu cầu gán nhãn dữ liệu cũng sẽ tăng cường, để tạo một video chuyên nghiệp cần: mô tả cảnh chính xác, hình ảnh tham khảo, phong cách âm thanh, quỹ đạo chuyển động máy quay, điều kiện ánh sáng, v.v. đều sẽ trở thành nhu cầu gán nhãn dữ liệu mới, sử dụng phương thức khích lệ của web3 có thể kích thích nhiếp ảnh gia, kỹ sư âm thanh, nghệ sĩ 3D cung cấp dữ liệu chuyên nghiệp, tăng cường khả năng tạo video AI bằng việc gán nhãn dữ liệu chuyên ngành;
3, Cuối cùng, đáng nói là khi AI từ việc phân bổ tài nguyên tập trung quy mô lớn trong quá khứ dần chuyển sang hợp tác mô-đun hóa, bản thân đó đã là nhu cầu mới đối với các nền tảng phi tập trung, khi đó tỷ lệ băm, dữ liệu, mô hình, khích lệ kết hợp lại tạo thành vòng quay tự tăng cường, sẽ thúc đẩy sự hội nhập lớn giữa web3 AI và web2 AI.




