Bài viết này được dịch máy
Xem bản gốc

Ngoài việc "hạ xuống" của việc bản địa hóa AI, thay đổi lớn nhất của đường đua AI gần đây không gì khác hơn là: Đột phá kỹ thuật tạo video đa phương thức, từ việc hỗ trợ tạo video từ văn bản thuần túy phát triển thành công nghệ tạo tích hợp toàn bộ chuỗi từ văn bản + hình ảnh + âm thanh. Hãy nói vài ví dụ về những đột phá kỹ thuật để mọi người cảm nhận: 1) mở mã nguồn mở khung : Video đơn nhãn chuyển đổi thành nội dung 4D góc nhìn tự do, độ nhận biết của người dùng đạt 70.7%. Nghĩa là, với một video thông thường, AI có thể tự động tạo ra hiệu ứng xem từ bất kỳ góc độ nào, điều này trước đây cần đội ngũ mô hình 3D chuyên nghiệp mới có thể giải quyết; 2) Nền tảng "Vẽ tưởng" của : Tạo video 10 giây từ một bức ảnh, tuyên bố có thể đạt chất lượng "cấp điện ảnh". Nhưng liệu có bị thổi phồng bởi marketing hay không, phải chờ xem hiệu quả của phiên bản Pro vào tháng 8; 3) : Có thể đồng bộ sinh video 4K + âm thanh môi trường. Điểm sáng kỹ thuật then chốt là khả năng "đồng bộ", trước đây đều là ghép nối hai hệ thống video và âm thanh riêng biệt, để đạt được sự phù hợp ở cấp độ ngữ nghĩa thực sự cần vượt qua thách thức lớn, chẳng hạn như đồng bộ hình ảnh và âm thanh bước chân trong các cảnh phức tạp; 4) : 80 tỷ tham số, tạo video 1080p trong 2.3 giây, chi phí 3.67 nhân dân tệ/5 giây. Thành thực mà nói, việc kiểm soát chi phí này khá ổn, nhưng xét về chất lượng sinh, khi gặp các cảnh phức tạp vẫn còn hơi yếu. Tại sao nói những ví dụ này có giá trị và ý nghĩa lớn ở khía cạnh đột phá chất lượng video, chi phí sinh, và các ứng dụng? 1, Về mặt đột phá giá trị kỹ thuật, độ phức tạp của việc sinh video đa phương thức thường là cấp số nhân, một khung hình ảnh đơn lẻ sinh khoảng 10^6 điểm ảnh, video phải đảm bảo tính liên tục thời gian (ít nhất 100 khung), cộng thêm đồng bộ âm thanh (10^4 điểm lấy mẫu mỗi giây), lại còn phải xem xét tính nhất quán không gian 3D. Tổng hợp lại, độ phức tạp kỹ thuật không hề thấp, ban đầu đều là một mô hình siêu lớn xử lý tất cả các nhiệm vụ, nghe nói đã đốt hàng chục nghìn mới có khả năng sinh video. Hiện nay có thể thực hiện thông qua việc phân giải mô-đun + phân công hợp tác của mô hình lớn. Ví dụ, của thực chất là chia nhiệm vụ phức tạp thành: mô-đun ước tính độ sâu, mô-đun chuyển đổi góc nhìn, mô-đun nội suy thời gian, mô-đun tối ưu hóa kết xuất, v.v. Mỗi mô-đun chuyên làm một việc, sau đó phối hợp thông qua cơ chế điều phối. 2, Về khía cạnh giảm chi phí: Thực chất là tối ưu hóa kiến trúc suy luận, bao gồm chiến lược sinh phân tầng, trước hết sinh khung độ phân giải thấp rồi tăng cường nội dung hình ảnh độ phân giải cao; cơ chế tái sử dụng bộ nhớ đệm, tức là tái sử dụng các cảnh tương tự; phân bổ tài nguyên động, thực chất là điều chỉnh độ sâu mô hình theo độ phức tạp của nội dung cụ thể. Một loạt tối ưu như vậy mới có kết quả 3.67 nhân dân tệ/5 giây của . 3, Về tác động ứng dụng, việc sản xuất video truyền thống là trò chơi tài sản nặng: thiết bị, địa điểm, diễn viên, hậu kỳ, một đoạn quảng cáo 30 giây chi phí sản xuất vài chục vạn là chuyện bình thường. Giờ đây AI nén quy trình này xuống còn Prompt + vài phút chờ đợi, và còn có thể thực hiện các góc nhìn và hiệu ứng mà việc quay truyền thống khó đạt được. Như vậy, các rào cản kỹ thuật và tài chính ban đầu trong sản xuất video đã trở thành sáng tạo và thẩm mỹ, có thể sẽ thúc đẩy việc tái cơ cấu toàn bộ nền kinh tế người sáng tạo. Vấn đề đặt ra là, nói nhiều về sự thay đổi nhu cầu của công nghệ AI web2, thì liên quan gì đến AI web3? 1, Đầu tiên, sự thay đổi cấu trúc nhu cầu tỷ lệ băm, trước đây AI so sánh quy mô tỷ lệ băm, ai có cụm GPU đồng nhất lớn hơn thì thắng, nhưng nhu cầu sinh video đa phương thức lại cần sự kết hợp đa dạng của tỷ lệ băm, đối với tỷ lệ băm nhàn rỗi phân tán, cũng như các nền tảng điều chỉnh vi mô, thuật toán, suy luận phân tán đều có thể phát sinh nhu cầu; 2, Thứ hai, nhu cầu gán nhãn dữ liệu cũng sẽ tăng cường, để sinh một video chuyên nghiệp cần: mô tả cảnh chính xác, hình ảnh tham khảo, phong cách âm thanh, quỹ đạo chuyển động máy ảnh, điều kiện ánh sáng, v.v. đều sẽ trở thành nhu cầu gán nhãn dữ liệu mới chuyên nghiệp, sử dụng phương thức khích lệ web3 có thể kích thích nhiếp ảnh gia, kỹ sư âm thanh, nghệ sĩ 3D, v.v. cung cấp các nguyên liệu dữ liệu chuyên nghiệp, tăng cường khả năng sinh video AI bằng việc gán nhãn dữ liệu chuyên ngành; 3, Cuối cùng, đáng nói là khi AI từ việc phân bổ tài nguyên tập trung quy mô lớn trong quá khứ dần chuyển sang hợp tác mô-đun hóa, bản thân đó đã là nhu cầu mới của nền tảng phi tập trung. Khi đó, tỷ lệ băm, dữ liệu, mô hình, khích lệ, v.v. kết hợp lại tạo thành bánh đà tự tăng cường, từ đó thúc đẩy sự hội nhập lớn giữa web3 AI và web2 AI.

Haotian | CryptoInsight
@tmel0211
07-02
最近观察AI行业,发现个越来越“下沉”的变化:从原先拼算力集中和“大”模型的主流共识中,演变出了一条偏向本地小模型和边缘计算的分支。 这一点,从Apple Intelligence覆盖5亿设备,到微软推出Windows 11专用3.3亿参数小模型Mu,再到谷歌DeepMind的机器人“脱网”操作等等都能看出来。
Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận