Đánh giá Kling 2.0: Chất lượng video AI hiện đại

avatar
Decrypt
04-21
Bài viết này được dịch máy
Xem bản gốc

Kling 2.0, bản nâng cấp lớn cho trình tạo video AI hiện đại do công ty công nghệ Trung Quốc Kuaishou phát hành , đã ra mắt thị trường vào tuần trước và nhận được phản ứng vô cùng tích cực từ những nhà sáng tạo, những người đã nhanh chóng chi hàng trăm đô la để thử nghiệm khả năng của nó.

"Chất lượng video AI tăng gấp 10 lần chỉ sau một đêm. Tôi không nói nên lời", nhà làm phim AI PJ Ace đã tweet, người tuyên bố đã chi 1.250 đô la tín dụng để khám phá giới hạn của công cụ này. "Tôi chưa bao giờ thấy chuyển động nào trôi chảy như vậy hoặc nhắc nhở chính xác như vậy". Bài đăng đã thu hút hơn 757.000 lượt xem, làm nổi bật sự xôn xao xung quanh bản phát hành này.

Phiên bản mới đánh dấu bước tiến đáng kể so với Kling 1.6 , cung cấp khả năng hiểu nhanh hơn, chuyển động nhân vật mượt mà hơn và tính thẩm mỹ trực quan được cải thiện mà người dùng mô tả là "được quay chứ không phải được tạo ra". Đáng chú ý nhất, Kling 2.0 có thể tạo video dài tới 2 phút , bỏ xa các đối thủ như Sora của OpenAI khi nói đến khả năng tường thuật mở rộng.

"Nhìn chung, Kling vẫn giữ vị trí hàng đầu trên bảng xếp hạng", YouTuber Tim Simmon, người chuyên đánh giá các mô hình AI tạo sinh, cho biết trong bài đánh giá của mình. Ông tin rằng đây là người chiến thắng rõ ràng trong việc tạo hình ảnh thành video, với sự cạnh tranh gay gắt hơn khi nói đến việc tạo văn bản thành video trực tiếp.

Phiên bản mới này xuất hiện trên thị trường tạo video AI ngày càng đông đúc. Các đối thủ cạnh tranh bao gồm Runway, nổi tiếng với đầu ra có độ trung thực cao—gần đây đã phát hành mẫu v4, tập trung vào kết quả điện ảnh—và Veo2 của Google, với khả năng chuyển văn bản thành video mạnh mẽ và kết quả thẩm mỹ đẹp mắt.

Cho đến nay, mô hình này vẫn chưa được giới thiệu trên Bảng xếp hạng Video Generator của Artificial Analysis — bảng xếp hạng tất cả các mô hình video tạo ra tốt nhất—tuy nhiên, phiên bản tiền nhiệm của nó, Kling 1.6, đã là mô hình dẫn đầu trong lĩnh vực chuyển đổi hình ảnh thành video và đứng thứ hai trong lĩnh vực chuyển đổi văn bản thành video dựa trên các bài kiểm tra mù.

Kling 2.0 có trình chỉnh sửa đa thành phần, cho phép người dùng thêm, hoán đổi hoặc xóa nội dung video bằng cách sử dụng văn bản hoặc hình ảnh đầu vào.

Nền tảng này cũng giới thiệu hai thành phần chuyên biệt: Kling 2.0 Master để tạo video và Kolors 2.0 để tạo hình ảnh—không nên nhầm lẫn với một trình tạo hình ảnh AI nguồn mở khác của Trung Quốc được phát hành dưới cùng tên “Kolor” —giúp người sáng tạo kiểm soát tốt hơn sản phẩm của mình.

Công cụ này tập trung vào chất lượng điện ảnh khiến nó đặc biệt hấp dẫn đối với các nhà làm phim, nhà tiếp thị và người sáng tạo nội dung. Mô hình này cực kỳ mạnh mẽ về mặt tài nguyên, với nhiều thế hệ mất hàng giờ trong gói miễn phí và lên đến 16 phút cho gần 5 giây video trên các nền tảng trực tuyến.

Giá khởi điểm là 29 đô la một tháng cho gói tiêu chuẩn, bao gồm chế độ Chuyên nghiệp, video 8 giây và cho phép 30 video mỗi ngày. Gói miễn phí cung cấp 6 thế hệ hàng ngày với giới hạn 4 giây và hình mờ. Gói Chuyên nghiệp, với giá 89 đô la một tháng, cung cấp độ phân giải cao, điều khiển chuyển động nâng cao và xử lý ưu tiên.

Chúng tôi đã thử nghiệm mô hình mới trong năm hạng mục—tính năng động, minh họa, văn bản thành video, tính nhất quán về mặt cấu trúc và tính nhất quán đa chủ đề. Sau đây là những gì chúng tôi tìm thấy.

Tất cả các trình tạo video đều xử lý tốt các cảnh tĩnh, nhưng thường gặp khó khăn với chuyển động nhanh, cảnh phức tạp và thiết lập động. Điều này phản ánh video hoặc hoạt hình ngoài đời thực—hãy tạm dừng TV của bạn trong cảnh rượt đuổi "Tom & Jerry" hoặc cảnh chiến tranh đầy hành động, và bạn sẽ thấy những khung hình kỳ lạ ở khắp mọi nơi.

Chúng tôi đã thử nghiệm mô hình bằng hình ảnh tĩnh của một người đàn ông đang bay qua thành phố và yêu cầu nó tạo ra cảnh đó.

Kling 2.0 tỏ ra cực kỳ nhạy cảm với những thay đổi nhỏ. Nỗ lực đầu tiên của chúng tôi sử dụng: "Cảnh quay theo dõi động: Một người đàn ông đang bay với tốc độ cực cao trên một con phố đông đúc của thành phố. Máy quay theo sát phía sau, ghi lại cảnh các tòa nhà và dòng xe cộ chạy qua, tăng cường cảm giác về tốc độ và sự phấn khích sau khi anh ta rẽ gấp."

Thật không may, lời nhắc tạo ra ảo giác về một chủ thể bị hút ngược xuống phố. Điều này có thể là do cách chúng tôi chọn từ ngữ trong lời nhắc.

Vì vậy, chúng tôi chỉ loại bỏ một từ: "phía sau". Điều đó đã thay đổi kết quả, tạo ra một video tốt hơn nhiều, cho thấy chủ thể bay về phía trước, hướng về phía máy quay.

Kling đã nắm bắt được các yếu tố chính của cảnh quay—chuyển động năng động và nhanh—mặc dù cơ thể của đối tượng biến đổi kỳ lạ khi thay đổi hướng và một số yếu tố thiếu cấu trúc thống nhất. Các mô hình khác như Veo2 của Google đánh đổi tính năng động để lấy tính chân thực, tạo ra các cảnh chậm hơn, tĩnh hơn nhưng mạch lạc hơn.

Gợi ý: "Quay ngang 360 độ: Một thành phố nhộn nhịp được xây dựng phức tạp xung quanh một cái cây khổng lồ, đầy những ngôi nhà và cây cầu. Máy quay di chuyển nhẹ nhàng từ phía trước ra phía sau cây, ghi lại cảnh trẻ em đang chơi đùa, mọi người tham gia vào các hoạt động hàng ngày và những chiếc ô tô bay hạ cánh trên cành cây rồi cất cánh, tất cả đều trong bầu không khí ấm áp, hấp dẫn."

Mô hình này nổi trội với các phong cách giàu trí tưởng tượng như truyện tranh và minh họa, nhưng lại gặp khó khăn với các chi tiết nhỏ. Nó ưu tiên sự mạch lạc hơn là chi tiết, tôn trọng các yếu tố nhắc nhở chính với chuyển động máy quay mượt mà và bối cảnh trôi chảy.

Cấu trúc vật thể vẫn vững chắc mà không có sự rung lắc như trong các trình tạo khác, mặc dù một số đối tượng (là những chi tiết nhỏ nằm ngoài cấu trúc ban đầu của toàn bộ bố cục—một cái cây và những thứ xung quanh) mất đi tính mạch lạc và thỉnh thoảng những chiếc ô tô bay biến mất.

Tuy nhiên, thử nghiệm này đã mang lại kết quả tốt nhất mà chúng tôi từng thấy từ bất kỳ trình tạo video nào.

Gợi ý: "Một phụ nữ tóc vàng mặc váy đỏ và một người đàn ông châu Á mặc vest đen trò chuyện bên trong một quán Starbucks. Cảnh quay Trung bình ."

Chuyển văn bản thành video đặt ra những thách thức độc đáo cho các trình tạo AI. Mô hình phải tạo một khung ban đầu (về cơ bản là tác vụ chuyển văn bản thành hình ảnh) và sử dụng khung đó làm tham chiếu cho tất cả các khung tiếp theo. Lý tưởng nhất là bạn sẽ muốn có một trình tạo hình ảnh chuyên biệt cho khung đầu tiên đó—và lý tưởng nhất là cho cả khung cuối cùng nếu bạn muốn có sự mạch lạc tốt nhất.

Kling 2.0 không thực sự nổi bật ở đây—nhưng cũng không tệ. Cảnh này có phong cách airbrushed đặc trưng phổ biến ở nhiều trình tạo hình ảnh, nhưng cơ thể vẫn giữ được cấu trúc phù hợp, các ngón tay xuất hiện chính xác và không có hiện tượng nhiễu nào đáng chú ý làm gián đoạn cảnh.

Đây là bản cải tiến so với Kling 1.6, nhưng không phải mục đích mà mô hình này được thiết kế.

Yêu cầu: "Ảnh chụp từ trên không: cảnh một công trình kiến ​​trúc trừu tượng, phức tạp đang quay."

Trong khi Kling có thể gặp khó khăn với các chi tiết nhỏ trong cảnh đông đúc, thì nó lại rất xuất sắc trong việc duy trì tính mạch lạc và chi tiết trong các cảnh quay chỉ có một chủ thể.

Chúng tôi đã chia sẻ hình ảnh của một tác phẩm phức tạp và yêu cầu mô hình làm cho nó xoay. Kling 2.0 đã xử lý việc này gần như hoàn hảo—ánh sáng vẫn nhất quán, chuyển động đồng đều, không có hiện vật nào xuất hiện và cấu trúc vẫn giữ được tính toàn vẹn.

Khả năng này có giá trị tiềm tàng đối với việc tạo mô hình 3D, cho phép xem trước đối tượng và cảnh từ nhiều góc độ khác nhau.

Gợi ý: "Năm chú sói xám con đang nô đùa và đuổi bắt nhau trên một con đường sỏi xa xôi, xung quanh là cỏ. Những chú sói con chạy và nhảy, đuổi bắt nhau, và cắn nhau, chơi đùa."

Đây vẫn là điểm yếu của tất cả các mô hình video, bao gồm cả Kling 2.0. Kể từ khi OpenAI cho thấy Sora không thể tạo ra một bầy động vật con chơi cùng nhau, tất cả các trình tạo video đều đã thử thách này với kết quả khác nhau. Không có mô hình nào luôn đạt được kết quả hoàn hảo.

Kling 2.0 tạo ra một cảnh sống động, đủ thực tế, nhưng những con sói hòa vào nhau, xuất hiện và biến mất giữa các khung hình. Nếu điều duy nhất được phân tích là tính mạch lạc, thì không có nhiều khác biệt giữa Kling 2.0 và Kling 1.6.

Một cải tiến đáng chú ý: sự bất thường chủ yếu xảy ra ở hậu cảnh, trong khi các loài động vật ở tiền cảnh duy trì được sự gắn kết tốt hơn trong hầu hết thời gian.

Có thể truy cập Kling 2.0 thông qua Kling AI , Freepik, Pollo AI và các nhà cung cấp khác.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
2
Thêm vào Yêu thích
Bình luận