Nền tảng video Short Trung Quốc Kuaishou đã bổ sung tính năng tạo âm thanh vào Kling 2.1, công cụ tạo video hỗ trợ AI, cho phép người dùng tạo clip có hiệu ứng âm thanh đồng bộ như tiếng bước chân, tiếng mưa và tiếng ồn xung quanh.
Tính năng này được ra mắt lặng lẽ vào tuần trước, có sẵn ở chế độ chuyển ảnh thành video của Kling, nơi người dùng tải lên một hình ảnh tĩnh và nền tảng sẽ biến nó thành hình ảnh động với cả chuyển động và âm thanh được tạo ra bởi trí tuệ nhân tạo.
Thời điểm này khiến Kling phải cạnh tranh với Veo 3 của Google, sản phẩm được tích hợp khả năng âm thanh ngay từ ngày đầu tiên.
Những người dùng đầu tiên trên X đã ca ngợi khả năng đồng bộ hóa âm thanh-hình ảnh liền mạch của Kling, với người sáng tạo Roberto Nickson gọi đây là "một trong những mô hình hữu ích nhất trên thị trường" để sản xuất nội dung video sáng tạo.
Tính năng này miễn phí trong thời gian đầu triển khai, có thể truy cập thông qua trang web và ứng dụng di động của Kling.
Kling 2.1 tạo ra các clip dài từ 5 đến 10 giây với độ phân giải lên tới 1080p, sử dụng cái mà công ty mô tả là "cơ chế chú ý không gian thời gian 3D" để đồng bộ hóa âm thanh với hình ảnh.
Công cụ âm thanh hiện chỉ tạo ra hiệu ứng âm thanh—không có lời thoại hoặc nhạc—và tạo ra thứ gì đó tương tự như âm thanh ngôn ngữ Đông Nam Á khi có văn bản—rất có giai điệu và hoàn toàn không thể hiểu được. Nhưng bản thân điều đó không đủ để tôn vinh Google là Vua không thể tranh cãi của video tạo ra.
Chúng tôi đã thử nghiệm các tính năng âm thanh mới của Kling 2.1 so với Veo 3 của Google để xem sản phẩm mới này có gì nổi trội.
Khoảng cách giá giữa hai nền tảng này thực sự rất lớn.
Tính năng âm thanh của Kling 2.1 chỉ tương thích với phiên bản tiêu chuẩn, không phải phiên bản Master cao cấp hơn. Tuy nhiên, với tốc độ hiện tại, người dùng có thể tạo hơn 20 video trên Kling cho mỗi lần tạo Veo 3.
Ví dụ, khi sử dụng hệ thống tín dụng của Freepik, một thế hệ với Google Veo 3 hiện đang được bán với giá 4.000 tín dụng (với mức giá thông thường là 8.000 tín dụng cho mỗi video), trong khi Kling 2.1 có giá 300 tín dụng cho mỗi video.
Mô hình của Google chạy độc quyền thông qua gói đăng ký Ultra trị giá 250 đô la một tháng. Kling có sẵn trên trang web chính thức của hãng, cung cấp một số thế hệ miễn phí, với mức đăng ký bắt đầu từ khoảng 9 đô la một tháng.
Ngay cả với mức giá khuyến mại hiện tại của Google, Veo 3 vẫn đắt hơn Kling gấp mười lần.
Đối với những nhà sáng tạo biết rằng việc tạo video đòi hỏi nhiều lần thử nghiệm và sai sót, với tỷ lệ thất bại thậm chí khiến những người dùng kiên nhẫn cũng phải nản lòng, thì nền kinh tế của Kling giúp việc thử nghiệm trở nên khả thi.
Gói Premium trên Kling mở khóa độ phân giải 1080p, cải thiện chất lượng video tổng thể trong khi vẫn duy trì lợi thế về chi phí.
Nhưng bạn sẽ nhận được những gì bạn phải trả. Veo 3 cung cấp khả năng tạo âm thanh tinh vi, tổng hợp giọng nói một cách chính xác và kết hợp các thành phần âm thanh phức tạp với các cảnh trực quan.
Khả năng hiểu biết về âm thanh không gian và âm thanh theo ngữ cảnh của nó vượt trội hơn hẳn so với Kling.
Mặc dù Kling 2.1 không thể cạnh tranh, nhưng công bằng mà nói, nó hướng đến một thứ khác: âm thanh xung quanh và hiệu ứng nền—không có lời thoại, không có nhạc. Vì vậy, hãy quên những cuộc phỏng vấn đường phố AI lan truyền đó đi. Những nỗ lực tạo ra âm thanh chỉ tạo ra tiếng nói vô nghĩa.
Tuy nhiên, đối với những cảnh quay hoặc video yêu cầu âm thanh xung quanh thì kết quả thu được khá khả quan.
Khả năng mới của nền tảng này trong việc thêm hiệu ứng vào các video câm hiện có mang lại cho nó một lợi thế mà Veo 3 không thể sánh kịp.
Người dùng có thể tải lên các video đã hoàn thiện và thêm âm thanh phù hợp, một quy trình làm việc mà mô hình của Google không hỗ trợ. Thật kỳ lạ, Veo có thể tạo video, nhưng không thể chỉnh sửa chúng.
Bên cạnh khả năng tạo âm thanh cho video câm, Kling còn cung cấp tính năng đồng bộ hóa giọng hát.
Người dùng có thể tải lên ảnh và lời nói hoặc đoạn hội thoại riêng biệt, sau đó mô hình sẽ tạo video trong đó các đối tượng tương tác tự nhiên, như thể họ đang nói chuyện với nhau theo âm thanh đã tải lên.
Tỷ lệ thế hệ 20-1 có nghĩa là người sáng tạo có thể thử nghiệm nhiều phương pháp âm thanh khác nhau trên Kling trong khi người dùng Veo 3 phải hoàn thiện thiết kế âm thanh của mình trong ít lần thử hơn.
Đối với những người đam mê và những người đang học cách tạo video, phương pháp của Kling cung cấp nhiều không gian hơn cho việc thử nghiệm và sai sót.
Nhưng những nhà sáng tạo chuyên nghiệp cần sự đồng bộ hóa âm thanh-hình ảnh và lời thoại chính xác sẽ thấy công cụ âm thanh tinh vi của Veo 3 xứng đáng với số tiền bỏ ra.
Kiểm tra chất lượng video đã mang lại kết quả bất ngờ. Trong một cảnh thử nghiệm có cảnh một người phụ nữ chạy trốn khỏi một con nhện khổng lồ, phiên bản chuẩn của Kling 2.1 đã vượt trội hơn cả Veo 3 và phiên bản Master của chính nó.
Mô hình chuẩn thể hiện chính xác động lực của cảnh, thể hiện chuyển động lưu loát và chuyển động theo hướng thích hợp. Veo 3 không thể giải thích được tại sao người phụ nữ lại chạy về phía con nhện thay vì chạy xa nó.
Phiên bản Master thường tạo ra hình ảnh sắc nét và rõ ràng hơn, nhưng phiên bản tiêu chuẩn lại cho thấy khả năng hiểu cảnh tốt hơn và chuyển động mượt mà hơn.
Điều này thật kỳ lạ vì độ phân giải cao hơn luôn mang lại kết quả tốt hơn, nhưng có thể vấn đề chỉ là do sự cố kỹ thuật hoặc đơn giản là do kém may mắn trong quá trình tạo ảnh.
Có thể nói, chuẩn Kling 2.1 với thế hệ 1080p là một mô hình tuyệt vời có thể cạnh tranh với Google Veo 3 ở điểm này.
Những hạn chế của nền tảng định hình quy trình làm việc của từng công cụ theo cách khác nhau. Tính năng âm thanh của Kling 2.1 chỉ hoạt động với việc tạo hình ảnh thành video, không phải văn bản thành video, tính năng này vẫn chỉ có ở phiên bản Master không hỗ trợ âm thanh—đúng vậy, điều này thật kỳ lạ, nhưng nó là như vậy.
Giải pháp thay thế tốt nhất là sử dụng Kolors, trình tạo hình ảnh của Kuaishou, để tạo khung hình bắt đầu trước khi chuyển đổi chúng thành video có âm thanh đồng bộ. Kolors tạo ra hình ảnh cực kỳ chân thực, đóng vai trò là điểm khởi đầu tuyệt vời cho việc tạo video.
Tuy nhiên, bạn có thể thấy rằng các mô hình như Reve, MidJourney, Recraft, Flux và thậm chí ChatGPT dễ nhắc nhở hơn.
Veo 3 lại có cách tiếp cận ngược lại, chỉ cung cấp chức năng chuyển văn bản thành video mà không có tùy chọn chuyển hình ảnh thành video.
Điều này buộc người dùng phải hoàn toàn dựa vào kỹ thuật nhanh chóng, không có cách nào để kiểm soát hình ảnh ban đầu.
Quyết định của Google cũng có vẻ đặc biệt kỳ lạ vì Veo 2 trước đó thực sự hỗ trợ chuyển hình ảnh thành video thông qua nền tảng Flow riêng biệt.
Việc thiếu kiểm soát trực quan có nghĩa là người dùng phải tạo video một cách ngẫu nhiên, hy vọng lời nhắc văn bản của họ sẽ tạo ra khung hình bắt đầu mong muốn.
Kiểm duyệt nội dung đã tiết lộ những triết lý trái ngược. Veo 3 sử dụng bộ lọc từ khóa mạnh mẽ và kiểm tra sau khi tạo, chặn nội dung vi phạm chính sách của Google.
Hệ thống sẽ đánh dấu các lời nhắc có khả năng gây ra vấn đề trước khi tạo và phân tích các video đã hoàn thành để tìm ra các hành vi vi phạm chính sách.
Kling áp dụng những hạn chế tự do hơn, cho phép nội dung mà Veo sẽ Block hoàn toàn.
Tuy nhiên, dữ liệu đào tạo của mô hình tự nhiên loại trừ nội dung rõ ràng—mô hình tạo ra các hình ảnh không có chi tiết giải phẫu và bạo lực không có máu me.
Vì vậy, người dùng có thể tạo ra một số loại nội dung nhất định có thể bỏ qua bộ lọc từ khóa nhưng vẫn đảm bảo ranh giới an toàn.
Cả hai nền tảng đều hoàn lại tiền khi kiểm duyệt sau thế hệ chặn một video, nhưng cách làm nhẹ nhàng hơn của Kling cho phép tự do sáng tạo hơn trong phạm vi giới hạn.
Veo 3 vẫn có thể là vua, nhưng Kling 2.1 chắc chắn gần giống với một người theo chủ nghĩa dân túy đang thực hiện nhiệm vụ lật đổ chế độ quân chủ.
Tính năng âm thanh của nó khá mang tính cách mạng khi bạn xem xét rằng nó là một công cụ có giá 9 đô la cạnh tranh với gói đăng ký 250 đô la.
Âm thanh của không khí rất hiệu quả, tiếng mưa rơi nghe như tiếng mưa, tiếng bước chân hầu như luôn khớp với chuyển động và bạn có thể tạo ra 20 lần thử trong khi người dùng Veo cẩn thận thực hiện cú đánh duy nhất của mình.
Tính năng cải tiến này, cho phép bạn thêm âm thanh vào video đã hoàn thiện, là tính năng mà Google không cung cấp và thực sự hữu ích để cứu vãn các clip im lặng.
Mọi thứ sẽ hoàn toàn khác nếu mục tiêu chính của bạn là lời nói. Những lời vô nghĩa của Kling sẽ không đánh lừa được ai cả.
Đối với loại yêu cầu cụ thể này, Google Veo 3 là lựa chọn hiển nhiên và duy nhất. Nhà vua (gần như) đã chết. Vạn tuế Kling!
Biên tập bởi Josh Quittner và Sebastian Sinclair





