Hầu hết các công cụ chỉnh sửa video bằng AI đều được thiết kế cho những khoảnh khắc nổi bật. Sora , Kling , Luma, Runway—tất cả đều được tối ưu hóa cho những khoảnh khắc gây ấn tượng: một đoạn clip năm giây nổi bật, một thử nghiệm hình ảnh trông rất ấn tượng trên mạng xã hội.
Điều mà họ hiếm khi giải quyết được chính là phần thực sự quan trọng đối với những người kể chuyện chuyên nghiệp: sự nhất quán giữa các cảnh, bản sắc nhân vật xuyên suốt các đoạn phim, và khả năng kiểm soát sáng tạo chi tiết mà không cần phải bắt đầu lại từ đầu mỗi khi có điều gì đó hơi sai lệch.
Đó chính là khoảng trống mà Utopai Studios đang nhắm đến với PAI . Đội ngũ của họ, đến từ Google Research, Meta Superintelligence, Amazon AGI và Adobe Firefly, đã xây dựng PAI đặc biệt dành cho sản xuất phim dài: tối đa 16 cảnh quay trong một mạch truyện duy nhất, đầu ra có độ dài lên đến một phút và độ phân giải lên đến 4K.
Nó cũng bao gồm tính năng bảo vệ bản quyền tích hợp, ngăn chặn việc tạo nội dung vi phạm bản quyền sở hữu trí tuệ, các nhân vật có bản quyền và hình ảnh công chúng có thật - một tính năng hướng đến các hãng phim và các chuyên gia không thể chấp nhận việc vô tình vi phạm bản quyền.
PAI vừa mới mở cửa cho công chúng vào đầu tháng này. Chúng tôi đã tham gia, dành thời gian trải nghiệm từng giai đoạn của quy trình làm việc và mất một số điểm tín dụng trong quá trình đó. Đây là toàn cảnh.
Màn hình chính trông giống như ChatGPT hoặc bất kỳ giao diện chatbot điển hình nào. Từ đó, bạn điều hướng qua năm tab: Nhân vật, Kịch bản, Video, Trình chỉnh sửa và Lịch sử.
Nhưng đừng để điều này đánh lừa bạn: PAI không phải là công cụ chỉ cần nhắc và chờ như Sora hay Veo. Nó là một quy trình sản xuất có cấu trúc với lớp xử lý ngôn ngữ tự nhiên ở trên, và sự khác biệt này rất quan trọng—rất nhiều—khi vấn đề tiền bản quyền đang được đặt lên hàng đầu.
Đây là tính năng mạnh nhất trong toàn bộ bộ công cụ, và có lẽ là hệ thống tạo nhân vật ấn tượng nhất hiện có trong bất kỳ công cụ video AI nào.
Người dùng có thể để mô hình tự tạo nhân vật hoặc cung cấp hình ảnh tham khảo để nó làm việc. Điều mà nó làm không phải là hoán đổi khuôn mặt—nó không cấy ghép hình ảnh của một người thật như các công cụ deepfake. Thay vào đó, nó tạo ra các mô hình hoàn toàn mới cực kỳ giống với hình ảnh tham khảo, mà không gặp phải các vấn đề pháp lý và đạo đức đi kèm với việc thay thế khuôn mặt trực tiếp. Tất cả các sản phẩm đầu ra đều được đóng dấu bản quyền bằng SynthID .
Hầu hết các nhân vật được tạo ra bằng AI đều có chất lượng da bóng nhờn, dễ dàng bị nhận ra. Nhân vật được tạo bằng PAI thì không, hoặc ít nhất là không ở mức độ tương tự. Kết cấu da trông rất chân thực, cũng như cách ánh sáng tương tác với khuôn mặt, và các chi tiết rất sắc nét. Cho dù điều này đến từ một mô hình độc quyền hay một quy trình tạo hình được tinh chỉnh đặc biệt, kết quả đã nói lên tất cả.
Việc chỉnh sửa nhân vật được thực hiện thông qua ngôn ngữ tự nhiên: Tôi đã tạo một nhân vật dựa trên ngoại hình của vợ tôi, nhưng thấy kết quả quá gầy – vì vậy tôi đã yêu cầu mô hình điều chỉnh tỷ lệ cơ thể để phù hợp hơn với hình mẫu. Nó hiểu chính xác ý tôi và đã sửa lại.
Điểm trừ duy nhất và nhất quán là: nó chậm. Ngay cả việc tạo ảnh nhân vật cơ bản cũng mất vài phút mỗi lần chạy.
Bạn có thể chạy storyboard ở chế độ tự động và để mô hình tự động thực hiện mọi thứ, nhưng đó không phải là mục đích chính của nó.
PAI đánh giá cao thông tin chi tiết được cung cấp. Bạn càng giải thích rõ ràng – nhân vật làm gì trong mỗi cảnh, họ nói gì và câu chuyện diễn tiến như thế nào – thì mô hình càng hoạt động tốt hơn. Cung cấp cho nó thông tin cụ thể đó và nó sẽ sử dụng AI để mở rộng các chi tiết, sau đó xây dựng khoảng một tá khung hình chính. Mỗi khung hình đi kèm với hình ảnh cảnh và mô tả những gì đang xảy ra tại thời điểm đó: hành động của nhân vật, lời thoại và bố cục hình ảnh.
Bạn có thể chỉnh sửa từng khung hình chính riêng lẻ trước khi hoàn tất bất cứ điều gì. Khả năng kiểm soát thực sự rất chi tiết. Khi bạn đã hài lòng, bạn cho mô hình tiếp tục và nó sẽ yêu cầu xác nhận cuối cùng trước khi kết xuất. Quy trình xem xét trước khi kết xuất này là một thiết kế thông minh. Nó buộc người dùng phải đưa ra quyết định cẩn trọng và phát hiện các vấn đề trước khi chúng trở nên tốn kém.
Tuy nhiên, ngay cả những chỉnh sửa nhỏ nhất cũng tốn thời gian và tiêu tốn tài nguyên. Hãy cẩn thận.
Khi hoạt động trơn tru, quá trình dựng hình thành công mất khoảng 30 phút để tạo ra một phút video hoàn chỉnh. Chất lượng đầu ra xứng đáng với thời gian chờ đợi đó. Góc máy quay thay đổi tự nhiên và tuân thủ các khung hình chính đã thiết lập, ánh sáng tự nhiên, và các nhân vật không có vẻ trống rỗng, vô hồn như hầu hết các video được tạo ra bằng AI. Giọng nói nhất quán trong các cảnh, với ngữ điệu phù hợp ngay cả sau khi chuyển sang các yếu tố khác.
Khi máy quay lấy nét lại vào một nhân vật sau khi hiển thị thứ khác, nhân vật đó sẽ trở lại với hình dáng y hệt như lúc rời đi. Cảnh nền vẫn ổn định xuyên suốt, và mặc dù có một số biến dạng và lỗi nhỏ, nhưng chúng không đáng kể. Một điểm yếu: Mô hình này không xử lý tốt văn bản trong video. Nó có thể tạo ra các yếu tố văn bản cơ bản, nhưng đừng dựa vào nó cho bất cứ điều gì yêu cầu kiểu chữ chính xác trên màn hình.
Đây là một ví dụ về thế hệ được tạo ra với mọi thứ được mô hình tự động xử lý.
Giờ đến phần khó hơn. Một trong những chuỗi thử nghiệm của chúng tôi đã thất bại ba lần liên tiếp. Lần thử đầu tiên mất khoảng 45 phút, tiêu tốn tín dụng như thể đã tạo ra một video hoàn chỉnh, và cho ra kết quả trống rỗng. Chúng tôi đã báo cho chatbot biết rằng nó không tạo ra bất cứ thứ gì. Nó đã xác nhận lỗi và khởi động lại.
Một tiếng sau, vẫn không có gì. Chúng tôi thử lần thứ ba. Kết quả vẫn vậy. Ba lần thử, mất một lượng tiền đáng kể, và không thu được cảnh quay nào. Đến lúc chúng tôi bỏ cuộc, chúng tôi gần như đã hết sạch tiền và phải chuyển sang việc khác.
Đây không phải là lỗi nhỏ khi bạn đang trả tiền thật và làm việc trong khung thời gian chuyên nghiệp. Giao diện thừa nhận rằng lỗi có thể xảy ra. Trải nghiệm trực tiếp lại là chuyện khác, đặc biệt là khi bạn cần có số dư dương để tải video xuống nếu số dư của bạn đã bị sử dụng hết trong quá trình tạo video.
Trong lần thử nghiệm đầu tiên với mọi thứ được chọn tự động, tôi đã mắc một lỗi người dùng: tôi đã cung cấp hai ảnh tham khảo mà không chỉ định nhân vật nào nên sử dụng ảnh nào, và mô hình đã gán chúng theo thứ tự ngược lại — nhân vật nam (tôi) được tạo ra từ ảnh tham khảo nữ (vợ tôi), và ngược lại.
Hãy quên đi hình ảnh ám ảnh về tôi khi còn là một người phụ nữ, và video cuối cùng vẫn là video dài được dựng bằng AI có độ nhất quán cao nhất mà tôi từng sản xuất. Ngay cả với những hình ảnh tham khảo sai, mô hình vẫn duy trì được sự liền mạch về hình ảnh và tông màu từ cảnh này sang cảnh khác. Điều đó nói lên rất nhiều điều về kiến trúc nền tảng của nó.
Bài học rút ra từ cả hai trải nghiệm đều giống nhau: các công cụ video AI thông thường giả định mọi thứ cho bạn, nghĩa là bạn không cần phải suy nghĩ nhiều—nhưng bạn cũng phải chấp nhận bất cứ điều gì chúng quyết định. PAI cho bạn quyền kiểm soát. Và với quyền kiểm soát đó đi kèm với trách nhiệm hoàn toàn đối với những gì bạn đưa vào.
Sau khi video hoàn tất, tab Trình chỉnh sửa cho phép bạn chỉnh sửa hoàn toàn bằng ngôn ngữ tự nhiên. Chèn các yếu tố vào cảnh, xóa chúng, thay đổi màu sắc, điều chỉnh ánh sáng, viết lại lời thoại hoặc cập nhật đồng bộ hóa môi, và mô hình sẽ tự động dựng lại theo. Nó thực sự hiểu những gì bạn yêu cầu.
Đây không phải là bộ lọc xử lý hậu kỳ. Đây là quá trình chỉnh sửa lặp đi lặp lại, được điều khiển bởi AI ở cấp độ cảnh quay. Khả năng mô tả ý đồ biên tập và nhận được đoạn phim đã được chỉnh sửa sẽ thay đổi hoàn toàn mối quan hệ sáng tạo giữa đạo diễn và chất liệu của họ. Tính năng này, hơn bất cứ điều gì khác trong PAI, dường như là hướng đi mà việc chỉnh sửa video bằng AI có thể sẽ phát triển trong tương lai gần.
Ví dụ, sau khi xem video đầu tiên, tôi đã yêu cầu người mẫu sửa lỗi sai giới tính bằng cách sử dụng các tài liệu tham khảo chính xác.
Sau khi xử lý, nó đã chuyển từ trạng thái này sang trạng thái khác:
Cụ thể như sau:
Tab Lịch sử ghi lại toàn bộ dòng thời gian của mọi tương tác: lời nhắc, chỉnh sửa, nỗ lực hiển thị, mọi thứ.
Đối với những người sáng tạo cá nhân, nó cung cấp bối cảnh hữu ích. Đối với các nhóm, nó có thể là một lớp cộng tác thực sự, nơi người dùng khác nhau có thể thấy cách các đồng nghiệp đã định hướng mô hình, hiểu điều gì hiệu quả và điều gì không, và tiếp tục từ một hồ sơ sáng tạo chung.
Giá PAI là 100 đô la cho 10.000 tín dụng. Trong các thử nghiệm của chúng tôi, 2.000 tín dụng đủ cho bốn video (một video đã hoàn thành, ba video chưa hoàn thành) với tổng thời lượng bốn phút—mỗi video được tạo ra hai nhân vật với nhiều lần chỉnh sửa trước khi xuất bản, phát triển kịch bản phân cảnh dựa trên các gợi ý phong phú và chi tiết, và khoảng hai vòng chỉnh sửa sau khi xuất bản.
Nhìn chung, PAI mang lại cảm giác như một công cụ chuyên nghiệp được xây dựng dành cho những người thực sự coi trọng video AI. Nó chậm, không khoan nhượng với người thiếu kinh nghiệm — thành thật mà nói, nó cần một hướng dẫn sử dụng tốt — và có khả năng làm hao hụt ngân sách của bạn rất nhanh. Giao diện không hoàn hảo, và hệ thống sẽ trừng phạt bạn nếu bạn không chuẩn bị kỹ lưỡng.
Sau buổi thử nghiệm đầu tiên tìm hiểu cách nó suy nghĩ, vòng thử nghiệm thứ hai đã mang lại những kết quả rất đáng ngạc nhiên và thú vị — những kết quả mà thông thường cần đến các kỹ thuật hoán đổi khuôn mặt, nhiều vòng thử và sai, và chỉnh sửa hậu kỳ.
Đối với những nhà làm phim chuyên nghiệp, những người coi trọng tính liên tục, bảo vệ bản quyền và chất lượng điện ảnh, PAI là hệ thống video dài bằng AI tốt nhất hiện có. Nếu khắc phục được các vấn đề về độ tin cậy, thì không có hệ thống nào khác có thể sánh kịp, ít nhất là ở thời điểm hiện tại.




