我們測試了 Utopai 的 PAI：它是目前最好的長篇 AI 影片產生器嗎？

03-16

本文為機器翻譯

展示原文

大多數人工智能視頻工具都是為了製作精彩集錦而設計的。Sora、 Kling 、Luma、Runway——它們都針對精彩瞬間進行了優化：一段引人注目的五秒鐘短片，一次在社交媒體上看起來很棒的視覺實驗。

他們很少解決對專業故事講述者真正重要的部分：場景之間的一致性、不同剪輯中角色身份的一致性，以及精細的創作控制，而無需每次出現輕微偏差就從頭開始。

Utopai Studios 正是想利用PAI來填補這一空白。其團隊成員來自 Google Research、Meta Superintelligence、Amazon AGI 和 Adobe Firefly，專門為長篇電影製作而開發了 PAI：單個敘事流程中最多可處理 16 個鏡頭，輸出時長可達一分鐘，分辨率最高可達 4K。

它還包含內置的版權保護功能，可以阻止對受保護的知識產權、受版權保護的角色和真實的公眾肖像進行創作——這項功能旨在保護那些無法承受意外侵權後果的工作室和專業人士。

PAI本月初剛剛向公眾開放。我們進入系統，體驗了工作流程的每個階段，過程中也損失了一些積分。以下是完整流程。

主界面看起來和 ChatGPT 或任何典型的聊天機器人界面類似。從這裡，你可以瀏覽五個標籤頁：角色、故事板、視頻、編輯器和歷史記錄。

但別被這表象迷惑：PAI 並非像 Sora 或 Veo 那樣的提示等待工具。它是一個結構化的生產流程，其上疊加了自然語言層。當涉及到信用評分時，這種區別至關重要。

這是整個套件中最強大的功能，也可能是目前任何 AI 視頻工具中最令人印象深刻的角色生成系統。

用戶既可以允許模型自行生成角色，也可以輸入參考圖像供其生成。它並非進行換臉——它不會像深度偽造工具那樣移植真人面部。相反，它會生成與參考圖像極其接近的全新模型，從而避免直接換臉所帶來的法律和倫理問題。所有輸出結果均帶有SynthID水印。

大多數人工智能生成的角色都有一種蠟質感的皮膚，一眼就能看出是真人。而PAI則沒有這個問題，或者至少程度要好得多。它的皮膚紋理看起來非常逼真，光線與面部的互動也十分自然，細節刻畫也十分到位。無論這是源於專有模型還是極其精細的生成流程，最終的效果都足以證明一切。

角色編輯是通過自然語言完成的：我以我妻子的外貌為參考生成了一個角色，但發現結果太瘦了——所以我讓模型調整身材比例，使其更符合參考形象。它完全理解了我的意思並進行了修正。

唯一需要注意的是：它的速度很慢。即使是基本的字符圖像生成，每次也需要幾分鐘。

你可以讓故事板自動運行，讓模型為你完成所有操作，但這並不是它的設計初衷。

PAI 非常重視詳細的輸入。你解釋得越詳細——角色在每個場景中的行為、對話以及故事的推進方式——模型的效果就越好。提供如此具體的信息，它就會利用 AI 來擴展細節，然後構建大約十幾個關鍵幀。每個關鍵幀都包含場景圖像以及對該時刻所發生情況的描述：角色動作、對話和視覺構圖。

在最終確定任何操作之前，您可以單獨編輯每個關鍵幀。控制非常精細。滿意後，您可以指示模型繼續運行，它會在渲染前請求最終確認。這種渲染前審核的流程設計巧妙。它促使您深思熟慮地做出決策，並在問題變得代價高昂之前將其解決。

話雖如此，即使是最小的修改也需要時間和積分。務必謹慎行事。

如果渲染成功，生成一分鐘的視頻大約需要 30 分鐘。輸出質量足以彌補等待的不足。鏡頭角度自然流暢，並遵循預設的關鍵幀；光照自然；人物形象生動鮮活，沒有大多數 AI 生成的視頻那種空洞乏味的感覺。配音在不同場景中保持一致，語調準確，即使切換到其他元素後也能保持原有的語調。

當鏡頭在展示其他畫面後重新聚焦到某個角色時，角色回來時的樣子與離開時完全一致。背景畫面始終保持穩定，雖然存在一些扭曲和瑕疵，但並不明顯。一個不足之處是：該模型對視頻內文字的處理效果不佳。它可以生成基本的文字元素，但不要指望它能處理任何需要精確屏幕排版的內容。

以下是模型自動處理所有操作生成的一個示例。

現在到了更難的部分。我們的一個測試序列連續失敗了三次。第一次嘗試耗時約 45 分鐘，消耗的積分相當於生成了一個完整的視頻，但結果卻是空的。我們告訴聊天機器人它沒有生成任何內容。它確認了錯誤並重新啟動。

一小時過去了，還是不行。我們試了第三次，結果還是一樣。三次嘗試，損失了大量積分，卻什麼也沒拍到。等我們放棄的時候，積分也幾乎用光了，只好作罷。

當你花真金白銀，並且要在規定的時間內完成任務時，這可不是什麼小問題。界面會承認錯誤在所難免。但親身經歷又是另一回事，尤其考慮到如果你的積分在生成過程中被消耗，你就需要餘額充足才能下載視頻。

在我們的第一次測試中，所有選項都自動選擇，我犯了一個用戶錯誤：我輸入了兩張參考照片，但沒有指定哪個角色應該使用哪張照片，結果模型將它們分配反了——男性角色（我）是根據女性參考照片（我的妻子）生成的，反之亦然。

拋開我作為女性的那張令人不安的照片不談，最終的視頻仍然是我製作過的最流暢、最連貫的長篇AI視頻。即使參考資料有誤，模型依然保持了場景間的視覺和色調一致性。這充分說明了其底層架構的卓越之處。

這兩種經歷都給我們帶來同樣的教訓：普通的AI視頻工具會替你做所有假設，這意味著你無需過多思考——但也意味著你必須接受它們做出的任何決定。而PAI則賦予你控制權。伴隨這種控制權而來的是你對所輸入內容的全部責任。

視頻製作完成後，編輯器選項卡允許您完全使用自然語言進行修改。您可以向場景中插入元素、刪除元素、更改顏色、調整光照、重寫對話或更新唇形同步，模型都會相應地重新渲染。它真正理解您的指令。

這並非後期處理濾鏡，而是一種基於人工智能的迭代式場景級修改。導演能夠描述剪輯意圖並獲得相應的修正素材，這徹底改變了導演與其素材之間的創作關係。在PAI中，這項功能比任何其他功能都更能代表人工智能視頻編輯在不久的將來可能的發展方向。

例如，看完第一個視頻後，我要求模特使用正確的參考資料糾正性別錯誤。

處理後，它從這樣變成了這樣：

對此：

“歷史記錄”選項卡會記錄每次交互的完整時間線：提示、編輯、渲染嘗試，以及所有內容。

對於獨立創作者而言，它提供了有用的背景信息。對於團隊而言，它可以成為一個真正的協作平臺，不同的用戶可以在這裡看到同事如何指導模型的構建，瞭解哪些方法有效，哪些無效，並基於共享的創作記錄繼續創作。

PAI 的定價是 100 美元可獲得 10,000 個積分。在我們的測試中，2,000 個積分可以製作四個視頻（一個已完成，三個未完成），總時長為四分鐘——每個視頻生成兩個角色，渲染前進行多次迭代，根據豐富詳細的提示進行故事板開發，以及大約兩輪渲染後編輯。

總的來說，PAI 感覺像是一款專為真正認真對待 AI 視頻的用戶打造的專業工具。它運行速度較慢，對經驗不足的用戶毫不留情——坦白說，它確實需要一個完善的教程——而且很容易迅速耗盡你的預算。界面並非完美無缺，如果你準備不足，系統會毫不留情地懲罰你。

在第一輪測試中，我們瞭解了它的思維方式，第二輪測試產生了非常令人驚訝和滿意的結果——這種結果通常需要換臉技術、多輪試驗和後期編輯才能達到。

對於專業視頻創作者而言，視頻的連貫性、知識產權安全和電影級畫質是不可妥協的要素，PAI 是目前市面上最好的長視頻 AI 系統。如果能解決可靠性問題，至少目前來看，其他系統都無法與之匹敵。