我们测试了 Utopai 的 PAI：它是目前最好的长篇 AI 影片产生器吗？

03-16

本文为机器翻译

展示原文

大多数人工智能视频工具都是为了制作精彩集锦而设计的。Sora、 Kling 、Luma、Runway——它们都针对精彩瞬间进行了优化：一段引人注目的五秒钟短片，一次在社交媒体上看起来很棒的视觉实验。

他们很少解决对专业故事讲述者真正重要的部分：场景之间的一致性、不同剪辑中角色身份的一致性，以及精细的创作控制，而无需每次出现轻微偏差就从头开始。

Utopai Studios 正是想利用PAI来填补这一空白。其团队成员来自 Google Research、Meta Superintelligence、Amazon AGI 和 Adobe Firefly，专门为长篇电影制作而开发了 PAI：单个叙事流程中最多可处理 16 个镜头，输出时长可达一分钟，分辨率最高可达 4K。

它还包含内置的版权保护功能，可以阻止对受保护的知识产权、受版权保护的角色和真实的公众肖像进行创作——这项功能旨在保护那些无法承受意外侵权后果的工作室和专业人士。

PAI本月初刚刚向公众开放。我们进入系统，体验了工作流程的每个阶段，过程中也损失了一些积分。以下是完整流程。

主界面看起来和 ChatGPT 或任何典型的聊天机器人界面类似。从这里，你可以浏览五个标签页：角色、故事板、视频、编辑器和历史记录。

但别被这表象迷惑：PAI 并非像 Sora 或 Veo 那样的提示等待工具。它是一个结构化的生产流程，其上叠加了自然语言层。当涉及到信用评分时，这种区别至关重要。

这是整个套件中最强大的功能，也可能是目前任何 AI 视频工具中最令人印象深刻的角色生成系统。

用户既可以允许模型自行生成角色，也可以输入参考图像供其生成。它并非进行换脸——它不会像深度伪造工具那样移植真人面部。相反，它会生成与参考图像极其接近的全新模型，从而避免直接换脸所带来的法律和伦理问题。所有输出结果均带有SynthID水印。

大多数人工智能生成的角色都有一种蜡质感的皮肤，一眼就能看出是真人。而PAI则没有这个问题，或者至少程度要好得多。它的皮肤纹理看起来非常逼真，光线与面部的互动也十分自然，细节刻画也十分到位。无论这是源于专有模型还是极其精细的生成流程，最终的效果都足以证明一切。

角色编辑是通过自然语言完成的：我以我妻子的外貌为参考生成了一个角色，但发现结果太瘦了——所以我让模型调整身材比例，使其更符合参考形象。它完全理解了我的意思并进行了修正。

唯一需要注意的是：它的速度很慢。即使是基本的字符图像生成，每次也需要几分钟。

你可以让故事板自动运行，让模型为你完成所有操作，但这并不是它的设计初衷。

PAI 非常重视详细的输入。你解释得越详细——角色在每个场景中的行为、对话以及故事的推进方式——模型的效果就越好。提供如此具体的信息，它就会利用 AI 来扩展细节，然后构建大约十几个关键帧。每个关键帧都包含场景图像以及对该时刻所发生情况的描述：角色动作、对话和视觉构图。

在最终确定任何操作之前，您可以单独编辑每个关键帧。控制非常精细。满意后，您可以指示模型继续运行，它会在渲染前请求最终确认。这种渲染前审核的流程设计巧妙。它促使您深思熟虑地做出决策，并在问题变得代价高昂之前将其解决。

话虽如此，即使是最小的修改也需要时间和积分。务必谨慎行事。

如果渲染成功，生成一分钟的视频大约需要 30 分钟。输出质量足以弥补等待的不足。镜头角度自然流畅，并遵循预设的关键帧；光照自然；人物形象生动鲜活，没有大多数 AI 生成的视频那种空洞乏味的感觉。配音在不同场景中保持一致，语调准确，即使切换到其他元素后也能保持原有的语调。

当镜头在展示其他画面后重新聚焦到某个角色时，角色回来时的样子与离开时完全一致。背景画面始终保持稳定，虽然存在一些扭曲和瑕疵，但并不明显。一个不足之处是：该模型对视频内文字的处理效果不佳。它可以生成基本的文字元素，但不要指望它能处理任何需要精确屏幕排版的内容。

以下是模型自动处理所有操作生成的一个示例。

现在到了更难的部分。我们的一个测试序列连续失败了三次。第一次尝试耗时约 45 分钟，消耗的积分相当于生成了一个完整的视频，但结果却是空的。我们告诉聊天机器人它没有生成任何内容。它确认了错误并重新启动。

一小时过去了，还是不行。我们试了第三次，结果还是一样。三次尝试，损失了大量积分，却什么也没拍到。等我们放弃的时候，积分也几乎用光了，只好作罢。

当你花真金白银，并且要在规定的时间内完成任务时，这可不是什么小问题。界面会承认错误在所难免。但亲身经历又是另一回事，尤其考虑到如果你的积分在生成过程中被消耗，你就需要余额充足才能下载视频。

在我们的第一次测试中，所有选项都自动选择，我犯了一个用户错误：我输入了两张参考照片，但没有指定哪个角色应该使用哪张照片，结果模型将它们分配反了——男性角色（我）是根据女性参考照片（我的妻子）生成的，反之亦然。

抛开我作为女性的那张令人不安的照片不谈，最终的视频仍然是我制作过的最流畅、最连贯的长篇AI视频。即使参考资料有误，模型依然保持了场景间的视觉和色调一致性。这充分说明了其底层架构的卓越之处。

这两种经历都给我们带来同样的教训：普通的AI视频工具会替你做所有假设，这意味着你无需过多思考——但也意味着你必须接受它们做出的任何决定。而PAI则赋予你控制权。伴随这种控制权而来的是你对所输入内容的全部责任。

视频制作完成后，编辑器选项卡允许您完全使用自然语言进行修改。您可以向场景中插入元素、删除元素、更改颜色、调整光照、重写对话或更新唇形同步，模型都会相应地重新渲染。它真正理解您的指令。

这并非后期处理滤镜，而是一种基于人工智能的迭代式场景级修改。导演能够描述剪辑意图并获得相应的修正素材，这彻底改变了导演与其素材之间的创作关系。在PAI中，这项功能比任何其他功能都更能代表人工智能视频编辑在不久的将来可能的发展方向。

例如，看完第一个视频后，我要求模特使用正确的参考资料纠正性别错误。

处理后，它从这样变成了这样：

对此：

“历史记录”选项卡会记录每次交互的完整时间线：提示、编辑、渲染尝试，以及所有内容。

对于独立创作者而言，它提供了有用的背景信息。对于团队而言，它可以成为一个真正的协作平台，不同的用户可以在这里看到同事如何指导模型的构建，了解哪些方法有效，哪些无效，并基于共享的创作记录继续创作。

PAI 的定价是 100 美元可获得 10,000 个积分。在我们的测试中，2,000 个积分可以制作四个视频（一个已完成，三个未完成），总时长为四分钟——每个视频生成两个角色，渲染前进行多次迭代，根据丰富详细的提示进行故事板开发，以及大约两轮渲染后编辑。

总的来说，PAI 感觉像是一款专为真正认真对待 AI 视频的用户打造的专业工具。它运行速度较慢，对经验不足的用户毫不留情——坦白说，它确实需要一个完善的教程——而且很容易迅速耗尽你的预算。界面并非完美无缺，如果你准备不足，系统会毫不留情地惩罚你。

在第一轮测试中，我们了解了它的思维方式，第二轮测试产生了非常令人惊讶和满意的结果——这种结果通常需要换脸技术、多轮试验和后期编辑才能达到。

对于专业视频创作者而言，视频的连贯性、知识产权安全和电影级画质是不可妥协的要素，PAI 是目前市面上最好的长视频 AI 系统。如果能解决可靠性问题，至少目前来看，其他系统都无法与之匹敌。