中国售价 9 美元的 AI 视讯工具 Kling 2.1 增加了音讯——它能击败谷歌售价 250 美元的 Veo 3 吗？

Decrypt

06-17

本文为机器翻译

展示原文

中国短视频平台快手在其人工智能视频创作工具 Kling 2.1 中添加了音频生成功能，使用户能够制作具有同步音效（如脚步声、雨声和环境噪音）的片段。

该功能于上周悄然推出，可在 Kling 的图像转视频模式下使用，用户上传静止图像，平台利用人工智能生成的动作和音频为其制作动画。

从时间上看，Kling 是与谷歌的 Veo 3 竞争的，后者从第一天推出就具备集成音频功能。

X 的早期用户对 Kling 的无缝视听同步大加赞赏，其创始人 Roberto Nickson 称其为制作生成视频内容的“市场上最有用的模型之一”。

该功能在首次推出时是免费的，可通过 Kling 的网站和移动应用程序访问。

Kling 2.1 可生成 5 到 10 秒的片段，分辨率高达 1080p，利用该公司所称的“3D 时空注意机制”将声音与视觉同步。

该音频工具目前仅生成音效，没有对话或音乐，并且当包含文本时，生成的音频类似于东南亚语言的音频——音调非常重，完全无法理解。但仅凭这一点，谷歌还不足以成为生成视频领域无可争议的王者。

我们测试了 Kling 2.1 的新音频功能与 Google 的 Veo 3，以了解这款新贵产品的表现如何。

两个平台之间的价格差距非常大。

Kling 2.1 的音频功能仅兼容标准版，不兼容高端的 Master 版。不过，按照目前的速度，用户每次使用 Veo 3 创作，都可以在 Kling 上生成 20 多个视频。

例如，使用 Freepik 的积分系统，搭载 Google Veo 3 的一代产品目前售价为 4,000 积分（正常价格为每个视频 8,000 积分），而 Kling 2.1 的每个视频售价为 300 积分。

谷歌的模式仅通过其每月 250 美元的Ultra 订阅运行。Kling 在其官方网站上提供一些免费版本，订阅费用约为每月 9 美元起。

即使按照 Google 目前的促销价格，Veo 3 仍然比 Kling 贵十倍。

对于那些知道视频生成需要大量反复试验的创作者来说，失败率甚至会让有耐心的用户感到沮丧，而 Kling 的经济学让实验变得可行。

Kling 的 Premium 计划可解锁 1080p 分辨率，提高整体视频质量，同时仍保持成本优势。

但一分价钱一分货。Veo 3 提供复杂的声音生成功能，可精确合成语音，并将复杂的音频元素与视觉场景进行匹配。

它对空间音频和情境声音的理解远远超过了 Kling 的产品。

虽然 Kling 2.1 无法与之匹敌，但平心而论，它的目标有所不同：环境音效和背景效果——没有对话，没有音乐。所以，现在就别想那些火爆的 AI 街头采访了。尝试生成音频只会产生胡言乱语。

然而对于需要大气音频的场景或视频来说，其效果还是不错的。

该平台新增了为现有无声视频添加效果的功能，这是 Veo 3 无法比拟的优势。

用户可以上传已完成的视频，并添加合适的音景，而谷歌的模型并不支持这种工作流程。奇怪的是，Veo 可以创建视频，但无法编辑。

除了能够为无声视频创建声音之外，Kling 还提供唇形同步功能。

用户可以分别上传一张照片和一段演讲或对话，模型会根据上传的音频，制作出一段人物自然互动、如同在互相交谈一样的视频。

二十比一的代数比例意味着创作者可以在 Kling 上尝试不同的音频方法，而 Veo 3 用户只需更少的尝试即可完成他们的声音设计。

对于业余爱好者和学习生成视频的人来说，克林的方法提供了更多的反复试验的空间。

但需要精确视听同步和对话的专业创作者会发现 Veo 3 的复杂声音引擎值得付出高昂的价格。

视频质量测试取得了意想不到的效果。在一个女子逃离巨型蜘蛛的测试场景中，Kling 2.1 标准版的表现甚至超越了 Veo 3 及其 Master 版。

标准模型准确地描述了场景的动态，展现了流畅的运动和正确的方向性运动。Veo 3 莫名其妙地生成了女人朝着蜘蛛跑去而不是躲避它的画面。

大师版通常会产生更清晰、更明快的视觉效果，但标准版则表现出更出色的场景理解力和更流畅的动作。

这很奇怪，因为更高的分辨率总是意味着更好的结果，但也许问题归结为提示技术问题或仅仅是生成中的运气不好。

也就是说，具有 1080p 版本的 Kling 2.1 标准是一款出色的型号，可以与 Google Veo 3 相媲美。

平台限制决定了每个工具的工作流程各不相同。Kling 2.1 的音频功能仅适用于图像转视频，不支持文本转视频，后者是 Master 版本独有的，不支持音频——是的，这很奇怪，但事实就是如此。

最好的解决方法是使用快手的图片生成器 Kolors 创建起始帧，然后将其转换为带有同步音频的视频。Kolors 可以生成高度逼真的图像，是视频生成的绝佳起点。

但是，您可能会发现包括 Reve、MidJourney、Recraft、 Flux甚至 ChatGPT 在内的模型更容易提示。

Veo 3 采取了相反的方法，仅提供文本到视频的生成，而没有任何图像到视频的选项。

这迫使用户完全依赖于即时工程，而无法控制起始视觉效果。

考虑到之前的 Veo 2 确实通过其独立的Flow平台支持图像到视频转换，谷歌的决定似乎也特别奇怪。

缺乏视觉控制意味着用户必须盲目地生成视频，希望他们的文本提示能够产生所需的起始帧。

内容审核体现了截然不同的理念。Veo 3 采用积极的关键词过滤和生成后检查，屏蔽违反 Google 政策的内容。

系统会在生成之前标记可能存在问题的提示，并分析完成的视频是否存在违反政策的情况。

Kling 施加了更为宽松的限制，允许 Veo 直接阻止的内容。

然而，该模型的训练数据自然排除了露骨内容——该模型生成的人物没有解剖细节，暴力也没有血腥。

因此，用户可以生成绕过关键字过滤器的某些类型的内容，同时仍保持安全边界。

当后世审查制度屏蔽视频时，这两个平台都会退还积分，但 Kling 的审查方式更为宽松，允许在界限内拥有更多的创作自由。

Veo 3 可能仍然是王者，但 Kling 2.1 绝对接近于一个以推翻君主制为使命的民粹主义者。

如果你考虑到它是一款售价 9 美元的工具，而订阅费却高达 250 美元，那么它的音频功能就相当具有革命性了。

大气的声音很有效，雨声听起来像雨，脚步声大部分时间与运动相匹配，并且您可以进行二十次尝试，而 Veo 用户则精心制作他们的单次射击。

这种改造功能，即为完成的视频添加声音，是 Google 所不提供的，它对于挽救无声剪辑确实很有用。

如果你的主要目标是演讲，情况就会完全不同。克林的胡言乱语骗不了任何人。

对于这种特定需求，Google Veo 3 显然是唯一的选择。王者（几乎）已死。克林万岁！

由 Josh Quittner 和Sebastian Sinclair编辑