中国售价 9 美元的 AI 视讯工具 Kling 2.1 增加了音讯——它能击败谷歌售价 250 美元的 Veo 3 吗?

avatar
Decrypt
06-17
本文为机器翻译
展示原文

中国短视频平台快手在其人工智能视频创作工具 Kling 2.1 中添加了音频生成功能,使用户能够制作具有同步音效(如脚步声、雨声和环境噪音)的片段。

该功能于上周悄然推出,可在 Kling 的图像转视频模式下使用,用户上传静止图像,平台利用人工智能生成的动作和音频为其制作动画。

从时间上看,Kling 是与谷歌的 Veo 3 竞争的,后者从第一天推出就具备集成音频功能。

X 的早期用户对 Kling 的无缝视听同步大加赞赏,其创始人 Roberto Nickson 称其为制作生成视频内容的“市场上最有用的模型之一”。

该功能在首次推出时是免费的,可通过 Kling 的网站和移动应用程序访问。

Kling 2.1 可生成 5 到 10 秒的片段,分辨率高达 1080p,利用该公司所称的“3D 时空注意机制”将声音与视觉同步。

该音频工具目前仅生成音效,没有对话或音乐,并且当包含文本时,生成的音频类似于东南亚语言的音频——音调非常重,完全无法理解。但仅凭这一点,谷歌还不足以成为生成视频领域无可争议的王者。

我们测试了 Kling 2.1 的新音频功能与 Google 的 Veo 3,以了解这款新贵产品的表现如何。

两个平台之间的价格差距非常大。

Kling 2.1 的音频功能仅兼容标准版,不兼容高端的 Master 版。不过,按照目前的速度,用户每次使用 Veo 3 创作,都可以在 Kling 上生成 20 多个视频。

例如,使用 Freepik 的积分系统,搭载 Google Veo 3 的一代产品目前售价为 4,000 积分(正常价格为每个视频 8,000 积分),而 Kling 2.1 的每个视频售价为 300 积分。

谷歌的模式仅通过其每月 250 美元的Ultra 订阅运行。Kling 在其官方网站上提供一些免费版本,订阅费用约为每月 9 美元起。

即使按照 Google 目前的促销价格,Veo 3 仍然比 Kling 贵十倍。

对于那些知道视频生成需要大量反复试验的创作者来说,失败率甚至会让有耐心的用户感到沮丧,而 Kling 的经济学让实验变得可行。

Kling 的 Premium 计划可解锁 1080p 分辨率,提高整体视频质量,同时仍保持成本优势。

但一分价钱一分货。Veo 3 提供复杂的声音生成功能,可精确合成语音,并将复杂的音频元素与视觉场景进行匹配。

它对空间音频和情境声音的理解远远超过了 Kling 的产品。

虽然 Kling 2.1 无法与之匹敌,但平心而论,它的目标有所不同:环境音效和背景效果——没有对话,没有音乐。所以,现在就别想那些火爆的 AI 街头采访了。尝试生成音频只会产生胡言乱语。

然而对于需要大气音频的场景或视频来说,其效果还是不错的。

该平台新增了为现有无声视频添加效果的功能,这是 Veo 3 无法比拟的优势。

用户可以上传已完成的视频,并添加合适的音景,而谷歌的模型并不支持这种工作流程。奇怪的是,Veo 可以创建视频,但无法编辑。

除了能够为无声视频创建声音之外,Kling 还提供唇形同步功能。

用户可以分别上传一张照片和一段演讲或对话,模型会根据上传的音频,制作出一段人物自然互动、如同在互相交谈一样的视频。

二十比一的代数比例意味着创作者可以在 Kling 上尝试不同的音频方法,而 Veo 3 用户只需更少的尝试即可完成他们的声音设计。

对于业余爱好者和学习生成视频的人来说,克林的方法提供了更多的反复试验的空间。

但需要精确视听同步和对话的专业创作者会发现 Veo 3 的复杂声音引擎值得付出高昂的价格。

视频质量测试取得了意想不到的效果。在一个女子逃离巨型蜘蛛的测试场景中,Kling 2.1 标准版的表现甚至超越了 Veo 3 及其 Master 版。

标准模型准确地描述了场景的动态,展现了流畅的运动和正确的方向性运动。Veo 3 莫名其妙地生成了女人朝着蜘蛛跑去而不是躲避它的画面。

大师版通常会产生更清晰、更明快的视觉效果,但标准版则表现出更出色的场景理解力和更流畅的动作。

这很奇怪,因为更高的分辨率总是意味着更好的结果,但也许问题归结为提示技术问题或仅仅是生成中的运气不好。

也就是说,具有 1080p 版本的 Kling 2.1 标准是一款出色的型号,可以与 Google Veo 3 相媲美。

平台限制决定了每个工具的工作流程各不相同。Kling 2.1 的音频功能仅适用于图像转视频,不支持文本转视频,后者是 Master 版本独有的,不支持音频——是的,这很奇怪,但事实就是如此。

最好的解决方法是使用快手的图片生成器 Kolors 创建起始帧,然后将其转换为带有同步音频的视频。Kolors 可以生成高度逼真的图像,是视频生成的绝佳起点。

但是,您可能会发现包括 Reve、MidJourney、Recraft、 Flux甚至 ChatGPT 在内的模型更容易提示。

Veo 3 采取了相反的方法,仅提供文本到视频的生成,而没有任何图像到视频的选项。

这迫使用户完全依赖于即时工程,而无法控制起始视觉效果。

考虑到之前的 Veo 2 确实通过其独立的Flow平台支持图像到视频转换,谷歌的决定似乎也特别奇怪。

缺乏视觉控制意味着用户必须盲目地生成视频,希望他们的文本提示能够产生所需的起始帧。

内容审核体现了截然不同的理念。Veo 3 采用积极的关键词过滤和生成后检查,屏蔽违反 Google 政策的内容。

系统会在生成之前标记可能存在问题的提示,并分析完成的视频是否存在违反政策的情况。

Kling 施加了更为宽松的限制,允许 Veo 直接阻止的内容。

然而,该模型的训练数据自然排除了露骨内容——该模型生成的人物没有解剖细节,暴力也没有血腥。

因此,用户可以生成绕过关键字过滤器的某些类型的内容,同时仍保持安全边界。

当后世审查制度屏蔽视频时,这两个平台都会退还积分,但 Kling 的审查方式更为宽松,允许在界限内拥有更多的创作自由。

Veo 3 可能仍然是王者,但 Kling 2.1 绝对接近于一个以推翻君主制为使命的民粹主义者。

如果你考虑到它是一款售价 9 美元的工具,而订阅费却高达 250 美元,那么它的音频功能就相当具有革命性了。

大气的声音很有效,雨声听起来像雨,脚步声大部分时间与运动相匹配,并且您可以进行二十次尝试,而 Veo 用户则精心制作他们的单次射击。

这种改造功能,即为完成的视频添加声音,是 Google 所不提供的,它对于挽救无声剪辑确实很有用。

如果你的主要目标是演讲,情况就会完全不同。克林的胡言乱语骗不了任何人。

对于这种特定需求,Google Veo 3 显然是唯一的选择。王者(几乎)已死。克林万岁!

由 Josh Quittner 和Sebastian Sinclair编辑

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论