Kling 2.0,这款由中国科技公司快手发布的顶级AI视频生成器的重大升级版本,上周面市,引发创作者们惊叹连连,他们迅速花费数百美元测试其功能。
"AI视频质量一夜间提升了10倍。我简直无言以对,"AI电影制作人PJ Ace在发推称,他声称已经花费1,250美元的额度探索该工具的极限。"我从未见过如此流畅的动作或如此精准的提示。"这条推文获得了超过75.7万次浏览,凸显了此次发布的热度。
这个新版本相比Kling 1.6有了显著的飞跃,提供了增强的提示理解、更流畅的角色运动和改进的视觉美感,用户形容其看起来"像是拍摄的,而非生成的"。最值得注意的是,Kling 2.0可以生成长达2分钟的视频,在扩展叙事可能性方面甩开了OpenAI的Sora。
专门评测生成式AI模型的YouTuber Tim Simmon在其评测中表示:"总的来说,Kling仍然保持着排行榜的顶端位置。"他认为在图像到视频生成方面它是明显的赢家,而在直接的文本到视频生成方面竞争则更为接近。
这个新版本出现在一个日益拥挤的AI视频生成市场中。竞争对手包括以高保真输出著称的Runway(最近发布了专注于电影效果的v4模型)和谷歌的Veo2,后者拥有强大的文本到视频功能和美观的结果。
到目前为止,该模型尚未出现在Artificial Analysis的视频生成器排行榜上,但其前身Kling 1.6已经在图像到视频方面位居榜首,并在基于盲测的文本到视频排名中位居第二。
Kling 2.0配备了多元素编辑器,允许用户使用文本或图像输入添加、替换或删除视频内容。
该平台还引入了两个专门的组件:用于视频生成的Kling 2.0 Master和用于图像创建的Kolors 2.0,这为创作者提供了更多输出控制。
该工具对电影质量的关注使其对电影制作人、营销人员和内容创作者特别有吸引力。该模型在资源方面极其强大,免费计划生成需要数小时,在线平台上生成近5秒的视频可能需要长达16分钟。
定价从标准计划的每月29美元起,包括专业模式、8秒视频和每天30个视频的配额。免费计划提供每天6次生成,限制4秒并带水印。专业计划每月89美元,提供高分辨率、高级运动控制和优先处理。
我们在五个类别中测试了这个新模型——动态性、插图、文本到视频、结构连贯性和多主体连贯性。以下是我们的发现。
所有视频生成器都能很好地处理静态场景,但通常在快速移动、复杂场景和动态设置方面遇到困难。这反映了真实视频或动画——暂停电视画面,无论是在"猫和老鼠"追逐场景还是激烈的战争场景中,你都会发现处处是奇怪的画面。
我们用一张男子在城市中飞行的静态图像测试了该模型。
Kling 2.0对细微的提示变化极其敏感。我们第一次尝试使用:"动态跟踪镜头:一名男子以极高速度在繁忙的城市街道飞行。摄像机紧随其后,捕捉飞驰而过的建筑和交通,在他sharp转弯后增强速度和兴奋感。"
不幸的是,这个提示生成了一种主体被吸入街道背面的幻觉。这可能是由于我们在提示中的用词选择。
所以我们仅仅删除了一个词:"后面"。这改变了结果,生成了一个更好的视频,显示主体面向摄像机向前飞行。
Kling捕捉了关键场景元素——动态和快节奏的运动,尽管主体在改变方向时身体变形怪异,某些元素缺乏统一结构。其他模型如谷歌的Veo2以牺牲动态性换取真实性,创造出更慢、更静态但更连贯的场景。
提示:"360度水平全景:一座繁忙的城市精心建造在一棵巨大的树周围,布满房屋和桥梁。摄像机从树的正面平滑移动到背面,捕捉孩子们玩耍、人们进行日常活动,以及飞行汽车在树枝上降落和起飞,在温暖、诱人的氛围中。"
该模型在漫画和插图等富有想象力的风格方面表现出色,但在细节方面有些困难。它优先考虑连贯性而非细节,尊重主要提示元素,具有流畅的摄像机运动和流畅的场景。
对象结构保持稳固,没有其他生成器中常见的抖动,尽管一些孩子(这些将是原始构图结构之外的小细节——一棵树和周围的繁忙场景)失去了连贯性,飞行汽车偶尔会消失。
尽管如此,这个测试产生了我们在任何视频生成器中见过的最佳结果。
提示:"一位金发女子身穿红色连衣裙和一位身穿黑色西装的亚洲男子在星巴克内交谈。中景。"
文本到视频对AI生成器来说是独特的挑战。模型必须创建初始帧(本质上是文本到图像的任务)并以此作为所有后续帧的参考。理想情况下,你会希望为那个第一帧使用专门的图像生成器——如果想要最佳连贯性,最后一帧也是如此。
Kling 2.0在这方面并不特别出色,但也不算太差。场景具有许多图像生成器常见的气刷风格,但身体保持适当结构,手指看起来准确,没有明显的伪影破坏场景。
这是对Kling 1.6的改进,但不是该模型的设计初衷。
提示:"鸟瞰视角:复杂的抽象建筑结构旋转镜头。"
虽然Kling在拥挤场景的小细节方面可能会遇到困难,但在单一主体镜头中保持连贯性和细节方面表现出色。
我们分享了一张复杂作品的图像,并要求模型使其旋转。Kling 2.0几乎完美地处理了这个任务——灯光保持一致,运动均匀,没有出现伪影,结构完整性得以保持。
这种能力使其可能对3D建模很有价值,能够从不同角度预览对象和场景。
提示:"五只灰狼幼崽在偏远的砾石路上嬉戏追逐,周围是草地。幼崽们奔跑、跳跃,追逐彼此,互相轻咬,玩耍。"
这仍然是所有视频模型的致命弱点,包括Kling 2.0。自从OpenAI展示Sora无法生成一群玩耍的幼年动物以来,所有视频生成器都以不同程度的成功尝试过这一挑战。没有模型能consistently实现完美结果。
Kling 2.0生成了一个生动、足够真实的场景,但狼彼此融合,在帧间出现和消失。如果仅分析连贯性,那么Kling 2.0和Kling 1.6之间没有太大区别。
一个值得注意的改进:不规则性主要发生在背景中,前景动物大多数时候保持更好的连贯性。
可以通过Kling AI、Freepik、Pollo AI和其他提供商访问Kling 2.0。