Kling 2.0 評測:最先進的 AI 視頻質量

avatar
Decrypt
04-21
本文為機器翻譯
展示原文

Kling 2.0,這款由中國科技公司快手釋出的頂級AI影片生成器的重大升級版本,上週面市,引發創作者們驚歎連連,他們迅速花費數百美元測試其功能。

"AI影片質量一夜間提升了10倍。我簡直無言以對,"AI電影製作人PJ Ace在發推稱,他聲稱已經花費1,250美元的額度探索該工具的極限。"我從未見過如此流暢的動作或如此精準的提示。"這條推文獲得了超過75.7萬次瀏覽,凸顯了此次釋出的熱度。

這個新版本相比Kling 1.6有了顯著的飛躍,提供了增強的提示理解、更流暢的角色運動和改進的視覺美感,使用者形容其看起來"像是拍攝的,而非生成的"。最值得注意的是,Kling 2.0可以生成長達2分鐘的影片,在擴充套件敘事可能性方面甩開了OpenAI的Sora。

專門評測生成式AI模型的YouTuber Tim Simmon在其評測中表示:"總的來說,Kling仍然保持著排行榜的頂端位置。"他認為在影象到影片生成方面它是明顯的贏家,而在直接的文字到影片生成方面競爭則更為接近。

這個新版本出現在一個日益擁擠的AI影片生成市場中。競爭對手包括以高保真輸出著稱的Runway(最近釋出了專注於電影效果的v4模型)和谷歌的Veo2,後者擁有強大的文字到影片功能和美觀的結果。

到目前為止,該模型尚未出現在Artificial Analysis的影片生成器排行榜上,但其前身Kling 1.6已經在影象到影片方面位居榜首,並在基於盲測的文字到影片排名中位居第二。

Kling 2.0配備了多元素編輯器,允許使用者使用文字或影象輸入新增、替換或刪除影片內容。

該平臺還引入了兩個專門的元件:用於影片生成的Kling 2.0 Master和用於影象建立的Kolors 2.0,這為創作者提供了更多輸出控制。

該工具對電影質量的關注使其對電影製作人、營銷人員和內容創作者特別有吸引力。該模型在資源方面極其強大,免費計劃生成需要數小時,線上平臺上生成近5秒的影片可能需要長達16分鐘。

定價從標準計劃的每月29美元起,包括專業模式、8秒影片和每天30個影片的配額。免費計劃提供每天6次生成,限制4秒並帶水印。專業計劃每月89美元,提供高解析度、高階運動控制和優先處理。

我們在五個類別中測試了這個新模型——動態性、插圖、文字到影片、結構連貫性和多主體連貫性。以下是我們的發現。

所有影片生成器都能很好地處理靜態場景,但通常在快速移動、複雜場景和動態設定方面遇到困難。這反映了真實影片或動畫——暫停電視畫面,無論是在"貓和老鼠"追逐場景還是激烈的戰爭場景中,你都會發現處處是奇怪的畫面。

我們用一張男子在城市中飛行的靜態影象測試了該模型。

Kling 2.0對細微的提示變化極其敏感。我們第一次嘗試使用:"動態跟蹤鏡頭:一名男子以極高速度在繁忙的城市街道飛行。攝像機緊隨其後,捕捉飛馳而過的建築和交通,在他sharp轉彎後增強速度和興奮感。"

不幸的是,這個提示生成了一種主體被吸入街道背面的幻覺。這可能是由於我們在提示中的用詞選擇。

所以我們僅僅刪除了一個詞:"後面"。這改變了結果,生成了一個更好的影片,顯示主體面向攝像機向前飛行。

Kling捕捉了關鍵場景元素——動態和快節奏的運動,儘管主體在改變方向時身體變形怪異,某些元素缺乏統一結構。其他模型如谷歌的Veo2以犧牲動態性換取真實性,創造出更慢、更靜態但更連貫的場景。

提示:"360度水平全景:一座繁忙的城市精心建造在一棵巨大的樹周圍,佈滿房屋和橋樑。攝像機從樹的正面平滑移動到背面,捕捉孩子們玩耍、人們進行日常活動,以及飛行汽車在樹枝上降落和起飛,在溫暖、誘人的氛圍中。"

該模型在漫畫和插圖等富有想象力的風格方面表現出色,但在細節方面有些困難。它優先考慮連貫性而非細節,尊重主要提示元素,具有流暢的攝像機運動和流暢的場景。

物件結構保持穩固,沒有其他生成器中常見的抖動,儘管一些孩子(這些將是原始構圖結構之外的小細節——一棵樹和周圍的繁忙場景)失去了連貫性,飛行汽車偶爾會消失。

儘管如此,這個測試產生了我們在任何影片生成器中見過的最佳結果。

提示:"一位金髮女子身穿紅色連衣裙和一位身穿黑色西裝的亞洲男子在星巴克內交談。中景。"

文字到影片對AI生成器來說是獨特的挑戰。模型必須建立初始幀(本質上是文字到影象的任務)並以此作為所有後續幀的參考。理想情況下,你會希望為那個第一幀使用專門的影象生成器——如果想要最佳連貫性,最後一幀也是如此。

Kling 2.0在這方面並不特別出色,但也不算太差。場景具有許多影象生成器常見的氣刷風格,但身體保持適當結構,手指看起來準確,沒有明顯的偽影破壞場景。

這是對Kling 1.6的改進,但不是該模型的設計初衷。

提示:"鳥瞰視角:複雜的抽象建築結構旋轉鏡頭。"

雖然Kling在擁擠場景的小細節方面可能會遇到困難,但在單一主體鏡頭中保持連貫性和細節方面表現出色。

我們分享了一張複雜作品的影象,並要求模型使其旋轉。Kling 2.0幾乎完美地處理了這個任務——燈光保持一致,運動均勻,沒有出現偽影,結構完整性得以保持。

這種能力使其可能對3D建模很有價值,能夠從不同角度預覽物件和場景。

提示:"五隻灰狼幼崽在偏遠的礫石路上嬉戲追逐,周圍是草地。幼崽們奔跑、跳躍,追逐彼此,互相輕咬,玩耍。"

這仍然是所有影片模型的致命弱點,包括Kling 2.0。自從OpenAI展示Sora無法生成一群玩耍的幼年動物以來,所有影片生成器都以不同程度的成功嘗試過這一挑戰。沒有模型能consistently實現完美結果。

Kling 2.0生成了一個生動、足夠真實的場景,但狼彼此融合,在幀間出現和消失。如果僅分析連貫性,那麼Kling 2.0和Kling 1.6之間沒有太大區別。

一個值得注意的改進:不規則性主要發生在背景中,前景動物大多數時候保持更好的連貫性。

可以透過Kling AI、Freepik、Pollo AI和其他提供商訪問Kling 2.0。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
2
收藏
評論