中國售價 9 美元的 AI 視訊工具 Kling 2.1 增加了音訊——它能擊敗谷歌售價 250 美元的 Veo 3 嗎?

avatar
Decrypt
06-17
本文為機器翻譯
展示原文

中國短視頻平臺快手在其人工智能視頻創作工具 Kling 2.1 中添加了音頻生成功能,使用戶能夠製作具有同步音效(如腳步聲、雨聲和環境噪音)的片段。

該功能於上週悄然推出,可在 Kling 的圖像轉視頻模式下使用,用戶上傳靜止圖像,平臺利用人工智能生成的動作和音頻為其製作動畫。

從時間上看,Kling 是與谷歌的 Veo 3 競爭的,後者從第一天推出就具備集成音頻功能。

X 的早期用戶對 Kling 的無縫視聽同步大加讚賞,其創始人 Roberto Nickson 稱其為製作生成視頻內容的“市場上最有用的模型之一”。

該功能在首次推出時是免費的,可通過 Kling 的網站和移動應用程序訪問。

Kling 2.1 可生成 5 到 10 秒的片段,分辨率高達 1080p,利用該公司所稱的“3D 時空注意機制”將聲音與視覺同步。

該音頻工具目前僅生成音效,沒有對話或音樂,並且當包含文本時,生成的音頻類似於東南亞語言的音頻——音調非常重,完全無法理解。但僅憑這一點,谷歌還不足以成為生成視頻領域無可爭議的王者。

我們測試了 Kling 2.1 的新音頻功能與 Google 的 Veo 3,以瞭解這款新貴產品的表現如何。

兩個平臺之間的價格差距非常大。

Kling 2.1 的音頻功能僅兼容標準版,不兼容高端的 Master 版。不過,按照目前的速度,用戶每次使用 Veo 3 創作,都可以在 Kling 上生成 20 多個視頻。

例如,使用 Freepik 的積分系統,搭載 Google Veo 3 的一代產品目前售價為 4,000 積分(正常價格為每個視頻 8,000 積分),而 Kling 2.1 的每個視頻售價為 300 積分。

谷歌的模式僅通過其每月 250 美元的Ultra 訂閱運行。Kling 在其官方網站上提供一些免費版本,訂閱費用約為每月 9 美元起。

即使按照 Google 目前的促銷價格,Veo 3 仍然比 Kling 貴十倍。

對於那些知道視頻生成需要大量反覆試驗的創作者來說,失敗率甚至會讓有耐心的用戶感到沮喪,而 Kling 的經濟學讓實驗變得可行。

Kling 的 Premium 計劃可解鎖 1080p 分辨率,提高整體視頻質量,同時仍保持成本優勢。

但一分價錢一分貨。Veo 3 提供複雜的聲音生成功能,可精確合成語音,並將複雜的音頻元素與視覺場景進行匹配。

它對空間音頻和情境聲音的理解遠遠超過了 Kling 的產品。

雖然 Kling 2.1 無法與之匹敵,但平心而論,它的目標有所不同:環境音效和背景效果——沒有對話,沒有音樂。所以,現在就別想那些火爆的 AI 街頭採訪了。嘗試生成音頻只會產生胡言亂語。

然而對於需要大氣音頻的場景或視頻來說,其效果還是不錯的。

該平臺新增了為現有無聲視頻添加效果的功能,這是 Veo 3 無法比擬的優勢。

用戶可以上傳已完成的視頻,並添加合適的音景,而谷歌的模型並不支持這種工作流程。奇怪的是,Veo 可以創建視頻,但無法編輯。

除了能夠為無聲視頻創建聲音之外,Kling 還提供唇形同步功能。

用戶可以分別上傳一張照片和一段演講或對話,模型會根據上傳的音頻,製作出一段人物自然互動、如同在互相交談一樣的視頻。

二十比一的代數比例意味著創作者可以在 Kling 上嘗試不同的音頻方法,而 Veo 3 用戶只需更少的嘗試即可完成他們的聲音設計。

對於業餘愛好者和學習生成視頻的人來說,克林的方法提供了更多的反覆試驗的空間。

但需要精確視聽同步和對話的專業創作者會發現 Veo 3 的複雜聲音引擎值得付出高昂的價格。

視頻質量測試取得了意想不到的效果。在一個女子逃離巨型蜘蛛的測試場景中,Kling 2.1 標準版的表現甚至超越了 Veo 3 及其 Master 版。

標準模型準確地描述了場景的動態,展現了流暢的運動和正確的方向性運動。Veo 3 莫名其妙地生成了女人朝著蜘蛛跑去而不是躲避它的畫面。

大師版通常會產生更清晰、更明快的視覺效果,但標準版則表現出更出色的場景理解力和更流暢的動作。

這很奇怪,因為更高的分辨率總是意味著更好的結果,但也許問題歸結為提示技術問題或僅僅是生成中的運氣不好。

也就是說,具有 1080p 版本的 Kling 2.1 標準是一款出色的型號,可以與 Google Veo 3 相媲美。

平臺限制決定了每個工具的工作流程各不相同。Kling 2.1 的音頻功能僅適用於圖像轉視頻,不支持文本轉視頻,後者是 Master 版本獨有的,不支持音頻——是的,這很奇怪,但事實就是如此。

最好的解決方法是使用快手的圖片生成器 Kolors 創建起始幀,然後將其轉換為帶有同步音頻的視頻。Kolors 可以生成高度逼真的圖像,是視頻生成的絕佳起點。

但是,您可能會發現包括 Reve、MidJourney、Recraft、 Flux甚至 ChatGPT 在內的模型更容易提示。

Veo 3 採取了相反的方法,僅提供文本到視頻的生成,而沒有任何圖像到視頻的選項。

這迫使用戶完全依賴於即時工程,而無法控制起始視覺效果。

考慮到之前的 Veo 2 確實通過其獨立的Flow平臺支持圖像到視頻轉換,谷歌的決定似乎也特別奇怪。

缺乏視覺控制意味著用戶必須盲目地生成視頻,希望他們的文本提示能夠產生所需的起始幀。

內容審核體現了截然不同的理念。Veo 3 採用積極的關鍵詞過濾和生成後檢查,屏蔽違反 Google 政策的內容。

系統會在生成之前標記可能存在問題的提示,並分析完成的視頻是否存在違反政策的情況。

Kling 施加了更為寬鬆的限制,允許 Veo 直接阻止的內容。

然而,該模型的訓練數據自然排除了露骨內容——該模型生成的人物沒有解剖細節,暴力也沒有血腥。

因此,用戶可以生成繞過關鍵字過濾器的某些類型的內容,同時仍保持安全邊界。

當後世審查制度屏蔽視頻時,這兩個平臺都會退還積分,但 Kling 的審查方式更為寬鬆,允許在界限內擁有更多的創作自由。

Veo 3 可能仍然是王者,但 Kling 2.1 絕對接近於一個以推翻君主制為使命的民粹主義者。

如果你考慮到它是一款售價 9 美元的工具,而訂閱費卻高達 250 美元,那麼它的音頻功能就相當具有革命性了。

大氣的聲音很有效,雨聲聽起來像雨,腳步聲大部分時間與運動相匹配,並且您可以進行二十次嘗試,而 Veo 用戶則精心製作他們的單次射擊。

這種改造功能,即為完成的視頻添加聲音,是 Google 所不提供的,它對於挽救無聲剪輯確實很有用。

如果你的主要目標是演講,情況就會完全不同。克林的胡言亂語騙不了任何人。

對於這種特定需求,Google Veo 3 顯然是唯一的選擇。王者(幾乎)已死。克林萬歲!

由 Josh Quittner 和Sebastian Sinclair編輯

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論