中國售價 9 美元的 AI 視訊工具 Kling 2.1 增加了音訊——它能擊敗谷歌售價 250 美元的 Veo 3 嗎？

Decrypt

06-17

本文為機器翻譯

展示原文

中國短視頻平臺快手在其人工智能視頻創作工具 Kling 2.1 中添加了音頻生成功能，使用戶能夠製作具有同步音效（如腳步聲、雨聲和環境噪音）的片段。

該功能於上週悄然推出，可在 Kling 的圖像轉視頻模式下使用，用戶上傳靜止圖像，平臺利用人工智能生成的動作和音頻為其製作動畫。

從時間上看，Kling 是與谷歌的 Veo 3 競爭的，後者從第一天推出就具備集成音頻功能。

X 的早期用戶對 Kling 的無縫視聽同步大加讚賞，其創始人 Roberto Nickson 稱其為製作生成視頻內容的“市場上最有用的模型之一”。

該功能在首次推出時是免費的，可通過 Kling 的網站和移動應用程序訪問。

Kling 2.1 可生成 5 到 10 秒的片段，分辨率高達 1080p，利用該公司所稱的“3D 時空注意機制”將聲音與視覺同步。

該音頻工具目前僅生成音效，沒有對話或音樂，並且當包含文本時，生成的音頻類似於東南亞語言的音頻——音調非常重，完全無法理解。但僅憑這一點，谷歌還不足以成為生成視頻領域無可爭議的王者。

我們測試了 Kling 2.1 的新音頻功能與 Google 的 Veo 3，以瞭解這款新貴產品的表現如何。

兩個平臺之間的價格差距非常大。

Kling 2.1 的音頻功能僅兼容標準版，不兼容高端的 Master 版。不過，按照目前的速度，用戶每次使用 Veo 3 創作，都可以在 Kling 上生成 20 多個視頻。

例如，使用 Freepik 的積分系統，搭載 Google Veo 3 的一代產品目前售價為 4,000 積分（正常價格為每個視頻 8,000 積分），而 Kling 2.1 的每個視頻售價為 300 積分。

谷歌的模式僅通過其每月 250 美元的Ultra 訂閱運行。Kling 在其官方網站上提供一些免費版本，訂閱費用約為每月 9 美元起。

即使按照 Google 目前的促銷價格，Veo 3 仍然比 Kling 貴十倍。

對於那些知道視頻生成需要大量反覆試驗的創作者來說，失敗率甚至會讓有耐心的用戶感到沮喪，而 Kling 的經濟學讓實驗變得可行。

Kling 的 Premium 計劃可解鎖 1080p 分辨率，提高整體視頻質量，同時仍保持成本優勢。

但一分價錢一分貨。Veo 3 提供複雜的聲音生成功能，可精確合成語音，並將複雜的音頻元素與視覺場景進行匹配。

它對空間音頻和情境聲音的理解遠遠超過了 Kling 的產品。

雖然 Kling 2.1 無法與之匹敵，但平心而論，它的目標有所不同：環境音效和背景效果——沒有對話，沒有音樂。所以，現在就別想那些火爆的 AI 街頭採訪了。嘗試生成音頻只會產生胡言亂語。

然而對於需要大氣音頻的場景或視頻來說，其效果還是不錯的。

該平臺新增了為現有無聲視頻添加效果的功能，這是 Veo 3 無法比擬的優勢。

用戶可以上傳已完成的視頻，並添加合適的音景，而谷歌的模型並不支持這種工作流程。奇怪的是，Veo 可以創建視頻，但無法編輯。

除了能夠為無聲視頻創建聲音之外，Kling 還提供唇形同步功能。

用戶可以分別上傳一張照片和一段演講或對話，模型會根據上傳的音頻，製作出一段人物自然互動、如同在互相交談一樣的視頻。

二十比一的代數比例意味著創作者可以在 Kling 上嘗試不同的音頻方法，而 Veo 3 用戶只需更少的嘗試即可完成他們的聲音設計。

對於業餘愛好者和學習生成視頻的人來說，克林的方法提供了更多的反覆試驗的空間。

但需要精確視聽同步和對話的專業創作者會發現 Veo 3 的複雜聲音引擎值得付出高昂的價格。

視頻質量測試取得了意想不到的效果。在一個女子逃離巨型蜘蛛的測試場景中，Kling 2.1 標準版的表現甚至超越了 Veo 3 及其 Master 版。

標準模型準確地描述了場景的動態，展現了流暢的運動和正確的方向性運動。Veo 3 莫名其妙地生成了女人朝著蜘蛛跑去而不是躲避它的畫面。

大師版通常會產生更清晰、更明快的視覺效果，但標準版則表現出更出色的場景理解力和更流暢的動作。

這很奇怪，因為更高的分辨率總是意味著更好的結果，但也許問題歸結為提示技術問題或僅僅是生成中的運氣不好。

也就是說，具有 1080p 版本的 Kling 2.1 標準是一款出色的型號，可以與 Google Veo 3 相媲美。

平臺限制決定了每個工具的工作流程各不相同。Kling 2.1 的音頻功能僅適用於圖像轉視頻，不支持文本轉視頻，後者是 Master 版本獨有的，不支持音頻——是的，這很奇怪，但事實就是如此。

最好的解決方法是使用快手的圖片生成器 Kolors 創建起始幀，然後將其轉換為帶有同步音頻的視頻。Kolors 可以生成高度逼真的圖像，是視頻生成的絕佳起點。

但是，您可能會發現包括 Reve、MidJourney、Recraft、 Flux甚至 ChatGPT 在內的模型更容易提示。

Veo 3 採取了相反的方法，僅提供文本到視頻的生成，而沒有任何圖像到視頻的選項。

這迫使用戶完全依賴於即時工程，而無法控制起始視覺效果。

考慮到之前的 Veo 2 確實通過其獨立的Flow平臺支持圖像到視頻轉換，谷歌的決定似乎也特別奇怪。

缺乏視覺控制意味著用戶必須盲目地生成視頻，希望他們的文本提示能夠產生所需的起始幀。

內容審核體現了截然不同的理念。Veo 3 採用積極的關鍵詞過濾和生成後檢查，屏蔽違反 Google 政策的內容。

系統會在生成之前標記可能存在問題的提示，並分析完成的視頻是否存在違反政策的情況。

Kling 施加了更為寬鬆的限制，允許 Veo 直接阻止的內容。

然而，該模型的訓練數據自然排除了露骨內容——該模型生成的人物沒有解剖細節，暴力也沒有血腥。

因此，用戶可以生成繞過關鍵字過濾器的某些類型的內容，同時仍保持安全邊界。

當後世審查制度屏蔽視頻時，這兩個平臺都會退還積分，但 Kling 的審查方式更為寬鬆，允許在界限內擁有更多的創作自由。

Veo 3 可能仍然是王者，但 Kling 2.1 絕對接近於一個以推翻君主制為使命的民粹主義者。

如果你考慮到它是一款售價 9 美元的工具，而訂閱費卻高達 250 美元，那麼它的音頻功能就相當具有革命性了。

大氣的聲音很有效，雨聲聽起來像雨，腳步聲大部分時間與運動相匹配，並且您可以進行二十次嘗試，而 Veo 用戶則精心製作他們的單次射擊。

這種改造功能，即為完成的視頻添加聲音，是 Google 所不提供的，它對於挽救無聲剪輯確實很有用。

如果你的主要目標是演講，情況就會完全不同。克林的胡言亂語騙不了任何人。

對於這種特定需求，Google Veo 3 顯然是唯一的選擇。王者（幾乎）已死。克林萬歲！

由 Josh Quittner 和Sebastian Sinclair編輯