騰訊的全新 AI 視頻生成器免費挑戰 OpenAI 的 Sora

12-06

本文為機器翻譯

展示原文

雖然OpenAI在經歷了數月的延遲後仍在暗示Sora,但騰訊悄悄推出了一個模型,其結果已經與現有的頂級影片生成器相媲美。

騰訊推出了Hunyuan Video,這是一個免費和開源的AI影片生成器,其釋出時間恰逢OpenAI為期12天的公告活動,該活動被廣泛預期將包括其備受期待的影片工具Sora的首次亮相。

"我們推出Hunyuan Video,這是一個全新的開源影片基礎模型,其在影片生成方面的效能可與甚至超越領先的封閉源模型,"騰訊在官方公告中表示。

這家總部位於中國深圳的科技巨頭聲稱,其模型"優於"Runway Gen-3、Luma 1.6和"三個表現最佳的中國影片生成模型",這是基於專業人類評估結果得出的。

時機再合適不過了。

在推出其影片生成器之前,騰訊釋出了一個同名的影象生成器,位於開源影象生成器的SDXL和Flux時代之間。HunyuanDit提供了出色的結果,並提高了對雙語文字的理解,但並未得到廣泛採用。這個家族隨後又推出了一組大型語言模型。

Hunyuan Video使用一個僅有解碼器的多模態大型語言模型作為其文字編碼器,而不是其他AI影片工具和影象生成器中常見的CLIP和T5-XXL組合。

騰訊表示,這有助於該模型更好地遵循指令,更精確地把握影象細節,並能在不需要額外訓練的情況下學習新任務——此外,其因果注意力設定還得益於一個特殊的令牌精煉器,幫助它比傳統模型更徹底地理解提示。

它還會重寫提示,使其更豐富,從而提高生成質量。例如,一個簡單說"一個人在遛狗"的提示,可以透過新增細節、場景設定、光線條件、質量特徵和種族等元素來增強。

與Meta的LLaMA 3一樣,Hunyuan也是免費使用和商業化的,直到你達到1億使用者的門檻——這是大多數開發者短期內都不會擔心的。

但問題在於,你需要一臺至少有60GB GPU記憶體的強大電腦來本地執行它的130億引數模型——相當於Nvidia H800或H20卡的視訊記憶體容量,這已經超過了大多數遊戲PC的總視訊記憶體。

對於那些沒有超級計算機的人來說,雲服務已經開始加入進來。

專為開發者定製的生成媒體平臺FAL.ai已經整合了Hunyuan,每個影片收費0.5美元。其他雲服務提供商,包括Replicate和GoEhnance,也開始提供對該模型的訪問。官方的Hunyuan Video伺服器提供150個積分,價格為10美元,每個影片生成至少需要15個積分。

當然,使用者也可以透過Runpod或Vast.ai等服務在租用的GPU上執行該模型。

早期測試顯示,Hunyuan的質量與商業巨頭如Luma Labs Dream Machine或Kling AI相媲美。影片生成需要大約15分鐘,產生出逼真的序列,人物和動物的運動看起來自然。

測試發現,該模型對英語提示的理解可能比競爭對手更為敏銳。不過,作為開源專案,開發者現在可以對其進行修改和改進。

騰訊表示,其文字編碼器的對齊率最高可達68.5%,即輸出與使用者要求的匹配程度,同時根據內部測試,其視覺質量得分為96.4%。

完整的原始碼和預訓練權重可在GitHub和Hugging Face平臺上下載。

編輯:Sebastian Sinclair,Decrypt

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論