阿里巴巴 Wan2.1-VACE：所有人的開源 AI 視訊工具

05-15

本文為機器翻譯

展示原文

阿里巴巴推出了Wan2.1-VACE，這是一款旨在改變我們建立和編輯影片方式的開源人工智慧模型。

VACE並非憑空出現，它是阿里巴巴更廣泛的Wan2.1影片人工智慧模型家族的一部分。他們對其做出了相當大膽的宣告，稱其為"業內首個為各種影片生成和編輯任務提供統一解決方案的開源模型"。

如果阿里巴巴能成功將使用者從使用多個獨立工具轉移到一個精簡的中心平臺，這可能會成為真正的顛覆性創新。

那麼，這個模型到底能做什麼呢？首先，它可以使用各種提示生成影片，包括文字命令、靜態圖片，甚至其他影片片段。

但這不僅僅是從頭開始製作影片。編輯工具包支援引用影象或特定幀來指導人工智慧，高階影片"重繪"（稍後會詳細介紹）、調整現有影片的特定部分，甚至拉伸影片。阿里巴巴認為這些功能"能夠靈活組合各種任務以增強創造力"。

想象一下，你想建立一個特定角色互動的影片，可能基於你擁有的一些照片。VACE聲稱能夠做到這一點。有一張靜態圖片，希望它能動起來？阿里巴巴的開源人工智慧模型可以新增自然的動作使其栩栩如生。

對於喜歡微調的人來說，有我之前提到的高階"影片重繪"功能。這包括從一個主體向另一個主體傳輸姿勢、精確控制運動、調整深度感知，甚至改變顏色。

一個吸引我的功能是它能夠"支援在不影響周圍環境的情況下對影片的特定區域進行新增、修改或刪除"。這對於精細編輯來說是一個巨大的優勢——當你只是想調整一個小元素時，不再會意外地弄亂背景。此外，它還可以擴大你的影片畫布，並用相關內容填充新空間，使一切看起來更豐富、更廣闊。

你可以拿一張平面照片，將其轉換為影片，並透過繪製路徑精確地告訴其中的物件如何移動。需要用你提供的參考物替換一個角色或物件？沒問題。為這些參考角色新增動畫？完成。精確控制他們的姿勢？輕而易舉。

阿里巴巴甚至舉了一個例子，他們的開源人工智慧模型可以將一張高瘦的垂直影象巧妙地向兩側擴充套件成寬屏影片，透過引用其他影象或提示自動新增新的部分。這相當不錯。

當然，VACE並非魔法。其中涉及一些巧妙的技術，旨在處理影片編輯中常見的混亂現實。一個關鍵部分是阿里巴巴稱之為影片條件單元（VCU）的東西，它"支援對文字、影象、影片和蒙版等多模態輸入進行統一處理"。

然後是他們稱之為"上下文介面卡結構"的部分。這個巧妙的工程設計"使用時間和空間維度的規範化表示注入各種任務概念"。本質上，可以將其視為賦予人工智慧對影片中的時間和空間有很好的理解。

憑藉所有這些巧妙的技術，阿里巴巴認為VACE將在多個領域大受歡迎。想想快速的社交媒體剪輯、引人注目的廣告和營銷內容、電影和電視的後期特效，甚至用於生成定製的教育和培訓影片。

構建如此強大的人工智慧模型通常需要鉅額成本，並需要海量計算能力和大量資料。因此，阿里巴巴將Wan2.1-VACE開源？這是一件大事。

"開放訪問有助於降低更多企業利用人工智慧的門檻，使他們能夠快速且經濟高效地建立符合自身需求的高質量視覺內容，"阿里巴巴解釋道。

基本上，阿里巴巴希望讓更多人——尤其是中小型企業和個人創作者——無需花費鉅額成本就能獲得頂級人工智慧工具。這種強大工具的民主化總是令人欣慰的。

而且他們不僅僅釋出一個版本。對於那些擁有強大硬體的使用者，有一個140億引數的模型，對於輕量級設定，還有一個更靈活的13億引數模型。你現在可以在Hugging Face、GitHub上免費獲取，或透過阿里巴巴雲自己的開源社群ModelScope獲取。

（圖片來源：www.alibabagroup.com）

想要向行業領袖瞭解更多關於人工智慧和大資料的資訊嗎？請檢視人工智慧與大資料博覽會，該活動將在阿姆斯特丹、加利福尼亞和倫敦舉行。這個全面的活動與其他領先活動同期舉辦，包括智慧自動化大會、區塊鏈大會、數字轉型周和網路安全與雲計算博覽會。

探索由TechForge提供支援的其他即將到來的企業技術活動和網路研討會，請點選此處。