阿里巴巴 Wan2.1-VACE：所有人的开源 AI 视讯工具

05-15

本文为机器翻译

展示原文

阿里巴巴推出了Wan2.1-VACE，这是一款旨在改变我们创建和编辑视频方式的开源人工智能模型。

VACE并非凭空出现，它是阿里巴巴更广泛的Wan2.1视频人工智能模型家族的一部分。他们对其做出了相当大胆的声明，称其为"业内首个为各种视频生成和编辑任务提供统一解决方案的开源模型"。

如果阿里巴巴能成功将用户从使用多个独立工具转移到一个精简的中心平台，这可能会成为真正的颠覆性创新。

那么，这个模型到底能做什么呢？首先，它可以使用各种提示生成视频，包括文本命令、静态图片，甚至其他视频片段。

但这不仅仅是从头开始制作视频。编辑工具包支持引用图像或特定帧来指导人工智能，高级视频"重绘"（稍后会详细介绍）、调整现有视频的特定部分，甚至拉伸视频。阿里巴巴认为这些功能"能够灵活组合各种任务以增强创造力"。

想象一下，你想创建一个特定角色互动的视频，可能基于你拥有的一些照片。VACE声称能够做到这一点。有一张静态图片，希望它能动起来？阿里巴巴的开源人工智能模型可以添加自然的动作使其栩栩如生。

对于喜欢微调的人来说，有我之前提到的高级"视频重绘"功能。这包括从一个主体向另一个主体传输姿势、精确控制运动、调整深度感知，甚至改变颜色。

一个吸引我的功能是它能够"支持在不影响周围环境的情况下对视频的特定区域进行添加、修改或删除"。这对于精细编辑来说是一个巨大的优势——当你只是想调整一个小元素时，不再会意外地弄乱背景。此外，它还可以扩大你的视频画布，并用相关内容填充新空间，使一切看起来更丰富、更广阔。

你可以拿一张平面照片，将其转换为视频，并通过绘制路径精确地告诉其中的对象如何移动。需要用你提供的参考物替换一个角色或对象？没问题。为这些参考角色添加动画？完成。精确控制他们的姿势？轻而易举。

阿里巴巴甚至举了一个例子，他们的开源人工智能模型可以将一张高瘦的垂直图像巧妙地向两侧扩展成宽屏视频，通过引用其他图像或提示自动添加新的部分。这相当不错。

当然，VACE并非魔法。其中涉及一些巧妙的技术，旨在处理视频编辑中常见的混乱现实。一个关键部分是阿里巴巴称之为视频条件单元（VCU）的东西，它"支持对文本、图像、视频和蒙版等多模态输入进行统一处理"。

然后是他们称之为"上下文适配器结构"的部分。这个巧妙的工程设计"使用时间和空间维度的规范化表示注入各种任务概念"。本质上，可以将其视为赋予人工智能对视频中的时间和空间有很好的理解。

凭借所有这些巧妙的技术，阿里巴巴认为VACE将在多个领域大受欢迎。想想快速的社交媒体剪辑、引人注目的广告和营销内容、电影和电视的后期特效，甚至用于生成定制的教育和培训视频。

构建如此强大的人工智能模型通常需要巨额成本，并需要海量计算能力和大量数据。因此，阿里巴巴将Wan2.1-VACE开源？这是一件大事。

"开放访问有助于降低更多企业利用人工智能的门槛，使他们能够快速且经济高效地创建符合自身需求的高质量视觉内容，"阿里巴巴解释道。

基本上，阿里巴巴希望让更多人——尤其是中小型企业和个人创作者——无需花费巨额成本就能获得顶级人工智能工具。这种强大工具的民主化总是令人欣慰的。

而且他们不仅仅发布一个版本。对于那些拥有强大硬件的用户，有一个140亿参数的模型，对于轻量级设置，还有一个更灵活的13亿参数模型。你现在可以在Hugging Face、GitHub上免费获取，或通过阿里巴巴云自己的开源社区ModelScope获取。

（图片来源：www.alibabagroup.com）

想要向行业领袖了解更多关于人工智能和大数据的信息吗？请查看人工智能与大数据博览会，该活动将在阿姆斯特丹、加利福尼亚和伦敦举行。这个全面的活动与其他领先活动同期举办，包括智能自动化大会、区块链大会、数字转型周和网络安全与云计算博览会。

探索由TechForge提供支持的其他即将到来的企业技术活动和网络研讨会，请点击此处。