虽然OpenAI在经历了数月的延迟后仍在暗示Sora,但腾讯悄悄推出了一个模型,其结果已经与现有的顶级视频生成器相媲美。
腾讯推出了Hunyuan Video,这是一个免费和开源的AI视频生成器,其发布时间恰逢OpenAI为期12天的公告活动,该活动被广泛预期将包括其备受期待的视频工具Sora的首次亮相。
"我们推出Hunyuan Video,这是一个全新的开源视频基础模型,其在视频生成方面的性能可与甚至超越领先的封闭源模型,"腾讯在官方公告中表示。
这家总部位于中国深圳的科技巨头声称,其模型"优于"Runway Gen-3、Luma 1.6和"三个表现最佳的中国视频生成模型",这是基于专业人类评估结果得出的。
时机再合适不过了。
在推出其视频生成器之前,腾讯发布了一个同名的图像生成器,位于开源图像生成器的SDXL和Flux时代之间。HunyuanDit提供了出色的结果,并提高了对双语文本的理解,但并未得到广泛采用。这个家族随后又推出了一组大型语言模型。
Hunyuan Video使用一个仅有解码器的多模态大型语言模型作为其文本编码器,而不是其他AI视频工具和图像生成器中常见的CLIP和T5-XXL组合。
腾讯表示,这有助于该模型更好地遵循指令,更精确地把握图像细节,并能在不需要额外训练的情况下学习新任务——此外,其因果注意力设置还得益于一个特殊的令牌精炼器,帮助它比传统模型更彻底地理解提示。
它还会重写提示,使其更丰富,从而提高生成质量。例如,一个简单说"一个人在遛狗"的提示,可以通过添加细节、场景设置、光线条件、质量特征和种族等元素来增强。
与Meta的LLaMA 3一样,Hunyuan也是免费使用和商业化的,直到你达到1亿用户的门槛——这是大多数开发者短期内都不会担心的。
但问题在于,你需要一台至少有60GB GPU内存的强大电脑来本地运行它的130亿参数模型——相当于Nvidia H800或H20卡的显存容量,这已经超过了大多数游戏PC的总显存。
对于那些没有超级计算机的人来说,云服务已经开始加入进来。
专为开发者定制的生成媒体平台FAL.ai已经集成了Hunyuan,每个视频收费0.5美元。其他云服务提供商,包括Replicate和GoEhnance,也开始提供对该模型的访问。官方的Hunyuan Video服务器提供150个积分,价格为10美元,每个视频生成至少需要15个积分。
当然,用户也可以通过Runpod或Vast.ai等服务在租用的GPU上运行该模型。
早期测试显示,Hunyuan的质量与商业巨头如Luma Labs Dream Machine或Kling AI相媲美。视频生成需要大约15分钟,产生出逼真的序列,人物和动物的运动看起来自然。
测试发现,该模型对英语提示的理解可能比竞争对手更为敏锐。不过,作为开源项目,开发者现在可以对其进行修改和改进。
腾讯表示,其文本编码器的对齐率最高可达68.5%,即输出与用户要求的匹配程度,同时根据内部测试,其视觉质量得分为96.4%。
完整的源代码和预训练权重可在GitHub和Hugging Face平台上下载。
编辑:Sebastian Sinclair,Decrypt





