Stability AI推出了“稳定音频”,这是一种旨在彻底改变音频生成的潜在扩散模型。
这一突破有望成为生成人工智能的又一次飞跃,它结合了文本元数据、音频持续时间和开始时间调节,对生成的音频的内容和长度提供前所未有的控制,甚至可以创建完整的歌曲。
传统上,音频扩散模型在生成固定持续时间的音频方面面临着重大限制,通常会导致突然且不完整的音乐短语。这主要是因为模型接受了从较长文件中裁剪出的随机音频块的训练,然后强制达到预定的长度。
稳定音频有效地解决了这一历史性挑战,能够生成指定长度的音频,直至训练窗口大小。
稳定音频的突出特点之一是它使用大量下采样的音频潜在表示,与原始音频相比,推理时间大大加快。通过尖端的扩散采样技术,旗舰稳定音频模型可以利用 NVIDIA A100 GPU 的强大功能,在一秒内以 44.1 kHz 采样率生成 95 秒的立体声音频。
扎实的基础
Stable Audio 的核心架构包括变分自动编码器 (VAE)、文本编码器和基于 U-Net 的条件扩散模型。
VAE 通过将立体声音频压缩为抗噪、有损潜在编码来发挥关键作用,从而显着加快生成和训练过程。这种方法基于描述音频编解码器编码器和解码器架构,有助于任意长度音频的编码和解码,同时确保高保真输出。
为了利用文本提示的影响,Stability AI 使用了一个文本编码器,该编码器源自专门在其数据集上训练的CLAP模型。这使得模型能够向文本特征注入有关单词和声音之间关系的信息。这些从 CLAP 文本编码器倒数第二层提取的文本特征通过交叉注意力层集成到扩散 U-Net 中。
在训练过程中,模型学习合并音频块中的两个关键属性:起始秒数(“seconds_start”)和原始音频文件的总持续时间(“seconds_total”)。这些属性每秒转换为离散的学习嵌入,然后与文本提示标记连接起来。这种独特的调节允许用户在推理过程中指定生成音频的所需长度。
Stable Audio 核心的扩散模型拥有惊人的 9.07 亿个参数,并利用残差层、自注意力层和交叉注意力层的复杂混合来对输入进行降噪,同时考虑文本和时序嵌入。为了提高较长序列长度的内存效率和可扩展性,该模型结合了内存高效的注意力实现。
为了训练旗舰版 Stable Audio 模型,Stability AI 整理了一个广泛的数据集,其中包含超过 800,000 个音频文件,涵盖音乐、音效和单乐器主干。这个丰富的数据集是与著名的音乐提供商AudioSparx合作提供的,其音频长度达到惊人的 19,500 小时。
Stable Audio 代表了音频生成研究的先锋,诞生于 Stability AI 的生成音频研究实验室Harmonai 。该团队仍然致力于推进模型架构、完善数据集和增强培训程序。他们的追求包括提高输出质量、微调可控性、优化推理速度以及扩大可实现的输出长度范围。
Stability AI 暗示了 Harmonai 即将发布的版本,并暗示了基于稳定音频和可访问训练代码的开源模型的可能性。
这一最新的突破性公告是在一系列有关稳定性的值得注意的故事之后发布的。本周早些时候,Stability 与其他七家知名人工智能公司一起签署了白宫自愿人工智能安全承诺,作为第二轮的一部分。
您可以在这里亲自尝试稳定音频。
(埃里克·诺帕宁 ( Eric Nopanen ) 在Unsplash上拍摄)

想向行业领导者了解更多关于人工智能和大数据的知识吗?查看在阿姆斯特丹、加利福尼亚州和伦敦举办的人工智能与大数据博览会。该综合活动与数字化转型周同期举行。





