谷歌将人工智能音乐生成技术引入Gemini——我们尝试过了,但为时已晚,收效甚微。

avatar
Decrypt
02-20
本文为机器翻译
展示原文

谷歌多年来一直在默默研发其人工智能音乐模型。周二,它终于将其发布到了一个所有人都能真正使用的地方。

谷歌DeepMind最新的音乐生成模型Lyria 3现已在Gemini应用程序中推出测试版,任何18岁以上的用户都可以描述一个想法或上传一张照片,并在几秒钟内获得一首完整的歌曲——包括歌词、乐器演奏和AI生成的封面艺术。

谷歌在其官方博客中表示:“只需描述一个想法或上传一张照片,例如‘一首关于袜子找到另一半的滑稽R&B慢歌’, Gemini就能在几秒钟内将其转化为一首高质量、朗朗上口的歌曲。为了进一步拓展创意空间,你甚至可以让Gemini从你上传的内容中汲取灵感。”

我们试用了一下。简而言之:它确实有效,也很有趣,而且可能会给那些从未用过 Suno 或 Udio 等其他先进型号的用户留下深刻印象。但对于那些已经用过这些型号的用户来说,它短期内不会取代他们的工作流程。

Lyria 3 生成的曲目时长为 30 秒。这是目前的上限,谷歌也坦诚地表示——他们的目标并非制作精美的商业歌曲,而是创造易于分享的瞬间。我们测试的曲目流畅连贯,歌词与提示相符,制作质量也相当不错。

以下是 Google、Suno 和 Udio 使用相同提示符可以执行的操作:

当你尝试突破界限时,问题就出现了。Lyria 3 似乎能够轻松驾驭一系列音乐类型——流行、非洲节奏、R&B、轻嘻哈等等。但当我们测试需要更具体或更不寻常风格的提示时,该模型就难以准确识别。DeepMind 的提示指南也隐含地承认了这一点:它提供了大量主流音乐类型的示例,而对其他类型的音乐则缺乏指导。

相比之下, Udio在 2024 年发布时就配备了“提示强度”滑块、背景噪音清晰度调节器以及用于排除特定声音或风格的否定提示等控制功能。Suno可以生成结构完整的多分钟歌曲——包含主歌、副歌和桥段——被认为是业内最佳之选。这两款工具都能让你生成听起来像真正歌曲而非采样的长篇曲目。Lyria 3 的 30 秒时长限制以及其在不寻常的提示下容易偏离主题的特性,使其处于另一个层次。

此外,还有一些法律背景值得一提。Suno 和 Udio 都曾于 2024 年被美国唱片工业协会 (RIAA) 起诉,指控其未经许可使用受版权保护的录音训练模型。Udio 于 2025 年 11 月与华纳音乐达成和解,目前正在转型为完全获得授权的平台,预计将于 2026 年上线。Suno 的案件仍在审理中。

谷歌方面表示,在训练 Lyria 3 时,他们“非常注意版权和合作伙伴协议”,并且该模型刻意避免模仿特定艺术家——如果你在提示中提到一位艺术家,Lyria 会将其视为情绪灵感,而不是直接指令。

在安全性和透明度方面, Gemini生成的所有曲目都嵌入了 SynthID,这是谷歌的无痕 AI 水印。该公司还在Gemini中添加了音频验证功能:您可以上传曲目并查询其是否由谷歌 AI 生成。随着 AI 生成的音频充斥流媒体平台,这种溯源工具的重要性日益凸显——Deezer 已经部署了检测工具来识别和标记 AI 音乐中的虚假音频流。

Lyria 3 今日起面向所有 18 岁及以上的Gemini用户推出桌面版,支持英语及其他几种语言。移动版将在未来几天内陆续上线。Google AI Plus、Pro 和 Ultra 订阅用户可享受更高的生成上限。此外,该模型还将 YouTube 的 Dream Track 功能扩展至全球,此前该功能仅限美国用户使用,现在 Shorts 创作者可以使用 AI 生成的配乐为其视频创作配乐。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
52
收藏
12
评论