谷歌將人工智能音樂生成技術引入Gemini——我們嘗試過了,但為時已晚,收效甚微。

avatar
Decrypt
02-20
本文為機器翻譯
展示原文

谷歌多年來一直在默默研發其人工智能音樂模型。週二,它終於將其發佈到了一個所有人都能真正使用的地方。

谷歌DeepMind最新的音樂生成模型Lyria 3現已在Gemini應用程序中推出測試版,任何18歲以上的用戶都可以描述一個想法或上傳一張照片,並在幾秒鐘內獲得一首完整的歌曲——包括歌詞、樂器演奏和AI生成的封面藝術。

谷歌在其官方博客中表示:“只需描述一個想法或上傳一張照片,例如‘一首關於襪子找到另一半的滑稽R&B慢歌’, Gemini就能在幾秒鐘內將其轉化為一首高質量、朗朗上口的歌曲。為了進一步拓展創意空間,你甚至可以讓Gemini從你上傳的內容中汲取靈感。”

我們試用了一下。簡而言之:它確實有效,也很有趣,而且可能會給那些從未用過 Suno 或 Udio 等其他先進型號的用戶留下深刻印象。但對於那些已經用過這些型號的用戶來說,它短期內不會取代他們的工作流程。

Lyria 3 生成的曲目時長為 30 秒。這是目前的上限,谷歌也坦誠地表示——他們的目標並非製作精美的商業歌曲,而是創造易於分享的瞬間。我們測試的曲目流暢連貫,歌詞與提示相符,製作質量也相當不錯。

以下是 Google、Suno 和 Udio 使用相同提示符可以執行的操作:

當你嘗試突破界限時,問題就出現了。Lyria 3 似乎能夠輕鬆駕馭一系列音樂類型——流行、非洲節奏、R&B、輕嘻哈等等。但當我們測試需要更具體或更不尋常風格的提示時,該模型就難以準確識別。DeepMind 的提示指南也隱含地承認了這一點:它提供了大量主流音樂類型的示例,而對其他類型的音樂則缺乏指導。

相比之下, Udio在 2024 年發佈時就配備了“提示強度”滑塊、背景噪音清晰度調節器以及用於排除特定聲音或風格的否定提示等控制功能。Suno可以生成結構完整的多分鐘歌曲——包含主歌、副歌和橋段——被認為是業內最佳之選。這兩款工具都能讓你生成聽起來像真正歌曲而非採樣的長篇曲目。Lyria 3 的 30 秒時長限制以及其在不尋常的提示下容易偏離主題的特性,使其處於另一個層次。

此外,還有一些法律背景值得一提。Suno 和 Udio 都曾於 2024 年被美國唱片工業協會 (RIAA) 起訴,指控其未經許可使用受版權保護的錄音訓練模型。Udio 於 2025 年 11 月與華納音樂達成和解,目前正在轉型為完全獲得授權的平臺,預計將於 2026 年上線。Suno 的案件仍在審理中。

谷歌方面表示,在訓練 Lyria 3 時,他們“非常注意版權和合作夥伴協議”,並且該模型刻意避免模仿特定藝術家——如果你在提示中提到一位藝術家,Lyria 會將其視為情緒靈感,而不是直接指令。

在安全性和透明度方面, Gemini生成的所有曲目都嵌入了 SynthID,這是谷歌的無痕 AI 水印。該公司還在Gemini中添加了音頻驗證功能:您可以上傳曲目並查詢其是否由谷歌 AI 生成。隨著 AI 生成的音頻充斥流媒體平臺,這種溯源工具的重要性日益凸顯——Deezer 已經部署了檢測工具來識別和標記 AI 音樂中的虛假音頻流。

Lyria 3 今日起面向所有 18 歲及以上的Gemini用戶推出桌面版,支持英語及其他幾種語言。移動版將在未來幾天內陸續上線。Google AI Plus、Pro 和 Ultra 訂閱用戶可享受更高的生成上限。此外,該模型還將 YouTube 的 Dream Track 功能擴展至全球,此前該功能僅限美國用戶使用,現在 Shorts 創作者可以使用 AI 生成的配樂為其視頻創作配樂。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
52
收藏
12
評論