谷歌加倍投入人工智能：Veo 3、Imagen 4 和Gemini Diffusion 拓展創意邊界

Decrypt

05-22

本文為機器翻譯

展示原文

谷歌2025年I/O大會從未以微妙著稱。今年，該公司拋棄了漸進式改進，提供了一系列生成式人工智慧升級，旨在重新繪製搜尋、影片和數字創意的地圖。

關鍵點是：Gemini，谷歌的下一代模型系列，現在正在為從搜尋結果到影片合成和高解析度影象創作的一切提供動力——在一場越來越多地由人工智慧生成的速度和原生能力定義的競賽中開拓新領域。

最大的亮點是Veo 3，谷歌首個人工智慧影片生成器，不僅可以建立視覺效果，還能建立完整的配樂——環境噪音、音效，甚至對話——直接與畫面同步。輸入文字和影象提示，輸出完全製作的4K影片。

這標誌著第一個能夠同時生成音訊和視覺效果的大規模影片模型——這一趨勢始於Showrunner Alpha，一個未釋出的模型，但Veo3提供了更多versatility，可以生成各種風格，而不僅僅是簡單的2D卡通動畫。

谷歌實驗室副總裁Josh Woodward在釋出會上表示："我們正在進入一個音訊和影片生成結合的新時代。"這直接挑戰了當前影片生成領導者——Kling、Hunyuan、Luma、Wan和OpenAI的Sora——將Veo定位為一體化解決方案，而不是需要多種工具。

與Veo3一起，谷歌最新版本的影象生成模型Imagen 4也到來，具有增強的照片寫實性、2K解析度，最重要的是，文字渲染實際上可以用於標牌、產品和數字模型。

對於那些忍受過之前人工智慧影象模型生成的胡言亂語的人來說，Imagen 4代表了顯著的進步。

這些工具並非獨立存在。Flow AI是一項針對專業使用者的新訂閱功能，將Veo、Imagen和Gemini的語言能力結合到一個統一的電影製作和場景編輯環境中。但這種整合是有代價的——在全價250美元開始收費之前，促銷期間每月125美元可以訪問完整工具包。

生成式人工智慧不僅僅是為內容創作者服務。Gemini 2.5現在成為公司重新設計的搜尋引擎的支柱，谷歌希望將其從連結聚合器演變為動態的、對話式介面，能處理複雜查詢並提供綜合的多源答案。

AI概述——谷歌Gemini試圖提供全面答案，無需使用者點選其他網站——現在位於搜尋頁面頂部，谷歌報告每月使用者超過15億。

另一個有趣的發展是"Gemini Diffusion"，其技術是幾個月前由Inception Labs開創的。直到最近，人工智慧社群普遍認為自迴歸技術最適合文字生成，而擴散技術最適合影象。

自迴歸模型透過閱讀所有先前生成的內容來確定最佳下一個標記，每次生成新標記——這對於透過不斷審查提示和先前輸出來製作連貫的文字響應是理想的。

擴散技術的工作方式不同，從用隨機資訊填充所有上下文開始，並在每一步細化（擴散）輸出，使最終產品符合提示——這對於具有固定畫布和美學的影象來說是完美的。

OpenAI首次成功地將自迴歸生成應用於影象模型，現在谷歌成為第一家將擴散生成應用於文字的主要公司。這意味著模型從無意義開始，並在每次迭代中完善整個輸出，每秒生成數千個標記同時保持準確性——作為參考，Groq（不是xAI的Grok）是世界上最快的推理提供商之一，生成接近275個標記每秒，而傳統提供商如OpenAI或Anthropic無法接近這些速度。

然而，該模型尚未公開——有興趣的使用者必須加入等候名單——但早期採用者已分享了顯示模型速度和精確度的令人印象深刻的結果。

我們獲得了谷歌幾個新的人工智慧功能，根據不同等級得到了不同的結果。

深度研究特別強大——甚至超過了ChatGPT的替代方案。這個全面的研究代理評估數百個來源，並提供可靠的資訊，錯誤極少。

與OpenAI的研究代理相比，它的優勢在於能夠生成資訊圖。在生成完整的研究文字後，它可以將這些資訊濃縮成視覺上吸引人的幻燈片。我們向模型輸入了關於谷歌最新公告的所有內容，它透過圖表、方案、圖形和思維導圖呈現了準確的資訊。

Veo 3仍然僅限於Gemini Ultra使用者，儘管一些第三方提供商如Freepik和Fal.ai已透過API提供訪問。除非升級到Ultra套餐，否則無法嘗試Flow。

Flow證明是一個直觀的影片編輯器，以Veo模型為核心，允許使用者使用簡單的文字提示編輯、剪輯、擴充套件和修改人工智慧場景。

然而，即使Veo2也得到了一些關愛，這讓Pro使用者的生活變得更加輕鬆。現在可訪問的Veo2生成速度顯著更快——我們在大約30秒內建立了8秒的影片。雖然Veo2缺少聲音，目前僅支援文字到影片（影象到影片即將推出），但它理解了我們的提示，甚至生成了連貫的文字。

Veo2的效能已經可以與Kling 2.0相媲美，後者被廣泛認為是生成式影片行業的質量基準。新的Veo3生成效果似乎更加逼真、連貫，背景聲音好，對話和聲音栩栩如生。

對於Imagen，很難一眼就判斷谷歌是使用第4版還是仍在Gemini聊天機器人介面上使用第3版，儘管使用者可以透過Whisk確認。我們的初步測試表明，Imagen 4優先考慮寫實性，除非另有說明，並且在提示遵循和視覺效果方面都超過了其前身。

我們生成了一張影象，其中包含通常不會出現在同一場景中的不同元素。我們的提示是："一位女性的照片，皮膚由玻璃製成，周圍有數千個閃光和虛幻的碎片，在巴洛克風格的房間裡，'Decrypt'一詞以霓虹燈形式書寫，寫實風格。"

儘管Imagen 3和Imagen 4都理解了概念和元素，但Imagen 3未能捕捉寫實風格——而Imagen 4輕鬆做到了。總的來說，Imagen 4可與目前最先進的影象生成器相媲美，尤其是考慮到提示多麼容易。

音訊概述也有所改進，模型現在可以在Gemini上輕鬆提供超過20分鐘的完整辯論，而不是強迫使用者切換到NotebookLM。這使得Gemini成為一個更完整的介面，減少了之前需要使用者在不同網站之間跳轉以獲取各種服務的分散性。

質量與NotebookLM相當，平均輸出略長。然而，關鍵特點不在於模型更好，而是現在嵌入到Gemini的聊天機器人使用者介面中。

谷歌並未隱藏其盈利策略。公司的"Ultra"套餐每月250美元，捆綁了最強大模型的優先訪問權、Flow AI工具和30TB儲存空間——明顯針對電影製作者、嚴肅創作者和企業。20美元的"AI Pro"層級解鎖了谷歌之前的Veo2模型，以及面向更廣泛使用者群的影象和生產力功能。基本生成工具——如簡單的Gemini Live和影象創作——仍然是免費的，但有限制，如標記上限和每月僅10次研究。

這種分層方法反映了更廣泛的人工智慧市場趨勢：透過免費服務推動大規模採用，然後用對專業人士來說太有用而無法放棄的功能鎖定他們。谷歌的賭注是，真正的行動（和利潤）在於高階創意工作和自動化企業工作流程——而不僅僅是隨意提示和meme生成。

編輯：Andrew Hayward