谷歌加倍投入人工智能：Veo 3、Imagen 4 和Gemini Diffusion 拓展创意边界

Decrypt

05-22

本文为机器翻译

展示原文

谷歌2025年I/O大会从未以微妙著称。今年，该公司抛弃了渐进式改进，提供了一系列生成式人工智能升级，旨在重新绘制搜索、视频和数字创意的地图。

关键点是：Gemini，谷歌的下一代模型系列，现在正在为从搜索结果到视频合成和高分辨率图像创作的一切提供动力——在一场越来越多地由人工智能生成的速度和原生能力定义的竞赛中开拓新领域。

最大的亮点是Veo 3，谷歌首个人工智能视频生成器，不仅可以创建视觉效果，还能创建完整的配乐——环境噪音、音效，甚至对话——直接与画面同步。输入文本和图像提示，输出完全制作的4K视频。

这标志着第一个能够同时生成音频和视觉效果的大规模视频模型——这一趋势始于Showrunner Alpha，一个未发布的模型，但Veo3提供了更多versatility，可以生成各种风格，而不仅仅是简单的2D卡通动画。

谷歌实验室副总裁Josh Woodward在发布会上表示："我们正在进入一个音频和视频生成结合的新时代。"这直接挑战了当前视频生成领导者——Kling、Hunyuan、Luma、Wan和OpenAI的Sora——将Veo定位为一体化解决方案，而不是需要多种工具。

与Veo3一起，谷歌最新版本的图像生成模型Imagen 4也到来，具有增强的照片写实性、2K分辨率，最重要的是，文本渲染实际上可以用于标牌、产品和数字模型。

对于那些忍受过之前人工智能图像模型生成的胡言乱语的人来说，Imagen 4代表了显著的进步。

这些工具并非独立存在。Flow AI是一项针对专业用户的新订阅功能，将Veo、Imagen和Gemini的语言能力结合到一个统一的电影制作和场景编辑环境中。但这种集成是有代价的——在全价250美元开始收费之前，促销期间每月125美元可以访问完整工具包。

生成式人工智能不仅仅是为内容创作者服务。Gemini 2.5现在成为公司重新设计的搜索引擎的支柱，谷歌希望将其从链接聚合器演变为动态的、对话式界面，能处理复杂查询并提供综合的多源答案。

AI概述——谷歌Gemini试图提供全面答案，无需用户点击其他网站——现在位于搜索页面顶部，谷歌报告每月用户超过15亿。

另一个有趣的发展是"Gemini Diffusion"，其技术是几个月前由Inception Labs开创的。直到最近，人工智能社区普遍认为自回归技术最适合文本生成，而扩散技术最适合图像。

自回归模型通过阅读所有先前生成的内容来确定最佳下一个标记，每次生成新标记——这对于通过不断审查提示和先前输出来制作连贯的文本响应是理想的。

扩散技术的工作方式不同，从用随机信息填充所有上下文开始，并在每一步细化（扩散）输出，使最终产品符合提示——这对于具有固定画布和美学的图像来说是完美的。

OpenAI首次成功地将自回归生成应用于图像模型，现在谷歌成为第一家将扩散生成应用于文本的主要公司。这意味着模型从无意义开始，并在每次迭代中完善整个输出，每秒生成数千个标记同时保持准确性——作为参考，Groq（不是xAI的Grok）是世界上最快的推理提供商之一，生成接近275个标记每秒，而传统提供商如OpenAI或Anthropic无法接近这些速度。

然而，该模型尚未公开——有兴趣的用户必须加入等候名单——但早期采用者已分享了显示模型速度和精确度的令人印象深刻的结果。

我们获得了谷歌几个新的人工智能功能，根据不同等级得到了不同的结果。

深度研究特别强大——甚至超过了ChatGPT的替代方案。这个全面的研究代理评估数百个来源，并提供可靠的信息，错误极少。

与OpenAI的研究代理相比，它的优势在于能够生成信息图。在生成完整的研究文本后，它可以将这些信息浓缩成视觉上吸引人的幻灯片。我们向模型输入了关于谷歌最新公告的所有内容，它通过图表、方案、图形和思维导图呈现了准确的信息。

Veo 3仍然仅限于Gemini Ultra用户，尽管一些第三方提供商如Freepik和Fal.ai已通过API提供访问。除非升级到Ultra套餐，否则无法尝试Flow。

Flow证明是一个直观的视频编辑器，以Veo模型为核心，允许用户使用简单的文本提示编辑、剪辑、扩展和修改人工智能场景。

然而，即使Veo2也得到了一些关爱，这让Pro用户的生活变得更加轻松。现在可访问的Veo2生成速度显著更快——我们在大约30秒内创建了8秒的视频。虽然Veo2缺少声音，目前仅支持文本到视频（图像到视频即将推出），但它理解了我们的提示，甚至生成了连贯的文本。

Veo2的性能已经可以与Kling 2.0相媲美，后者被广泛认为是生成式视频行业的质量基准。新的Veo3生成效果似乎更加逼真、连贯，背景声音好，对话和声音栩栩如生。

对于Imagen，很难一眼就判断谷歌是使用第4版还是仍在Gemini聊天机器人界面上使用第3版，尽管用户可以通过Whisk确认。我们的初步测试表明，Imagen 4优先考虑写实性，除非另有说明，并且在提示遵循和视觉效果方面都超过了其前身。

我们生成了一张图像，其中包含通常不会出现在同一场景中的不同元素。我们的提示是："一位女性的照片，皮肤由玻璃制成，周围有数千个闪光和虚幻的碎片，在巴洛克风格的房间里，'Decrypt'一词以霓虹灯形式书写，写实风格。"

尽管Imagen 3和Imagen 4都理解了概念和元素，但Imagen 3未能捕捉写实风格——而Imagen 4轻松做到了。总的来说，Imagen 4可与目前最先进的图像生成器相媲美，尤其是考虑到提示多么容易。

音频概述也有所改进，模型现在可以在Gemini上轻松提供超过20分钟的完整辩论，而不是强迫用户切换到NotebookLM。这使得Gemini成为一个更完整的界面，减少了之前需要用户在不同网站之间跳转以获取各种服务的分散性。

质量与NotebookLM相当，平均输出略长。然而，关键特点不在于模型更好，而是现在嵌入到Gemini的聊天机器人用户界面中。

谷歌并未隐藏其盈利策略。公司的"Ultra"套餐每月250美元，捆绑了最强大模型的优先访问权、Flow AI工具和30TB存储空间——明显针对电影制作者、严肃创作者和企业。20美元的"AI Pro"层级解锁了谷歌之前的Veo2模型，以及面向更广泛用户群的图像和生产力功能。基本生成工具——如简单的Gemini Live和图像创作——仍然是免费的，但有限制，如标记上限和每月仅10次研究。

这种分层方法反映了更广泛的人工智能市场趋势：通过免费服务推动大规模采用，然后用对专业人士来说太有用而无法放弃的功能锁定他们。谷歌的赌注是，真正的行动（和利润）在于高端创意工作和自动化企业工作流程——而不仅仅是随意提示和meme生成。

编辑：Andrew Hayward