谷歌今天发布了Gemini 3 Pro 的公开预览版,称其为该公司迄今为止功能最强大的 AI 模型。该系统可同时处理文本、图像、音频和视频,并能处理多达 100 万个上下文词元——大致相当于 70 万个单词,或大约 10 部长篇小说。
预览版可供任何人免费试用,点击此处即可访问。
谷歌表示,Gemini 3 Pro 在公司测试的几乎所有基准测试中都超越了其前代产品Gemini 2.5 Pro。在学术推理测试“人类最后的考试”(Humanity's Last Exam)中, Gemini 3 Pro 的得分为 37.5%,而 2.5 Pro 的得分仅为 21.6%。在视觉推理谜题基准测试 ARC-AGI-2 中,差距进一步扩大:Gemini 3 Pro 的得分为 31.1%,而 2.5 Pro 仅为 4.9%。
当然,人工智能竞赛目前面临的真正挑战与其说是技术上的挑战,不如说是赢得商业市场份额的挑战。
曾经在搜索领域看似不可战胜的谷歌,如今已将大量市场份额拱手让给了OpenAI。OpenAI声称其搜索工具ChatGPT每周拥有约8亿用户,而Gemini据报道每月拥有约6.5亿用户。谷歌尚未公布其每周用户数量,但肯定远低于其每月用户数量。
尽管如此,Gemini3号的技术成就仍然令人印象深刻。
Gemini 3 Pro 采用谷歌所谓的稀疏混合专家架构。该系统并非针对每个查询激活超过 1 万亿个参数,而是将每个输入路由到专门的子网络。在任何给定时间,只有模型的一部分(即负责特定任务的专家)在运行,从而在保持性能的同时降低计算成本。
与 GPT 和 Claude 这类庞大而复杂的模型(样样精通,样样稀疏)不同,谷歌的方法更像是大型组织的运作方式。一家拥有 1000 名员工的公司不会让每个人都参加每次会议;特定的团队会负责处理特定的问题。Gemini 3 Pro的工作方式也是如此,它会将问题引导至合适的专家网络。
谷歌利用网页文档、代码库、图像、音频文件和视频,以及其他人工智能系统生成的合成数据来训练模型。该公司对训练数据进行了质量和安全过滤,删除了色情内容、暴力内容以及任何违反儿童安全法律的内容。训练在谷歌的张量处理单元 (Tensor Process Orchestration Unit) 上进行,使用了 JAX 和 ML Pathways 软件。
对模型的快速测试表明,它的性能非常出色。在我们通常要求生成潜行游戏的编码测试中,这是第一个生成 3D 游戏而非 2D 游戏的模型。其他运行结果虽然也生成了 2D 版本,但所有版本都功能齐全且运行速度很快。
这种方法类似于 ChatGPT 或 Perplexity,通过分享后续问题和建议来鼓励进一步互动,但谷歌的实现方式更加简洁,也更有帮助。
在生成代码的过程中,界面会提供提示,帮助用户在后续提示中更好地理解代码,从而引导模型生成更优质的代码、修复错误并改进应用程序的逻辑、用户界面ETC。此外,它还为用户提供了部署代码和编写基于 Gemini 的应用程序的选项。
总体而言,该模型似乎特别侧重于编码任务。创造性并非其强项,但由于其拥有非常大的词法上下文窗口,因此通过良好的系统提示和示例,可以轻松引导用户。
谷歌DeepMind发布的Gemini 3模型卡存档版本(该文档提供了有关模型设计、预期用途、性能和局限性的重要信息)显示, Gemini 3 Pro最多可以生成64,000个输出令牌,知识截止时间为2025年1月。谷歌承认该模型可能会出现幻觉,并且偶尔会出现运行缓慢或超时的情况。
目前尚无官方模型卡。
如前所述, Google AI Studio目前为所有用户免费提供Gemini 3 Pro。Vertex AI 和Gemini API 也支持该模型。不过, Gemini 3 Pro 尚未通过Gemini应用提供,即使是付费的Gemini Pro 用户也无法使用。
11 月发布的这款产品使谷歌与 Anthropic 的 Claude Sonnet 4.5、Grok 4.1 甚至 OpenAI 的 GPT-5.1 展开竞争。基准测试分数表明, Gemini 3 Pro 在推理和多模态任务方面领先,但实际性能会因使用场景而异。
谷歌通过其云平台分发Gemini 3 Pro,但须遵守现有的服务条款。该公司禁止将生成式人工智能用于危险活动、安全威胁、色情内容、暴力、仇恨言论和虚假信息等用途。



