Google 正式推出 Gemini 3：目前最强大的 AI Agentic 与 Vibe Coding 大型语言模型

11-19

Google 今日正式发表全新一代大型语言模型 Gemini 3，并同步在 Gemini App、SearchAI 模式、AI Studio、Vertex AI 等多项服务中推出 Gemini 3 Pro。Google 表示，Gemini 3 是目前最强的多模态与推理模型，在科学、数学、视觉理解与长程规划等多项重要 AI 基准测试上大幅领先前代。除了 Vibe Coding 外，Gemini 3 也是最强的 Agentic 模型，这意味著 AI 可以帮你主动完成任务。

Table of Contents

Toggle

Google 执行长：Gemini 理解力已从文字图片进化成能「读空气」

Google 执行长 Sundar Pichai 指出，自 Gemini 系列推出近两年以来，AI 产品已触及全球二十亿用户。每一代 Gemini 都建立在上一代的成果之上，Gemini 1 在原生多模态与长上下文方面带来突破，能处理更多也更复杂的资讯。Gemini 2 奠定代理 (agentic) 能力，推动推理与思考极限。

而现在，Gemini 3：我们最智慧的一代模型，集结 Gemini 系列所有能力，让你能把任何想法带到现实。它在推理方面达到 SOTA (state-of-the-art)，能掌握深度与细腻度。无论是捕捉创造性想法中的微妙线索，或拆解层层重叠的艰难问题。

Gemini 3 也能更好理解你的请求背后的上下文与意图，让你不用苦想提示就能得到真正需要的答案。令人惊叹的是，短短两年内，AI 已从能阅读文字与图片，进化到能读懂场面与情境 (reading the room)。

推理能力突破：Gemini 3 在 LMArena、科学推理与数学测试皆夺冠

Gemini 3 Pro 在最新评测中刷新多项纪录：

LMArena 榜首：取得 1501 Elo 分数。
Humanity’s Last Exam（学术推理）：37.5%（无工具）。
GPQA Diamond（科学推理）：91.9%。
MathArena Apex（高难度数学）：23.4%。
MMMU-Pro：81%
Video-MMMU：87.6%
SimpleQA Verified：72.1%（提升事实准确度）

这些结果代表 Gemini 3 Pro 在科学、数学、多模态推理中具备高度可靠性，可处理极为复杂的问题。

Google 同步发布 Gemini 3 Deep Think 推理模式，在 ARC-AGI-2（含程式执行）取得 45.1%，推理能力更上一层。其他亮点还包括：

Humanity’s Last Exam：41.0%
GPQA Diamond：93.8%

Gemini 3：更强的学习、执行与规划能力

Gemini 3 是目前最强的 vibe coding 与代理式编程模型，具体评分包括：

WebDev Arena：1487 Elo（最高）
Terminal-Bench 2.0：54.2%（工具操作能力）
SWE-bench Verified：76.2%（大型程式任务）

它也支援 Google 全新的 Google Antigravity 代理式开发平台，AI 能自主规划、编写程式、操作终端机、验证程式、操控浏览器等多步骤任务。Agentic AI 指的是能主动采取行动、规划多步骤任务、并自主操作工具的 AI 系统。核心概念是：AI 不再只是回答，而是能像助手一样，主动完成任务。

举例来说，当我输入：「帮我抓今日 ETH ▲ 价格并更新 Google Sheet。」，Agentic AI 自己去查 API 并更新 Google Sheet。

大型语言模型意味著使用者输入一样的内容，可能因模型运算出不同结果而有截然不同的输出。而 Gemini 3 在 Vending-Bench 2 中可连续一年度保持一致决策，这意味 Gemini 3 能协助你完成：

预约本地服务
整理 Gmail
处理多步骤工作流程

Gemini Agent 今天起向 Google AI Ultra 使用者开放。且 Google 表示，Gemini 3 是目前经过最多安全审查的模型，强化抗「拍马屁式生成」、防 Prompt Injection 与网路攻击。Deep Think 模式则将在完成额外安全测试后，提供给 Google AI Ultra 订阅者。

风险提示

加密货币投资具有高度风险，其价格可能波动剧烈，您可能损失全部本金。请谨慎评估风险。

xAI 于 11/17 宣布，最新模型 Grok 4.1 已正式向所有用户开放，包含 grok.com、推特 (X) 以及 iOS、Android App。xAI 表示，这次升级著重在「真实世界的可用性」，包括更强的情感理解、更自然的人格表现、更高的创作力与更低的幻觉率，同时保留之前 Grok 4 的推理能力与稳定度。

Table of Contents

Toggle

秘密测试胜率近 65%，Grok 4.1 确认全面上线

xAI 先在 11/1 – 11/14 进行两周的秘密测试，把 Grok 4.1 测试版以小比例导入 Grok.com、X 与手机 App 的真实流量，并透过「盲测比对」与上一版模型 Grok 4 直接 PK。

xAI 表示盲测时，Grok 4.1 在真实流量上的偏好指数为 64.78%，明显胜过 Grok 4，并宣布于 11/17 正式向所有用户开放使用。也同时表示从现在起，所有用户都能使用 Grok 4.1。只要用户开启 Auto 模式，它会自动使用 Grok 4.1，用户也可以在模型选单中自己选。

Grok 4.1 三大技术亮点一次看

Grok 4.1 技术亮点 1：全新强化学习架构，让回复更自然也更懂人

Grok 4.1 的核心升级来自于使用与 Grok 4 相同的「大规模强化学习基础架构」，但这次进一步引入新的方法，让模型能在更大规模下自动优化回复。而这次训练主要著重在不可验证的回复品质，像是语气、人设一致性、情绪互动、理解意图等，这些都不是单靠资料就能直接评分的。

为了解决这个问题，xAI 使用了「前沿推理模型」作为奖励模型 (Reward Model)，让这些具备深度推理能力的 AI 来自动评估 Grok 4.1 的回复，并在大量的比较中自行学习什么是更好、更符合人类期待的回答，并且做调整。因此 Grok 4.1 在语气、个性、情绪、互动自然度上明显提升，同时保持原本的推理能力与稳定性。

Grok 4.1 技术亮点 2：盲测评比全面登顶，情绪理解与创作力大幅升级

xAI 也公布多项实测结果，显示 Grok 4.1 在多个能力测试上都有明显提升。

在 LMArena 全球盲测对战平台中：
- Grok 4.1 Thinking 以 1483 Elo 排名世界第一。
- Grok 4.1 Non-Thinking 以 1465 Elo 排名第二，甚至超越其他模型的「完整推理模式」。
情绪理解测试 (EQ-Bench 3)：采用 45 个高难度情境与 3 回合互动，由 Claude Sonnet 3.7 评分。Grok 4.1 在同理心、情绪洞察、人际理解等方面表现显著提升。
创意写作能力 (Creative Writing v3)：在 32 题 × 3 回合的写作测试中，Grok 4.1 在创作风格、叙事品质、故事流畅度上都有更高分数，官方并展示多个样本回复。

整体来看，Grok 4.1 不只在推理力提升，而是在「情感互动」与「创作能力」方面也有明显升级。

从图可得知，Grok 4.1 在推理模型综合排名、情绪理解与创意写作比较上，皆占前三名。

(注：Elo，意指 Grok 4.1 在全球盲测平台 LMArena 上的战力分数，采用原本用于西洋棋的 Elo 排名系统来评比模型回复优劣。)

Grok 4.1 技术亮点 3： AI 幻觉下降 3 倍，资讯来源更可靠

对于常见的资讯查询类问题，xAI 特别强调 Grok 4.1 的幻觉率明显下降。先前 Gork 的快速模式 (Non-Reasoning) 原本容易因推理深度不足而出现幻觉，但在 4.1 的后训练中，xAI 明确针对这问题进行改善。xAI 的验证方式包括：

从用户在真实情况下问的、真正出现在平台上的问题，来进行抽样测试。
对照 Grok 4.1 与旧版模型的回答差异。
评估在 FActScore 上的表现。

结果显示，新版本在查询事实、回复资讯性问题时，幻觉率明显下降，回答更稳定、更可信。使得 Grok 4.1 在「快速答题」与「查资料」的场景中，比前代版本更实用、更精准。

从图可得知，Grok 4.1 的幻觉率从 12.09% 下降至 4.22%，下降约三倍。事实验证评分 (FActScore) 也从 9.89% 降到 2.97%，表示 Grok 4.1 准确度有大幅改善。

(注：FActScore 为由 500 题真实人物传记问题组成的公开测试，用来检验模型在搜寻事实、判断正确性与回答一致性上的表现，可称作验证事实评分。)

风险提示

加密货币投资具有高度风险，其价格可能波动剧烈，您可能损失全部本金。请谨慎评估风险。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢