Google 今日正式发表全新一代大型语言模型 Gemini 3,并同步在 Gemini App、SearchAI 模式、AI Studio、Vertex AI 等多项服务中推出 Gemini 3 Pro。Google 表示,Gemini 3 是目前最强的多模态与推理模型,在科学、数学、视觉理解与长程规划等多项重要 AI 基准测试上大幅领先前代。除了 Vibe Coding 外,Gemini 3 也是最强的 Agentic 模型,这意味著 AI 可以帮你主动完成任务。
Table of Contents
ToggleGoogle 执行长:Gemini 理解力已从文字图片进化成能「读空气」
Google 执行长 Sundar Pichai 指出,自 Gemini 系列推出近两年以来,AI 产品已触及全球二十亿用户。每一代 Gemini 都建立在上一代的成果之上,Gemini 1 在原生多模态与长上下文方面带来突破,能处理更多也更复杂的资讯。Gemini 2 奠定代理 (agentic) 能力,推动推理与思考极限。
而现在,Gemini 3:我们最智慧的一代模型,集结 Gemini 系列所有能力,让你能把任何想法带到现实。它在推理方面达到 SOTA (state-of-the-art),能掌握深度与细腻度。无论是捕捉创造性想法中的微妙线索,或拆解层层重叠的艰难问题。
Gemini 3 也能更好理解你的请求背后的上下文与意图,让你不用苦想提示就能得到真正需要的答案。令人惊叹的是,短短两年内,AI 已从能阅读文字与图片,进化到能读懂场面与情境 (reading the room)。
推理能力突破:Gemini 3 在 LMArena、科学推理与数学测试皆夺冠
Gemini 3 Pro 在最新评测中刷新多项纪录:
- LMArena 榜首:取得 1501 Elo 分数。
- Humanity’s Last Exam(学术推理):37.5%(无工具)。
- GPQA Diamond(科学推理):91.9%。
- MathArena Apex(高难度数学):23.4%。
- MMMU-Pro:81%
- Video-MMMU:87.6%
- SimpleQA Verified:72.1%(提升事实准确度)
这些结果代表 Gemini 3 Pro 在科学、数学、多模态推理中具备高度可靠性,可处理极为复杂的问题。
Google 同步发布 Gemini 3 Deep Think 推理模式,在 ARC-AGI-2(含程式执行)取得 45.1%,推理能力更上一层。其他亮点还包括:
- Humanity’s Last Exam:41.0%
- GPQA Diamond:93.8%
Gemini 3:更强的学习、执行与规划能力
Gemini 3 是目前最强的 vibe coding 与代理式编程模型,具体评分包括:
- WebDev Arena:1487 Elo(最高)
- Terminal-Bench 2.0:54.2%(工具操作能力)
- SWE-bench Verified:76.2%(大型程式任务)
它也支援 Google 全新的 Google Antigravity 代理式开发平台,AI 能自主规划、编写程式、操作终端机、验证程式、操控浏览器等多步骤任务。Agentic AI 指的是能主动采取行动、规划多步骤任务、并自主操作工具的 AI 系统。核心概念是:AI 不再只是回答,而是能像助手一样,主动完成任务。
举例来说,当我输入:「帮我抓今日 ETH ▲ 价格并更新 Google Sheet。」,Agentic AI 自己去查 API 并更新 Google Sheet。
大型语言模型意味著使用者输入一样的内容,可能因模型运算出不同结果而有截然不同的输出。而 Gemini 3 在 Vending-Bench 2 中可连续一年度保持一致决策,这意味 Gemini 3 能协助你完成:
- 预约本地服务
- 整理 Gmail
- 处理多步骤工作流程
Gemini Agent 今天起向 Google AI Ultra 使用者开放。且 Google 表示,Gemini 3 是目前经过最多安全审查的模型,强化抗「拍马屁式生成」、防 Prompt Injection 与网路攻击。Deep Think 模式则将在完成额外安全测试后,提供给 Google AI Ultra 订阅者。
风险提示
加密货币投资具有高度风险,其价格可能波动剧烈,您可能损失全部本金。请谨慎评估风险。
xAI 于 11/17 宣布,最新模型 Grok 4.1 已正式向所有用户开放,包含 grok.com、推特 (X) 以及 iOS、Android App。xAI 表示,这次升级著重在「真实世界的可用性」,包括更强的情感理解、更自然的人格表现、更高的创作力与更低的幻觉率,同时保留之前 Grok 4 的推理能力与稳定度。
Table of Contents
Toggle秘密测试胜率近 65%,Grok 4.1 确认全面上线
xAI 先在 11/1 – 11/14 进行两周的秘密测试,把 Grok 4.1 测试版以小比例导入 Grok.com、X 与手机 App 的真实流量,并透过「盲测比对」与上一版模型 Grok 4 直接 PK。
xAI 表示盲测时,Grok 4.1 在真实流量上的偏好指数为 64.78%,明显胜过 Grok 4,并宣布于 11/17 正式向所有用户开放使用。也同时表示从现在起,所有用户都能使用 Grok 4.1。只要用户开启 Auto 模式,它会自动使用 Grok 4.1,用户也可以在模型选单中自己选。

Grok 4.1 三大技术亮点一次看
Grok 4.1 技术亮点 1:全新强化学习架构,让回复更自然也更懂人
Grok 4.1 的核心升级来自于使用与 Grok 4 相同的「大规模强化学习基础架构」,但这次进一步引入新的方法,让模型能在更大规模下自动优化回复。而这次训练主要著重在不可验证的回复品质,像是语气、人设一致性、情绪互动、理解意图等,这些都不是单靠资料就能直接评分的。
为了解决这个问题,xAI 使用了「前沿推理模型」作为奖励模型 (Reward Model),让这些具备深度推理能力的 AI 来自动评估 Grok 4.1 的回复,并在大量的比较中自行学习什么是更好、更符合人类期待的回答,并且做调整。因此 Grok 4.1 在语气、个性、情绪、互动自然度上明显提升,同时保持原本的推理能力与稳定性。
Grok 4.1 技术亮点 2:盲测评比全面登顶,情绪理解与创作力大幅升级
xAI 也公布多项实测结果,显示 Grok 4.1 在多个能力测试上都有明显提升。
在 LMArena 全球盲测对战平台中:
Grok 4.1 Thinking 以 1483 Elo 排名世界第一。
Grok 4.1 Non-Thinking 以 1465 Elo 排名第二,甚至超越其他模型的「完整推理模式」。
情绪理解测试 (EQ-Bench 3):采用 45 个高难度情境与 3 回合互动,由 Claude Sonnet 3.7 评分。Grok 4.1 在同理心、情绪洞察、人际理解等方面表现显著提升。
创意写作能力 (Creative Writing v3):在 32 题 × 3 回合的写作测试中,Grok 4.1 在创作风格、叙事品质、故事流畅度上都有更高分数,官方并展示多个样本回复。
整体来看,Grok 4.1 不只在推理力提升,而是在「情感互动」与「创作能力」方面也有明显升级。

(注:Elo,意指 Grok 4.1 在全球盲测平台 LMArena 上的战力分数,采用原本用于西洋棋的 Elo 排名系统来评比模型回复优劣。)
Grok 4.1 技术亮点 3: AI 幻觉下降 3 倍,资讯来源更可靠
对于常见的资讯查询类问题,xAI 特别强调 Grok 4.1 的幻觉率明显下降。先前 Gork 的快速模式 (Non-Reasoning) 原本容易因推理深度不足而出现幻觉,但在 4.1 的后训练中,xAI 明确针对这问题进行改善。xAI 的验证方式包括:
从用户在真实情况下问的、真正出现在平台上的问题,来进行抽样测试。
对照 Grok 4.1 与旧版模型的回答差异。
评估在 FActScore 上的表现。
结果显示,新版本在查询事实、回复资讯性问题时,幻觉率明显下降,回答更稳定、更可信。使得 Grok 4.1 在「快速答题」与「查资料」的场景中,比前代版本更实用、更精准。

(注:FActScore 为由 500 题真实人物传记问题组成的公开测试,用来检验模型在搜寻事实、判断正确性与回答一致性上的表现,可称作验证事实评分。)
(2025 最新五大主流 AI 语言模型 (LLM) 全解析,付费、应用与安全性一次看懂)
风险提示
加密货币投资具有高度风险,其价格可能波动剧烈,您可能损失全部本金。请谨慎评估风险。





