Google 正式推出 Gemini 3：目前最強大的 AI Agentic 與 Vibe Coding 大型語言模型

11-19

Google 今日正式發表全新一代大型語言模型 Gemini 3，並同步在 Gemini App、SearchAI 模式、AI Studio、Vertex AI 等多項服務中推出 Gemini 3 Pro。Google 表示，Gemini 3 是目前最強的多模態與推理模型，在科學、數學、視覺理解與長程規劃等多項重要 AI 基準測試上大幅領先前代。除了 Vibe Coding 外，Gemini 3 也是最強的 Agentic 模型，這意味著 AI 可以幫你主動完成任務。

Table of Contents

Toggle

Google 執行長：Gemini 理解力已從文字圖片進化成能「讀空氣」

Google 執行長 Sundar Pichai 指出，自 Gemini 系列推出近兩年以來，AI 產品已觸及全球二十億用戶。每一代 Gemini 都建立在上一代的成果之上，Gemini 1 在原生多模態與長上下文方面帶來突破，能處理更多也更複雜的資訊。Gemini 2 奠定代理 (agentic) 能力，推動推理與思考極限。

而現在，Gemini 3：我們最智慧的一代模型，集結 Gemini 系列所有能力，讓你能把任何想法帶到現實。它在推理方面達到 SOTA (state-of-the-art)，能掌握深度與細膩度。無論是捕捉創造性想法中的微妙線索，或拆解層層重疊的艱難問題。

Gemini 3 也能更好理解你的請求背後的上下文與意圖，讓你不用苦想提示就能得到真正需要的答案。令人驚嘆的是，短短兩年內，AI 已從能閱讀文字與圖片，進化到能讀懂場面與情境 (reading the room)。

推理能力突破：Gemini 3 在 LMArena、科學推理與數學測試皆奪冠

Gemini 3 Pro 在最新評測中刷新多項紀錄：

LMArena 榜首：取得 1501 Elo 分數。
Humanity’s Last Exam（學術推理）：37.5%（無工具）。
GPQA Diamond（科學推理）：91.9%。
MathArena Apex（高難度數學）：23.4%。
MMMU-Pro：81%
Video-MMMU：87.6%
SimpleQA Verified：72.1%（提升事實準確度）

這些結果代表 Gemini 3 Pro 在科學、數學、多模態推理中具備高度可靠性，可處理極為複雜的問題。

Google 同步發布 Gemini 3 Deep Think 推理模式，在 ARC-AGI-2（含程式執行）取得 45.1%，推理能力更上一層。其他亮點還包括：

Humanity’s Last Exam：41.0%
GPQA Diamond：93.8%

Gemini 3：更強的學習、執行與規劃能力

Gemini 3 是目前最強的 vibe coding 與代理式編程模型，具體評分包括：

WebDev Arena：1487 Elo（最高）
Terminal-Bench 2.0：54.2%（工具操作能力）
SWE-bench Verified：76.2%（大型程式任務）

它也支援 Google 全新的 Google Antigravity 代理式開發平台，AI 能自主規劃、編寫程式、操作終端機、驗證程式、操控瀏覽器等多步驟任務。Agentic AI 指的是能主動採取行動、規劃多步驟任務、並自主操作工具的 AI 系統。核心概念是：AI 不再只是回答，而是能像助手一樣，主動完成任務。

舉例來說，當我輸入：「幫我抓今日 ETH ▲ 價格並更新 Google Sheet。」，Agentic AI 自己去查 API 並更新 Google Sheet。

大型語言模型意味著使用者輸入一樣的內容，可能因模型運算出不同結果而有截然不同的輸出。而 Gemini 3 在 Vending-Bench 2 中可連續一年度保持一致決策，這意味 Gemini 3 能協助你完成：

預約本地服務
整理 Gmail
處理多步驟工作流程

Gemini Agent 今天起向 Google AI Ultra 使用者開放。且 Google 表示，Gemini 3 是目前經過最多安全審查的模型，強化抗「拍馬屁式生成」、防 Prompt Injection 與網路攻擊。Deep Think 模式則將在完成額外安全測試後，提供給 Google AI Ultra 訂閱者。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。

xAI 於 11/17 宣布，最新模型 Grok 4.1 已正式向所有用戶開放，包含 grok.com、推特 (X) 以及 iOS、Android App。xAI 表示，這次升級著重在「真實世界的可用性」，包括更強的情感理解、更自然的人格表現、更高的創作力與更低的幻覺率，同時保留之前 Grok 4 的推理能力與穩定度。

Table of Contents

Toggle

祕密測試勝率近 65%，Grok 4.1 確認全面上線

xAI 先在 11/1 – 11/14 進行兩週的祕密測試，把 Grok 4.1 測試版以小比例導入 Grok.com、X 與手機 App 的真實流量，並透過「盲測比對」與上一版模型 Grok 4 直接 PK。

xAI 表示盲測時，Grok 4.1 在真實流量上的偏好指數為 64.78%，明顯勝過 Grok 4，並宣布於 11/17 正式向所有用戶開放使用。也同時表示從現在起，所有用戶都能使用 Grok 4.1。只要用戶開啟 Auto 模式，它會自動使用 Grok 4.1，用戶也可以在模型選單中自己選。

Grok 4.1 三大技術亮點一次看

Grok 4.1 技術亮點 1：全新強化學習架構，讓回覆更自然也更懂人

Grok 4.1 的核心升級來自於使用與 Grok 4 相同的「大規模強化學習基礎架構」，但這次進一步引入新的方法，讓模型能在更大規模下自動優化回覆。而這次訓練主要著重在不可驗證的回覆品質，像是語氣、人設一致性、情緒互動、理解意圖等，這些都不是單靠資料就能直接評分的。

為了解決這個問題，xAI 使用了「前沿推理模型」作為獎勵模型 (Reward Model)，讓這些具備深度推理能力的 AI 來自動評估 Grok 4.1 的回覆，並在大量的比較中自行學習什麼是更好、更符合人類期待的回答，並且做調整。因此 Grok 4.1 在語氣、個性、情緒、互動自然度上明顯提升，同時保持原本的推理能力與穩定性。

Grok 4.1 技術亮點 2：盲測評比全面登頂，情緒理解與創作力大幅升級

xAI 也公布多項實測結果，顯示 Grok 4.1 在多個能力測試上都有明顯提升。

在 LMArena 全球盲測對戰平台中：
- Grok 4.1 Thinking 以 1483 Elo 排名世界第一。
- Grok 4.1 Non-Thinking 以 1465 Elo 排名第二，甚至超越其他模型的「完整推理模式」。
情緒理解測試 (EQ-Bench 3)：採用 45 個高難度情境與 3 回合互動，由 Claude Sonnet 3.7 評分。Grok 4.1 在同理心、情緒洞察、人際理解等方面表現顯著提升。
創意寫作能力 (Creative Writing v3)：在 32 題 × 3 回合的寫作測試中，Grok 4.1 在創作風格、敘事品質、故事流暢度上都有更高分數，官方並展示多個樣本回覆。

整體來看，Grok 4.1 不只在推理力提升，而是在「情感互動」與「創作能力」方面也有明顯升級。

從圖可得知，Grok 4.1 在推理模型綜合排名、情緒理解與創意寫作比較上，皆佔前三名。

(註：Elo，意指 Grok 4.1 在全球盲測平台 LMArena 上的戰力分數，採用原本用於西洋棋的 Elo 排名系統來評比模型回覆優劣。)

Grok 4.1 技術亮點 3： AI 幻覺下降 3 倍，資訊來源更可靠

對於常見的資訊查詢類問題，xAI 特別強調 Grok 4.1 的幻覺率明顯下降。先前 Gork 的快速模式 (Non-Reasoning) 原本容易因推理深度不足而出現幻覺，但在 4.1 的後訓練中，xAI 明確針對這問題進行改善。xAI 的驗證方式包括：

從用戶在真實情況下問的、真正出現在平台上的問題，來進行抽樣測試。
對照 Grok 4.1 與舊版模型的回答差異。
評估在 FActScore 上的表現。

結果顯示，新版本在查詢事實、回覆資訊性問題時，幻覺率明顯下降，回答更穩定、更可信。使得 Grok 4.1 在「快速答題」與「查資料」的場景中，比前代版本更實用、更精準。

從圖可得知，Grok 4.1 的幻覺率從 12.09% 下降至 4.22%，下降約三倍。事實驗證評分 (FActScore) 也從 9.89% 降到 2.97%，表示 Grok 4.1 準確度有大幅改善。

(註：FActScore 為由 500 題真實人物傳記問題組成的公開測試，用來檢驗模型在搜尋事實、判斷正確性與回答一致性上的表現，可稱作驗證事實評分。)

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論