Grok 4.1 新登场：AI 幻觉降 3 倍，情感理解与创意写作全面升级

11-18

xAI 于 11/17 宣布，最新模型 Grok 4.1 已正式向所有用户开放，包含 grok.com、推特 (X) 以及 iOS、Android App。xAI 表示，这次升级著重在「真实世界的可用性」，包括更强的情感理解、更自然的人格表现、更高的创作力与更低的幻觉率，同时保留之前 Grok 4 的推理能力与稳定度。

Table of Contents

Toggle

秘密测试胜率近 65%，Grok 4.1 确认全面上线

xAI 先在 11/1 – 11/14 进行两周的秘密测试，把 Grok 4.1 测试版以小比例导入 Grok.com、X 与手机 App 的真实流量，并透过「盲测比对」与上一版模型 Grok 4 直接 PK。

xAI 表示盲测时，Grok 4.1 在真实流量上的偏好指数为 64.78%，明显胜过 Grok 4，并宣布于 11/17 正式向所有用户开放使用。也同时表示从现在起，所有用户都能使用 Grok 4.1。只要用户开启 Auto 模式，它会自动使用 Grok 4.1，用户也可以在模型选单中自己选。

Grok 4.1 三大技术亮点一次看

Grok 4.1 技术亮点 1：全新强化学习架构，让回复更自然也更懂人

Grok 4.1 的核心升级来自于使用与 Grok 4 相同的「大规模强化学习基础架构」，但这次进一步引入新的方法，让模型能在更大规模下自动优化回复。而这次训练主要著重在不可验证的回复品质，像是语气、人设一致性、情绪互动、理解意图等，这些都不是单靠资料就能直接评分的。

为了解决这个问题，xAI 使用了「前沿推理模型」作为奖励模型 (Reward Model)，让这些具备深度推理能力的 AI 来自动评估 Grok 4.1 的回复，并在大量的比较中自行学习什么是更好、更符合人类期待的回答，并且做调整。因此 Grok 4.1 在语气、个性、情绪、互动自然度上明显提升，同时保持原本的推理能力与稳定性。

Grok 4.1 技术亮点 2：盲测评比全面登顶，情绪理解与创作力大幅升级

xAI 也公布多项实测结果，显示 Grok 4.1 在多个能力测试上都有明显提升。

在 LMArena 全球盲测对战平台中：
- Grok 4.1 Thinking 以 1483 Elo 排名世界第一。
- Grok 4.1 Non-Thinking 以 1465 Elo 排名第二，甚至超越其他模型的「完整推理模式」。
情绪理解测试 (EQ-Bench 3)：采用 45 个高难度情境与 3 回合互动，由 Claude Sonnet 3.7 评分。Grok 4.1 在同理心、情绪洞察、人际理解等方面表现显著提升。
创意写作能力 (Creative Writing v3)：在 32 题 × 3 回合的写作测试中，Grok 4.1 在创作风格、叙事品质、故事流畅度上都有更高分数，官方并展示多个样本回复。

整体来看，Grok 4.1 不只在推理力提升，而是在「情感互动」与「创作能力」方面也有明显升级。

从图可得知，Grok 4.1 在推理模型综合排名、情绪理解与创意写作比较上，皆占前三名。

(注：Elo，意指 Grok 4.1 在全球盲测平台 LMArena 上的战力分数，采用原本用于西洋棋的 Elo 排名系统来评比模型回复优劣。)

Grok 4.1 技术亮点 3： AI 幻觉下降 3 倍，资讯来源更可靠

对于常见的资讯查询类问题，xAI 特别强调 Grok 4.1 的幻觉率明显下降。先前 Gork 的快速模式 (Non-Reasoning) 原本容易因推理深度不足而出现幻觉，但在 4.1 的后训练中，xAI 明确针对这问题进行改善。xAI 的验证方式包括：

从用户在真实情况下问的、真正出现在平台上的问题，来进行抽样测试。
对照 Grok 4.1 与旧版模型的回答差异。
评估在 FActScore 上的表现。

结果显示，新版本在查询事实、回复资讯性问题时，幻觉率明显下降，回答更稳定、更可信。使得 Grok 4.1 在「快速答题」与「查资料」的场景中，比前代版本更实用、更精准。

从图可得知，Grok 4.1 的幻觉率从 12.09% 下降至 4.22%，下降约三倍。事实验证评分 (FActScore) 也从 9.89% 降到 2.97%，表示 Grok 4.1 准确度有大幅改善。

(注：FActScore 为由 500 题真实人物传记问题组成的公开测试，用来检验模型在搜寻事实、判断正确性与回答一致性上的表现，可称作验证事实评分。)

风险提示

加密货币投资具有高度风险，其价格可能波动剧烈，您可能损失全部本金。请谨慎评估风险。

以太坊创办人 Vitalik Buterin 在 11/17 的 Devcon 上首次公开展示「Kohaku」隐私工具框架。这项由以太坊基金会 (EF) 和多个团队共同打造的框架，目标在推动以太坊的隐私升级，为用户提供更完善的隐私保障。Vitalik 也坦言，以太坊在隐私技术上仍然落后，现在正进入全力补强的最后阶段。

Table of Contents

Toggle

Kohaku 首度亮相，Vitalik 示范以太坊迈向隐私升级

Vitalik 在 Devcon 台上首次实际示范一套由 EF 与多位开发者共同打造的隐私工具框架「Kohaku」。他提到，以太坊虽然多年来大量投入隐私研究领域，不过距离真正做到「让用户自然地享有隐私保障」只差最后一步，现在就是全力补强的时候。

Kohaku 目标在提供一个开源、模组化的隐私与安全框架，让开发者能直接打造具备隐私功能的钱包，而不必依赖中心化服务。未来框架也可能加入 mixnet、ZK 浏览器，以及更多钱包的预设隐私模式。

Railgun 与 Privacy Pools 登场，Kohaku 技术基础大公开

从 Kohaku 的 Github 可看到专案仍在持续开发，但已包含多项重要隐私模组，像是：

以太坊隐私协议 Railgun：把公开资金「遮罩」起来，让外人看不到资金流向，并透过零知识证明达成，可直接整合进钱包，让用户一键就能降低被追踪的风险。
新型隐私工具 Privacy Pools：核心做法使用关联列表 (Association Lists)，让好人可以提供「无辜证明」(Proof Of Innocence)，坏人无法把违法资金混入里面。

这些工具构成了 Kohaku 的核心基础，使用户既能保有隐私，又能防止被滥用。

示范钱包遮罩资金，Kohaku 推动钱包预设隐私

示范中，一名用户透过 Kohaku 与 Railgun 的整合，成功将帐户上公开可见的资金遮罩，使其他人无法追踪交易。Kohaku 的目标是让 MetaMask、Rainbow 等所有以太坊钱包，都能支援「预设、可选择」的隐私模式。

Vitalik 强调隐私的重要性，他表示，隐私能让人按照自己方式生活，不必时刻担心行为被中心化或去中心化的力量监控。

EF 成立隐私团队，全面强化隐私功能

最近几个月，以太坊社群同步推进多项隐私工程。以太坊基金会上月成立「Privacy Cluster」，集合 47 名研究员与工程师，致力让隐私成为以太坊的基本属性。

此外，原本的 Privacy & Scaling Explorations (PSE) 团队在 9 月更名为「Privacy Stewards of Ethereum」，从探索新技术进入解决「实际隐私问题」的阶段，聚焦于私密投票、机密型 DeFi 等功能。Vitalik 也在 Ethereum Cypherpunk Congress 表示，以太坊已走上隐私升级路线。

Kohaku 主打开源模组化，打造以太坊预设隐私未来

Kohaku 虽仍在开发中，但从目前公开的模组与示范看得出其核心方向：

全程开源。
模组化设计。
钱包能随时启用遮罩，并兼顾阻挡坏人滥用与保护一般用户。

最终目标是让隐私变成使用以太坊时的自然状态。

风险提示

加密货币投资具有高度风险，其价格可能波动剧烈，您可能损失全部本金。请谨慎评估风险。

微软公布 2025 Q3 财报，营收与获利全面优于市场预期。本季营收达 776.7 亿美元、年增 18%，每股盈余为 3.72 美元。关键在于云端部门，Azure 营收年增率 40%。然而，微软为强化 AI 与云端能力，CapEx 飙至 349 亿美元、创历史新高。此外，受 OpenAI 投资相关影响，业外损益减少 37 亿美元。尽管基本面强劲，资本支出加速仍成为投资人最关注的风险。

(OpenAI 完成资本重组并成立 PBC！最新估值 5000 亿美元，微软拥 27% 股权)

2025 年，当整个 AI 产业都在疯狂扩张算力时，微软却反其道而行。这家公司悄悄停建部分资料中心，一度引发外界质疑：在全球 AI 基建狂潮中，微软是不是放慢了？然而，微软执行长 Satya Nadella 在近期一场深度访谈与电话会议中，揭露了完全不同的战略思维：微软不是慢，而是比任何人更清楚：下一代 AI 的竞争不会靠单一模型、也不会靠把所有筹码押在一代 GPU 上。

Table of Contents

Toggle

微软没有绑死 OpenAI，而是发展水平、垂直生态系

外界普遍以为：微软花了数十亿美元投资 OpenAI，自然会将技术方向与 GPT 系列深绑。但 Nadella 的说法却大大不同。他直言，大型语言模型公司其实存在一种结构性风险：

「如果你是一家模型公司，很可能会遭遇『赢家诅咒』：你辛苦做出的创新，只要被复制一次，就会立刻沦为大宗商品。」他的意思很清楚：谁也不知道哪种模型结构会胜出。更糟的是：开源模型与企业微调，能在短时间内追上前沿模型。换句话说，你投入 500 亿美元训练的模型能力，可能被某个开源模型经私有资料微调，瞬间追平。

支架层 (scaffolding) 才是 AI 护城河，微软集成基建、模型、代理

因此微软不会把未来绑死在 GPT 一家，而是同时使用 OpenAI 前沿模型，支援开源与其他厂商 (如 Meta、Anthropic)。Nadella 认为，模型本身将会逐渐商品化。真正的护城河不在模型，而在支架层 (scaffolding)。因此发展自家 MAI 模型的同时，还有 Copilot、Azure 等产品，培养自己的生态系。拥有数据、拥有上下文工程，才是微软真正的护城河。

微软不是不能建，而是不愿为一代 GPU 盖巨型资料中心

2025 年，不少公司疯狂建置 GB200 资料中心。但微软的策略完全不同：停建部分资料中心，并改向外部 neocloud、矿企租用算力。至于背后原因，Nadella 说：我不想建出只能给某一代 GPU 或某一个模型架构使用的千兆瓦级资料中心。

他解释 GB200 的设计、需求，跟 GB300 又不同，到 Vera Rubin Ultra 时，功耗与冷却需求会完全不同。微软的策略是发展能随时间成长的基建，而不是让资金困在乍看很厉害但几个月就变沉没成本的基建。

AI 数据中心建置成本过半用于采购 GPU

(巴克莱下调甲骨文 ORCL 评级，接近垃圾债！CapEx 暴增明年恐断现金流)

据报导 AI 数据中心建置成本每 GW 高达 500~600 亿美元，是传统数据中心的 3 倍，超过一半成本来自购买 NVIDIA 等 GPU 计算硬体。自 2025 年初以来，全球科技公司未来数年的 CapEx 预估已接近翻倍。其中 Oracle (甲骨文) 负债权益比达 500%，巴克莱银行估算在 CapEx 持平情况下，最快明年 11 月就会烧光现金。对比之下微软的负债权益比仅 30％，算相对健康的财务情况。

业界人士曝 AI 资料中心的 CPU，真实寿命仅 1~3 年

有 Google 背景的业界人士透露，用于 AI 资料中心的 CPU，寿命仅 1~3 年。

大卖空主角 Michael Burry 也表示许多 AI 公司声称的 AI 使用期限根本没实际那么久，他们靠延长使用期限来美化财报中每年的折旧金额。Burry 估算，2026 至 2028 年间，超大规模云端业者总计的低估折旧金额高达 1,760 亿美元。若以此计算，他预测：「到了 2028 年，甲骨文 (Oracle) 的盈余将被高估 26.9%，而 Meta 将被高估 20.8%。」

(大卖空主角 Michael Burry 再批 AI 巨头：低估折旧、虚增盈余是现代诈欺)

微软不愿被资本支出绑死，与矿企采购算力

Nadella 强调 fungibility (互换性)，微软愿意下重注的条件是要能适应多种大型语言模型，能完成多阶段的训练、资料生成、推理，也能支援多世代的 GPU，这才有投入的意义。这就是为什么微软宁可租用外部算力，也不愿被单一晶片世代绑死。也解释了为何近期许多云端运算业者如 IREN 成为微软的合作对象，而不是竞争对手。

(IREN 获微软签下 97 亿美元 AI 云端大单，股价涨逾 7%)

微软商业模式从 to C 转变成 to Agent

过去微软的商业模式是卖软体服务给消费者，如今他们的目标是卖基建给 AI 代理 (Business to Agent)。微软不是要在模型战争胜出，而是要当 AI 代理时代的微软。模型会变得更多、更新、更强。硬体会一代比一代密度更高、耗能更大。资料中心会不断被新电力需求推翻设计。但只有一件事不会变：AI 代理需要一个世界级、可靠、可审计、跨世代相容的基础设施来工作。

微软要做的，就是这件事。这也是 Satya Nadella 在这场访谈中真正想传达的讯号：模型会变，晶片会变，但「AI 代理的运行环境」才是永续不变的战场。

风险提示

加密货币投资具有高度风险，其价格可能波动剧烈，您可能损失全部本金。请谨慎评估风险。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢