小米 MiMo v2 Pro 评测：AI 模型如此出色，甚至被误认为是 DeepSeek V4

Decrypt

03-29

本文为机器翻译

展示原文

大多数美国人如果知道小米，也只是把它当作来自中国的廉价手机品牌。

这是一个严重的误判。小米是全球第三大智能手机制造商，仅次于苹果和三星，预计2025年手机出货量将达到约1.7亿部。它还生产电视、空气净化器、健身追踪器、电动滑板车、服装，现在还涉足汽车领域。

小米SU7 Ultra去年打破了纽博格林赛道量产电动汽车的最快纪录，击败了Rimac和保时捷。该公司近期与Sei区块链合作，在欧洲、拉丁美洲和东南亚地区的设备上预装加密钱包。小米的市值约为1370亿美元。

所以当小米推出人工智能模型时，或许我们应该关注一下。

3月18日，该公司专门负责人工智能研究的部门悄然发布了三款模型： MiMo-V2-Pro 、 MiMo-V2-Omni以及一款文本转语音模型。而新一代 MiMo 的首款模型早在2025年12月就已亮相，当时该公司悄然发布了 MiMo-V2-Flash——一款功能强大的309B混合专家模型——但除了中国人工智能圈外，几乎无人关注。西方科技媒体对此也大多不以为意。

随后，3月11日，一个名为“Hunter Alpha”的匿名模型出现在OpenRouter上，该模型拥有1万亿个参数，且未注明开发者。该模型迅速攀升至OpenRouter排行榜榜首，总使用量突破1万亿代币，并立即引发了广泛的猜测，认为它是DeepSeek尚未发布的V4版本。

几周以来，人们对该模型的期待一直在不断高涨，内部人士声称它在编码任务上的表现将优于 Claude 和 ChatGPT。

不是DeepSeek。

3月18日，小米MiMo部门负责人、前DeepSeek研究员罗福立透露，Hunter Alpha是MiMo-V2-Pro的早期内部测试版本。小米股价应声上涨5.8%。罗福立在X上写道：“我称之为一次悄无声息的伏击。”

MiMo 拥有超过一万亿个参数，通过混合专家架构，每次请求可激活 420 亿个参数。其混合注意力机制以 7:1 的比例运行，可处理高达一百万个 token 的上下文窗口。内置的多 token 预测层通过每次预测多个 token 而非一次预测一个，从而加快了生成速度。目前 MiMo 是闭源的，但小米并未排除未来发布的可能性。

在人工智能分析指数（AII）中，MiMo-V2-Pro 在全球排名第八，在中国机型中排名第二，仅次于GLM-5 。在 SWE-bench Verified（真实软件工程任务）测试中，其得分为 78%，高于 Claude Opus 4.6 的 80.8% 和 Claude Sonnet 4.6 的 79.6%。

在与 OpenClaw 框架相关的智能体基准测试 ClawEval 中，它达到了 61.5 分，接近 Opus 4.6 的 66.3 分。在 PinchBench 中，它以 81.0 分位列全球第三，仅次于 Opus 4.6 (81.5) 及其兄弟 MiMo-V2-Omni (81.2)。

MiMo-V2-Pro 的收费标准为每百万输入令牌 1 美元，每百万输出令牌 3 美元，最多支持 256K 个上下文。Claude Sonnet 4.6 的收费标准为每百万输入 3 美元，每百万输出 15 美元（Opus 4.6 的收费标准为每百万输入 5 美元，每百万输出 25 美元）。对于大规模构建智能体的开发者而言，这些数字绝非无关紧要。

这款 Omni 系统能够原生处理视觉、音频和视频——并非作为附加模块，而是经过端到端的训练，构成一个统一的感知系统。演示中，它能够分析行车记录仪的视频，并将其作为实时自动驾驶的“大脑”，坦白说，令人印象深刻。它真正实现了多模态感知，而大多数“全视域”模型只是声称如此。

当然，我们对 MiMo-V2-Pro 进行了测试，以了解它的性能如何。以下是实际测试结果。测试结果将发布在我们的GitHub 代码库中。

我们给 MiMo-V2-Pro 提供了一个创意写作提示：一个以中美洲历史为背景的穿越时空的故事，故事中要有一个特定的主人公，一个要致敬的文化身份，以及一个关于时间无法改变的哲学悖论。

该模型生成了超过3000字的文章：一个合适的标题、五个完整的章节，以及经过编辑润色后的草稿应有的结构规范。它甚至还生成了一篇后记。

毫无疑问，这是我们从任何模型中获得的最长、最丰富的创意散文作品，唯一的例外是 Longwriter——一个专门为长篇内容创作而从零开始构建的、但现在已经过时的模型，它属于完全不同的竞争类别。

文笔本身就十分优美、生动形象。开篇段落便开始构建整个场景的画面。MiMo v2 Pro 融入了真实感，使故事令人信服。

与其他模型（例如 Grok）不同，它不仅仅是在某个地点（在本例中是古代墨西哥）营造场景。它了解古代中美洲的气味，并利用当地词汇、逼真的描述和良好的语境线索，从零开始构建氛围。

对话像文学小说中那样直接穿插在叙事之中，而不是像大多数现代模式那样嵌入到段落中。

另一点值得注意的是，这个悖论——可以说是故事的核心要素——并非纯粹的理性层面，而是情感层面。整个故事的解决过程没有说教。结尾的几句话恰到好处地收束了故事，这正是优秀小说应有的效果：不是解释主题，而是让你感同身受。

“外面，雨开始下了。雨水落在螺旋状的塔楼、修复后的湖泊和特拉奇诺兰古老的土地上。在那里，一个黑色的矩形被埋在火山土壤中，承受着千年的重压，静静地等待着，仿佛早已知道故事的结局。”

文化细节——例如对月亮脸、龙舌兰纤维、特马斯卡尔传统以及故事中使用的纳瓦特尔语名称的提及——始终贯穿其中，绝非画蛇添足。时间旅行悖论也得到了深入的探讨，而非仅仅点到为止。就创意写作应用而言，MiMo-V2-Pro 已经跻身最佳之列，在我们看来，它是目前市面上功能最丰富、性能最卓越的型号，轻松超越了 Claude 4.6 Opus。

完整报道请点击此处查看。

基准测试结果表明，MiMo-V2-Pro 的强项在于编码，实际测试也证实了这一点。我们让它根据一个简单的指令构建我们常用的潜行游戏，它第一次就成功交付了一个可运行的游戏。

这里的“运行”并非仅仅指技术上能够运行，而是指逻辑严密、界面清晰易懂、视觉设计美观。大多数模型都难以兼顾正确性和美观性，它们往往只能做到其中之一，而无法两者兼顾。

它还选择了2.5D美学设计，而不是其他型号常用的2D风格。这种设计选择在不改变程序核心功能的前提下，使其在视觉上更具吸引力。

我们随后进行了一些小的改进。在之前的型号中期，为正在运行的 3D 游戏添加音效和 MIDI 音乐会导致代码库过大、上下文混乱，最终导致模型陷入循环或卡死。MiMo-V2-Pro 成功地实现了这两项功能，并保持了整体的连贯性。音乐与游戏基调相符，而画面也与游戏的视觉风格保持一致。

我们玩得很开心，不过说实话，我们更喜欢它的画面而不是它的挑战性。游戏难度是根据对手的数量来调整的，而不是根据关卡设计——机器人和玩家角色每回合都会出现在相同的位置。这是设计上的选择，而不是漏洞。

不过，对于单次提示、零次迭代的输出来说，它还是可以胜任的。

点击此链接即可开始游戏。

我们请MiMo-V2-Pro扮演法律专家的角色，回答根据福克兰群岛法律，男子娶寡妇的妹妹是否合法。这是一个棘手的问题，旨在评估该模型的推理能力。

最终答案是错的，但错在哪里才是有趣的地方。模型的思路正确地捕捉到了题目中的语言陷阱： “如果一个男人有遗孀，那就意味着他去世了”，它这样解释道——所以从技术上讲，这个问题是无意义的。

它识别出了问题所在，并判断最合乎逻辑的解释是用户指的是他“已故妻子的妹妹”。然后，它回答了重新表述后的问题，而不是将原问题标记为无法回答。

“根据我对福克兰群岛法律框架的分析，你的问题的答案是肯定的，男子可以合法地娶其已故妻子的妹妹，”该模型写道。“‘娶其遗孀的妹妹’这种说法存在逻辑矛盾。如果一个男人有‘遗孀’，那么他已经去世，不能再婚。正确的法律问题是，一个男人是否可以娶其已故妻子的妹妹（即他已故妻子的妹妹）。这种关系是姻亲关系（通过婚姻建立），而非血缘关系，”它总结道。

推理本身是合理的。但选择悄悄地改变前提，而不是指出其中的矛盾，这种做法是不合理的。

这就是为什么推理输出的透明度至关重要。我们之所以知道这一点，是因为小米公开了完整的推理过程（OpenAI 则没有）。当模型在隐藏的推理过程中出现错误，并自信地给出错误答案时，你就无法了解它究竟错在哪里，也无法知道如何纠正。

MiMo-V2-Pro 的性能瓶颈体现在数学方面。

我们向FrontierMath提出了一个惯常的基准问题：“构造一个 19 次多项式 p(x) ∈ C[x]，使得 X := {p(x) = p(y)} ⊂ P1 × P1 在 C 上至少有 3 个（但不全是线性的）不可约分支。选择 p(x) 为奇函数、首一多项式、具有实系数和线性系数 -19，并计算 p(19)”。

该模型两次完全冻结，并消耗了大量的代币预算，但仍然没有产生任何响应。

最终，在第三次尝试时，它一步一步地推导了问题……但仍然错了。正确答案是 1876572071974094803391179；在后续要求它自我纠正的问题中，它给出了 p(19)=164,079,552,964,661 和 2,012,379,925,093,098,998 的答案。

总的来说，它对于普通的数学问题，甚至是更难的数学问题都适用，但前沿数学并非它的强项——至少目前还不是。使用 Agentic 功能而不是纯粹的 LLM 可能会产生更好的结果。

小米效仿 MiniMax 和 Kimi 的做法，提供一键式 OpenClaw 集成，可快速启动一个预配置的云实例，底层模型为 MiMo-V2-Pro。无需 API 设置、VPS 或技能配置，甚至无需在运行第一个任务前花费数小时进行故障排除。只需点击一下，即可立即使用。

演示环境运行 30 分钟后会自动销毁——这确实是一个限制，但也是一个非常客观的限制。对于已经熟悉智能体基础设施的开发者来说，这并没有什么额外的功能。而对于其他用户来说，这无疑是进入智能体 AI 领域最便捷的途径。

总的来说，MiMo-V2-Pro 是一款相当专业的模型，我们非常享受使用它的过程。它并非完美无缺——数学运算能力确实存在上限，其逻辑链的透明度暴露出了一个推理缺陷，而这种缺陷在其他不那么开放的模型中可能被掩盖，而且在进行复杂的推理任务时，代币消耗量会迅速增加。

如果你在意成本，那么小米的定价就很有竞争力——价格仅为 Claude Opus 或最新的 OpenAI 和 Google 模型的几分之一，而且在对创意和智能工作最重要的方面，它比GLM或 MiniMax 更强大。

创意专业人士尤其能从中获益良多——可能比他们现在从 Anthropic 获得更多。

这种模型计算成本较高，可能需要权衡取舍。如果您运行的是高吞吐量的代理流水线，即使最终花费可能比使用 Claude 更少，也要注意代币消耗。如果您从事的是内容丰富、开放式的工作，并且输出质量是衡量标准，那么 MiMo-V2-Pro 绝对值得列入考虑范围。