小米 MiMo v2 Pro 评测:AI 模型如此出色,甚至被误认为是 DeepSeek V4

本文为机器翻译
展示原文

大多数美国人如果知道小米,也只是把它当作来自中国的廉价手机品牌。

这是一个严重的误判。小米是全球第三大智能手机制造商,仅次于苹果和三星,预计2025年手机出货量将达到约1.7亿部。它还生产电视、空气净化器、健身追踪器、电动滑板车、服装,现在还涉足汽车领域。

小米SU7 Ultra去年打破了纽博格林赛道量产电动汽车的最快纪录,击败了Rimac和保时捷。该公司近期与Sei区块链合作,在欧洲、拉丁美洲和东南亚地区的设备上预装加密钱包。小米的市值约为1370亿美元。

所以当小米推出人工智能模型时,或许我们应该关注一下。

3月18日,该公司专门负责人工智能研究的部门悄然发布了三款模型: MiMo-V2-ProMiMo-V2-Omni以及一款文本转语音模型。而新一代 MiMo 的首款模型早在2025年12月就已亮相,当时该公司悄然发布了 MiMo-V2-Flash——一款功能强大的309B混合专家模型——但除了中国人工智能圈外,几乎无人关注。西方科技媒体对此也大多不以为意。

随后,3月11日,一个名为“Hunter Alpha”的匿名模型出现在OpenRouter上,该模型拥有1万亿个参数,且未注明开发者。该模型迅速攀升至OpenRouter排行榜榜首,总使用量突破1万亿代币,并立即引发了广泛的猜测,认为它是DeepSeek尚未发布的V4版本。

几周以来,人们对该模型的期待一直在不断高涨,内部人士声称它在编码任务上的表现将优于 Claude 和 ChatGPT。

不是DeepSeek。

3月18日,小米MiMo部门负责人、前DeepSeek研究员罗福立透露,Hunter Alpha是MiMo-V2-Pro的早期内部测试版本。小米股价应声上涨5.8%。罗福立在X上写道:“我称之为一次悄无声息的伏击。”

MiMo 拥有超过一万亿个参数,通过混合专家架构,每次请求可激活 420 亿个参数。其混合注意力机制以 7:1 的比例运行,可处理高达一百万个 token 的上下文窗口。内置的多 token 预测层通过每次预测多个 token 而非一次预测一个,从而加快了生成速度。目前 MiMo 是闭源的,但小米并未排除未来发布的可能性。

人工智能分析指数(AII)中,MiMo-V2-Pro 在全球排名第八,在中国机型中排名第二,仅次于GLM-5 。在 SWE-bench Verified(真实软件工程任务)测试中,其得分为 78%,高于 Claude Opus 4.6 的 80.8% 和 Claude Sonnet 4.6 的 79.6%。

在与 OpenClaw 框架相关的智能体基准测试 ClawEval 中,它达到了 61.5 分,接近 Opus 4.6 的 66.3 分。在 PinchBench 中,它以 81.0 分位列全球第三,仅次于 Opus 4.6 (81.5) 及其兄弟 MiMo-V2-Omni (81.2)。

MiMo-V2-Pro 的收费标准为每百万输入令牌 1 美元,每百万输出令牌 3 美元,最多支持 256K 个上下文。Claude Sonnet 4.6 的收费标准为每百万输入 3 美元,每百万输出 15 美元(Opus 4.6 的收费标准为每百万输入 5 美元,每百万输出 25 美元)。对于大规模构建智能体的开发者而言,这些数字绝非无关紧要。

这款 Omni 系统能够原生处理视觉、音频和视频——并非作为附加模块,而是经过端到端的训练,构成一个统一的感知系统。演示中,它能够分析行车记录仪的视频,并将其作为实时自动驾驶的“大脑”,坦白说,令人印象深刻。它真正实现了多模态感知,而大多数“全视域”模型只是声称如此。

当然,我们对 MiMo-V2-Pro 进行了测试,以了解它的性能如何。以下是实际测试结果。测试结果将发布在我们的GitHub 代码库中。

我们给 MiMo-V2-Pro 提供了一个创意写作提示:一个以中美洲历史为背景的穿越时空的故事,故事中要有一个特定的主人公,一个要致敬的文化身份,以及一个关于时间无法改变的哲学悖论。

该模型生成了超过3000字的文章:一个合适的标题、五个完整的章节,以及经过编辑润色后的草稿应有的结构规范。它甚至还生成了一篇后记。

毫无疑问,这是我们从任何模型中获得的最长、最丰富的创意散文作品,唯一的例外是 Longwriter——一个专门为长篇内容创作而从零开始构建的、但现在已经过时的模型,它属于完全不同的竞争类别。

文笔本身就十分优美、生动形象。开篇段落便开始构建整个场景的画面。MiMo v2 Pro 融入了真实感,使故事令人信服。

与其他模型(例如 Grok)不同,它不仅仅是在某个地点(在本例中是古代墨西哥)营造场景。它了解古代中美洲的气味,并利用当地词汇、逼真的描述和良好的语境线索,从零开始构建氛围。

对话像文学小说中那样直接穿插在叙事之中,而不是像大多数现代模式那样嵌入到段落中。

另一点值得注意的是,这个悖论——可以说是故事的核心要素——并非纯粹的理性层面,而是情感层面。整个故事的解决过程没有说教。结尾的几句话恰到好处地收束了故事,这正是优秀小说应有的效果:不是解释主题,而是让你感同身受。

“外面,雨开始下了。雨水落在螺旋状的塔楼、修复后的湖泊和特拉奇诺兰古老的土地上。在那里,一个黑色的矩形被埋在火山土壤中,承受着千年的重压,静静地等待着,仿佛早已知道故事的结局。”

文化细节——例如对月亮脸、龙舌兰纤维、特马斯卡尔传统以及故事中使用的纳瓦特尔语名称的提及——始终贯穿其中,绝非画蛇添足。时间旅行悖论也得到了深入的探讨,而非仅仅点到为止。就创意写作应用而言,MiMo-V2-Pro 已经跻身最佳之列,在我们看来,它是目前市面上功能最丰富、性能最卓越的型号,轻松超越了 Claude 4.6 Opus。

完整报道请点击此处查看

基准测试结果表明,MiMo-V2-Pro 的强项在于编码,实际测试也证实了这一点。我们让它根据一个简单的指令构建我们常用的潜行游戏,它第一次就成功交付了一个可运行的游戏。

这里的“运行”并非仅仅指技术上能够运行,而是指逻辑严密、界面清晰易懂、视觉设计美观。大多数模型都难以兼顾正确性和美观性,它们往往只能做到其中之一,而无法两者兼顾。

它还选择了2.5D美学设计,而不是其他型号常用的2D风格。这种设计选择在不改变程序核心功能的前提下,使其在视觉上更具吸引力。

我们随后进行了一些小的改进。在之前的型号中期,为正在运行的 3D 游戏添加音效和 MIDI 音乐会导致代码库过大、上下文混乱,最终导致模型陷入循环或卡死。MiMo-V2-Pro 成功地实现了这两项功能,并保持了整体的连贯性。音乐与游戏基调相符,而画面也与游戏的视觉风格保持一致。

我们玩得很开心,不过说实话,我们更喜欢它的画面而不是它的挑战性。游戏难度是根据对手的数量来调整的,而不是根据关卡设计——机器人和玩家角色每回合都会出现在相同的位置。这是设计上的选择,而不是漏洞。

不过,对于单次提示、零次迭代的输出来说,它还是可以胜任的。

点击此链接即可开始游戏。

我们请MiMo-V2-Pro扮演法律专家的角色,回答根据福克兰群岛法律,男子娶寡妇的妹妹是否合法。这是一个棘手的问题,旨在评估该模型的推理能力。

最终答案是错的,但错在哪里才是有趣的地方。模型的思路正确地捕捉到了题目中的语言陷阱: “如果一个男人有遗孀,那就意味着他去世了”,它这样解释道——所以从技术上讲,这个问题是无意义的。

它识别出了问题所在,并判断最合乎逻辑的解释是用户指的是他“已故妻子的妹妹”。然后,它回答了重新表述后的问题,而不是将原问题标记为无法回答。

“根据我对福克兰群岛法律框架的分析,你的问题的答案是肯定的,男子可以合法地娶其已故妻子的妹妹,”该模型写道。“‘娶其遗孀的妹妹’这种说法存在逻辑矛盾。如果一个男人有‘遗孀’,那么他已经去世,不能再婚。正确的法律问题是,一个男人是否可以娶其已故妻子的妹妹(即他已故妻子的妹妹)。这种关系是姻亲关系(通过婚姻建立),而非血缘关系,”它总结道。

推理本身是合理的。但选择悄悄地改变前提,而不是指出其中的矛盾,这种做法是不合理的。

这就是为什么推理输出的透明度至关重要。我们之所以知道这一点,是因为小米公开了完整的推理过程(OpenAI 则没有)。当模型在隐藏的推理过程中出现错误,并自信地给出错误答案时,你就无法了解它究竟错在哪里,也无法知道如何纠正。

MiMo-V2-Pro 的性能瓶颈体现在数学方面。

我们向FrontierMath提出了一个惯常的基准问题:“构造一个 19 次多项式 p(x) ∈ C[x],使得 X := {p(x) = p(y)} ⊂ P1 × P1 在 C 上至少有 3 个(但不全是线性的)不可约分支。选择 p(x) 为奇函数、首一多项式、具有实系数和线性系数 -19,并计算 p(19)”。

该模型两次完全冻结,并消耗了大量的代币预算,但仍然没有产生任何响应。

最终,在第三次尝试时,它一步一步地推导了问题……但仍然错了。正确答案是 1876572071974094803391179;在后续要求它自我纠正的问题中,它给出了 p(19)=164,079,552,964,661 和 2,012,379,925,093,098,998 的答案。

总的来说,它对于普通的数学问题,甚至是更难的数学问题都适用,但前沿数学并非它的强项——至少目前还不是。使用 Agentic 功能而不是纯粹的 LLM 可能会产生更好的结果。

小米效仿 MiniMax 和 Kimi 的做法,提供一键式 OpenClaw 集成,可快速启动一个预配置的云实例,底层模型为 MiMo-V2-Pro。无需 API 设置、VPS 或技能配置,甚至无需在运行第一个任务前花费数小时进行故障排除。只需点击一下,即可立即使用。

演示环境运行 30 分钟后会自动销毁——这确实是一个限制,但也是一个非常客观的限制。对于已经熟悉智能体基础设施的开发者来说,这并没有什么额外的功能。而对于其他用户来说,这无疑是进入智能体 AI 领域最便捷的途径。

总的来说,MiMo-V2-Pro 是一款相当专业的模型,我们非常享受使用它的过程。它并非完美无缺——数学运算能力确实存在上限,其逻辑链的透明度暴露出了一个推理缺陷,而这种缺陷在其他不那么开放的模型中可能被掩盖,而且在进行复杂的推理任务时,代币消耗量会迅速增加。

如果你在意成本,那么小米的定价就很有竞争力——价格仅为 Claude Opus 或最新的 OpenAI 和 Google 模型的几分之一,而且在对创意和智能工作最重要的方面,它比GLM或 MiniMax 更强大。

创意专业人士尤其能从中获益良多——可能比他们现在从 Anthropic 获得更多。

这种模型计算成本较高,可能需要权衡取舍。如果您运行的是高吞吐量的代理流水线,即使最终花费可能比使用 Claude 更少,也要注意代币消耗。如果您从事的是内容丰富、开放式的工作,并且输出质量是衡量标准,那么 MiMo-V2-Pro 绝对值得列入考虑范围。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
77
收藏
17
评论