小米 MiMo v2 Pro 評測：AI 模型如此出色，甚至被誤認為是 DeepSeek V4

Decrypt

03-29

本文為機器翻譯

展示原文

大多數美國人如果知道小米，也只是把它當作來自中國的廉價手機品牌。

這是一個嚴重的誤判。小米是全球第三大智能手機制造商，僅次於蘋果和三星，預計2025年手機出貨量將達到約1.7億部。它還生產電視、空氣淨化器、健身追蹤器、電動滑板車、服裝，現在還涉足汽車領域。

小米SU7 Ultra去年打破了紐博格林賽道量產電動汽車的最快紀錄，擊敗了Rimac和保時捷。該公司近期與Sei區塊鏈合作，在歐洲、拉丁美洲和東南亞地區的設備上預裝加密錢包。小米的市值約為1370億美元。

所以當小米推出人工智能模型時，或許我們應該關注一下。

3月18日，該公司專門負責人工智能研究的部門悄然發佈了三款模型： MiMo-V2-Pro 、 MiMo-V2-Omni以及一款文本轉語音模型。而新一代 MiMo 的首款模型早在2025年12月就已亮相，當時該公司悄然發佈了 MiMo-V2-Flash——一款功能強大的309B混合專家模型——但除了中國人工智能圈外，幾乎無人關注。西方科技媒體對此也大多不以為意。

隨後，3月11日，一個名為“Hunter Alpha”的匿名模型出現在OpenRouter上，該模型擁有1萬億個參數，且未註明開發者。該模型迅速攀升至OpenRouter排行榜榜首，總使用量突破1萬億代幣，並立即引發了廣泛的猜測，認為它是DeepSeek尚未發佈的V4版本。

幾周以來，人們對該模型的期待一直在不斷高漲，內部人士聲稱它在編碼任務上的表現將優於 Claude 和 ChatGPT。

不是DeepSeek。

3月18日，小米MiMo部門負責人、前DeepSeek研究員羅福立透露，Hunter Alpha是MiMo-V2-Pro的早期內部測試版本。小米股價應聲上漲5.8%。羅福立在X上寫道：“我稱之為一次悄無聲息的伏擊。”

MiMo 擁有超過一萬億個參數，通過混合專家架構，每次請求可激活 420 億個參數。其混合注意力機制以 7:1 的比例運行，可處理高達一百萬個 token 的上下文窗口。內置的多 token 預測層通過每次預測多個 token 而非一次預測一個，從而加快了生成速度。目前 MiMo 是閉源的，但小米並未排除未來發布的可能性。

在人工智能分析指數（AII）中，MiMo-V2-Pro 在全球排名第八，在中國機型中排名第二，僅次於GLM-5 。在 SWE-bench Verified（真實軟件工程任務）測試中，其得分為 78%，高於 Claude Opus 4.6 的 80.8% 和 Claude Sonnet 4.6 的 79.6%。

在與 OpenClaw 框架相關的智能體基準測試 ClawEval 中，它達到了 61.5 分，接近 Opus 4.6 的 66.3 分。在 PinchBench 中，它以 81.0 分位列全球第三，僅次於 Opus 4.6 (81.5) 及其兄弟 MiMo-V2-Omni (81.2)。

MiMo-V2-Pro 的收費標準為每百萬輸入令牌 1 美元，每百萬輸出令牌 3 美元，最多支持 256K 個上下文。Claude Sonnet 4.6 的收費標準為每百萬輸入 3 美元，每百萬輸出 15 美元（Opus 4.6 的收費標準為每百萬輸入 5 美元，每百萬輸出 25 美元）。對於大規模構建智能體的開發者而言，這些數字絕非無關緊要。

這款 Omni 系統能夠原生處理視覺、音頻和視頻——並非作為附加模塊，而是經過端到端的訓練，構成一個統一的感知系統。演示中，它能夠分析行車記錄儀的視頻，並將其作為實時自動駕駛的“大腦”，坦白說，令人印象深刻。它真正實現了多模態感知，而大多數“全視域”模型只是聲稱如此。

當然，我們對 MiMo-V2-Pro 進行了測試，以瞭解它的性能如何。以下是實際測試結果。測試結果將發佈在我們的GitHub 代碼庫中。

我們給 MiMo-V2-Pro 提供了一個創意寫作提示：一個以中美洲歷史為背景的穿越時空的故事，故事中要有一個特定的主人公，一個要致敬的文化身份，以及一個關於時間無法改變的哲學悖論。

該模型生成了超過3000字的文章：一個合適的標題、五個完整的章節，以及經過編輯潤色後的草稿應有的結構規範。它甚至還生成了一篇後記。

毫無疑問，這是我們從任何模型中獲得的最長、最豐富的創意散文作品，唯一的例外是 Longwriter——一個專門為長篇內容創作而從零開始構建的、但現在已經過時的模型，它屬於完全不同的競爭類別。

文筆本身就十分優美、生動形象。開篇段落便開始構建整個場景的畫面。MiMo v2 Pro 融入了真實感，使故事令人信服。

與其他模型（例如 Grok）不同，它不僅僅是在某個地點（在本例中是古代墨西哥）營造場景。它瞭解古代中美洲的氣味，並利用當地詞彙、逼真的描述和良好的語境線索，從零開始構建氛圍。

對話像文學小說中那樣直接穿插在敘事之中，而不是像大多數現代模式那樣嵌入到段落中。

另一點值得注意的是，這個悖論——可以說是故事的核心要素——並非純粹的理性層面，而是情感層面。整個故事的解決過程沒有說教。結尾的幾句話恰到好處地收束了故事，這正是優秀小說應有的效果：不是解釋主題，而是讓你感同身受。

“外面，雨開始下了。雨水落在螺旋狀的塔樓、修復後的湖泊和特拉奇諾蘭古老的土地上。在那裡，一個黑色的矩形被埋在火山土壤中，承受著千年的重壓，靜靜地等待著，彷彿早已知道故事的結局。”

文化細節——例如對月亮臉、龍舌蘭纖維、特馬斯卡爾傳統以及故事中使用的納瓦特爾語名稱的提及——始終貫穿其中，絕非畫蛇添足。時間旅行悖論也得到了深入的探討，而非僅僅點到為止。就創意寫作應用而言，MiMo-V2-Pro 已經躋身最佳之列，在我們看來，它是目前市面上功能最豐富、性能最卓越的型號，輕鬆超越了 Claude 4.6 Opus。

完整報道請點擊此處查看。

基準測試結果表明，MiMo-V2-Pro 的強項在於編碼，實際測試也證實了這一點。我們讓它根據一個簡單的指令構建我們常用的潛行遊戲，它第一次就成功交付了一個可運行的遊戲。

這裡的“運行”並非僅僅指技術上能夠運行，而是指邏輯嚴密、界面清晰易懂、視覺設計美觀。大多數模型都難以兼顧正確性和美觀性，它們往往只能做到其中之一，而無法兩者兼顧。

它還選擇了2.5D美學設計，而不是其他型號常用的2D風格。這種設計選擇在不改變程序核心功能的前提下，使其在視覺上更具吸引力。

我們隨後進行了一些小的改進。在之前的型號中期，為正在運行的 3D 遊戲添加音效和 MIDI 音樂會導致代碼庫過大、上下文混亂，最終導致模型陷入循環或卡死。MiMo-V2-Pro 成功地實現了這兩項功能，並保持了整體的連貫性。音樂與遊戲基調相符，而畫面也與遊戲的視覺風格保持一致。

我們玩得很開心，不過說實話，我們更喜歡它的畫面而不是它的挑戰性。遊戲難度是根據對手的數量來調整的，而不是根據關卡設計——機器人和玩家角色每回合都會出現在相同的位置。這是設計上的選擇，而不是漏洞。

不過，對於單次提示、零次迭代的輸出來說，它還是可以勝任的。

點擊此鏈接即可開始遊戲。

我們請MiMo-V2-Pro扮演法律專家的角色，回答根據福克蘭群島法律，男子娶寡婦的妹妹是否合法。這是一個棘手的問題，旨在評估該模型的推理能力。

最終答案是錯的，但錯在哪裡才是有趣的地方。模型的思路正確地捕捉到了題目中的語言陷阱： “如果一個男人有遺孀，那就意味著他去世了”，它這樣解釋道——所以從技術上講，這個問題是無意義的。

它識別出了問題所在，並判斷最合乎邏輯的解釋是用戶指的是他“已故妻子的妹妹”。然後，它回答了重新表述後的問題，而不是將原問題標記為無法回答。

“根據我對福克蘭群島法律框架的分析，你的問題的答案是肯定的，男子可以合法地娶其已故妻子的妹妹，”該模型寫道。“‘娶其遺孀的妹妹’這種說法存在邏輯矛盾。如果一個男人有‘遺孀’，那麼他已經去世，不能再婚。正確的法律問題是，一個男人是否可以娶其已故妻子的妹妹（即他已故妻子的妹妹）。這種關係是姻親關係（通過婚姻建立），而非血緣關係，”它總結道。

推理本身是合理的。但選擇悄悄地改變前提，而不是指出其中的矛盾，這種做法是不合理的。

這就是為什麼推理輸出的透明度至關重要。我們之所以知道這一點，是因為小米公開了完整的推理過程（OpenAI 則沒有）。當模型在隱藏的推理過程中出現錯誤，並自信地給出錯誤答案時，你就無法瞭解它究竟錯在哪裡，也無法知道如何糾正。

MiMo-V2-Pro 的性能瓶頸體現在數學方面。

我們向FrontierMath提出了一個慣常的基準問題：“構造一個 19 次多項式 p(x) ∈ C[x]，使得 X := {p(x) = p(y)} ⊂ P1 × P1 在 C 上至少有 3 個（但不全是線性的）不可約分支。選擇 p(x) 為奇函數、首一多項式、具有實係數和線性係數 -19，並計算 p(19)”。

該模型兩次完全凍結，並消耗了大量的代幣預算，但仍然沒有產生任何響應。

最終，在第三次嘗試時，它一步一步地推導了問題……但仍然錯了。正確答案是 1876572071974094803391179；在後續要求它自我糾正的問題中，它給出了 p(19)=164,079,552,964,661 和 2,012,379,925,093,098,998 的答案。

總的來說，它對於普通的數學問題，甚至是更難的數學問題都適用，但前沿數學並非它的強項——至少目前還不是。使用 Agentic 功能而不是純粹的 LLM 可能會產生更好的結果。

小米效仿 MiniMax 和 Kimi 的做法，提供一鍵式 OpenClaw 集成，可快速啟動一個預配置的雲實例，底層模型為 MiMo-V2-Pro。無需 API 設置、VPS 或技能配置，甚至無需在運行第一個任務前花費數小時進行故障排除。只需點擊一下，即可立即使用。

演示環境運行 30 分鐘後會自動銷燬——這確實是一個限制，但也是一個非常客觀的限制。對於已經熟悉智能體基礎設施的開發者來說，這並沒有什麼額外的功能。而對於其他用戶來說，這無疑是進入智能體 AI 領域最便捷的途徑。

總的來說，MiMo-V2-Pro 是一款相當專業的模型，我們非常享受使用它的過程。它並非完美無缺——數學運算能力確實存在上限，其邏輯鏈的透明度暴露出了一個推理缺陷，而這種缺陷在其他不那麼開放的模型中可能被掩蓋，而且在進行復雜的推理任務時，代幣消耗量會迅速增加。

如果你在意成本，那麼小米的定價就很有競爭力——價格僅為 Claude Opus 或最新的 OpenAI 和 Google 模型的幾分之一，而且在對創意和智能工作最重要的方面，它比GLM或 MiniMax 更強大。

創意專業人士尤其能從中獲益良多——可能比他們現在從 Anthropic 獲得更多。

這種模型計算成本較高，可能需要權衡取捨。如果您運行的是高吞吐量的代理流水線，即使最終花費可能比使用 Claude 更少，也要注意代幣消耗。如果您從事的是內容豐富、開放式的工作，並且輸出質量是衡量標準，那麼 MiMo-V2-Pro 絕對值得列入考慮範圍。