小米 MiMo v2 Pro 評測:AI 模型如此出色,甚至被誤認為是 DeepSeek V4

本文為機器翻譯
展示原文

大多數美國人如果知道小米,也只是把它當作來自中國的廉價手機品牌。

這是一個嚴重的誤判。小米是全球第三大智能手機制造商,僅次於蘋果和三星,預計2025年手機出貨量將達到約1.7億部。它還生產電視、空氣淨化器、健身追蹤器、電動滑板車、服裝,現在還涉足汽車領域。

小米SU7 Ultra去年打破了紐博格林賽道量產電動汽車的最快紀錄,擊敗了Rimac和保時捷。該公司近期與Sei區塊鏈合作,在歐洲、拉丁美洲和東南亞地區的設備上預裝加密錢包。小米的市值約為1370億美元。

所以當小米推出人工智能模型時,或許我們應該關注一下。

3月18日,該公司專門負責人工智能研究的部門悄然發佈了三款模型: MiMo-V2-ProMiMo-V2-Omni以及一款文本轉語音模型。而新一代 MiMo 的首款模型早在2025年12月就已亮相,當時該公司悄然發佈了 MiMo-V2-Flash——一款功能強大的309B混合專家模型——但除了中國人工智能圈外,幾乎無人關注。西方科技媒體對此也大多不以為意。

隨後,3月11日,一個名為“Hunter Alpha”的匿名模型出現在OpenRouter上,該模型擁有1萬億個參數,且未註明開發者。該模型迅速攀升至OpenRouter排行榜榜首,總使用量突破1萬億代幣,並立即引發了廣泛的猜測,認為它是DeepSeek尚未發佈的V4版本。

幾周以來,人們對該模型的期待一直在不斷高漲,內部人士聲稱它在編碼任務上的表現將優於 Claude 和 ChatGPT。

不是DeepSeek。

3月18日,小米MiMo部門負責人、前DeepSeek研究員羅福立透露,Hunter Alpha是MiMo-V2-Pro的早期內部測試版本。小米股價應聲上漲5.8%。羅福立在X上寫道:“我稱之為一次悄無聲息的伏擊。”

MiMo 擁有超過一萬億個參數,通過混合專家架構,每次請求可激活 420 億個參數。其混合注意力機制以 7:1 的比例運行,可處理高達一百萬個 token 的上下文窗口。內置的多 token 預測層通過每次預測多個 token 而非一次預測一個,從而加快了生成速度。目前 MiMo 是閉源的,但小米並未排除未來發布的可能性。

人工智能分析指數(AII)中,MiMo-V2-Pro 在全球排名第八,在中國機型中排名第二,僅次於GLM-5 。在 SWE-bench Verified(真實軟件工程任務)測試中,其得分為 78%,高於 Claude Opus 4.6 的 80.8% 和 Claude Sonnet 4.6 的 79.6%。

在與 OpenClaw 框架相關的智能體基準測試 ClawEval 中,它達到了 61.5 分,接近 Opus 4.6 的 66.3 分。在 PinchBench 中,它以 81.0 分位列全球第三,僅次於 Opus 4.6 (81.5) 及其兄弟 MiMo-V2-Omni (81.2)。

MiMo-V2-Pro 的收費標準為每百萬輸入令牌 1 美元,每百萬輸出令牌 3 美元,最多支持 256K 個上下文。Claude Sonnet 4.6 的收費標準為每百萬輸入 3 美元,每百萬輸出 15 美元(Opus 4.6 的收費標準為每百萬輸入 5 美元,每百萬輸出 25 美元)。對於大規模構建智能體的開發者而言,這些數字絕非無關緊要。

這款 Omni 系統能夠原生處理視覺、音頻和視頻——並非作為附加模塊,而是經過端到端的訓練,構成一個統一的感知系統。演示中,它能夠分析行車記錄儀的視頻,並將其作為實時自動駕駛的“大腦”,坦白說,令人印象深刻。它真正實現了多模態感知,而大多數“全視域”模型只是聲稱如此。

當然,我們對 MiMo-V2-Pro 進行了測試,以瞭解它的性能如何。以下是實際測試結果。測試結果將發佈在我們的GitHub 代碼庫中。

我們給 MiMo-V2-Pro 提供了一個創意寫作提示:一個以中美洲歷史為背景的穿越時空的故事,故事中要有一個特定的主人公,一個要致敬的文化身份,以及一個關於時間無法改變的哲學悖論。

該模型生成了超過3000字的文章:一個合適的標題、五個完整的章節,以及經過編輯潤色後的草稿應有的結構規範。它甚至還生成了一篇後記。

毫無疑問,這是我們從任何模型中獲得的最長、最豐富的創意散文作品,唯一的例外是 Longwriter——一個專門為長篇內容創作而從零開始構建的、但現在已經過時的模型,它屬於完全不同的競爭類別。

文筆本身就十分優美、生動形象。開篇段落便開始構建整個場景的畫面。MiMo v2 Pro 融入了真實感,使故事令人信服。

與其他模型(例如 Grok)不同,它不僅僅是在某個地點(在本例中是古代墨西哥)營造場景。它瞭解古代中美洲的氣味,並利用當地詞彙、逼真的描述和良好的語境線索,從零開始構建氛圍。

對話像文學小說中那樣直接穿插在敘事之中,而不是像大多數現代模式那樣嵌入到段落中。

另一點值得注意的是,這個悖論——可以說是故事的核心要素——並非純粹的理性層面,而是情感層面。整個故事的解決過程沒有說教。結尾的幾句話恰到好處地收束了故事,這正是優秀小說應有的效果:不是解釋主題,而是讓你感同身受。

“外面,雨開始下了。雨水落在螺旋狀的塔樓、修復後的湖泊和特拉奇諾蘭古老的土地上。在那裡,一個黑色的矩形被埋在火山土壤中,承受著千年的重壓,靜靜地等待著,彷彿早已知道故事的結局。”

文化細節——例如對月亮臉、龍舌蘭纖維、特馬斯卡爾傳統以及故事中使用的納瓦特爾語名稱的提及——始終貫穿其中,絕非畫蛇添足。時間旅行悖論也得到了深入的探討,而非僅僅點到為止。就創意寫作應用而言,MiMo-V2-Pro 已經躋身最佳之列,在我們看來,它是目前市面上功能最豐富、性能最卓越的型號,輕鬆超越了 Claude 4.6 Opus。

完整報道請點擊此處查看

基準測試結果表明,MiMo-V2-Pro 的強項在於編碼,實際測試也證實了這一點。我們讓它根據一個簡單的指令構建我們常用的潛行遊戲,它第一次就成功交付了一個可運行的遊戲。

這裡的“運行”並非僅僅指技術上能夠運行,而是指邏輯嚴密、界面清晰易懂、視覺設計美觀。大多數模型都難以兼顧正確性和美觀性,它們往往只能做到其中之一,而無法兩者兼顧。

它還選擇了2.5D美學設計,而不是其他型號常用的2D風格。這種設計選擇在不改變程序核心功能的前提下,使其在視覺上更具吸引力。

我們隨後進行了一些小的改進。在之前的型號中期,為正在運行的 3D 遊戲添加音效和 MIDI 音樂會導致代碼庫過大、上下文混亂,最終導致模型陷入循環或卡死。MiMo-V2-Pro 成功地實現了這兩項功能,並保持了整體的連貫性。音樂與遊戲基調相符,而畫面也與遊戲的視覺風格保持一致。

我們玩得很開心,不過說實話,我們更喜歡它的畫面而不是它的挑戰性。遊戲難度是根據對手的數量來調整的,而不是根據關卡設計——機器人和玩家角色每回合都會出現在相同的位置。這是設計上的選擇,而不是漏洞。

不過,對於單次提示、零次迭代的輸出來說,它還是可以勝任的。

點擊此鏈接即可開始遊戲。

我們請MiMo-V2-Pro扮演法律專家的角色,回答根據福克蘭群島法律,男子娶寡婦的妹妹是否合法。這是一個棘手的問題,旨在評估該模型的推理能力。

最終答案是錯的,但錯在哪裡才是有趣的地方。模型的思路正確地捕捉到了題目中的語言陷阱: “如果一個男人有遺孀,那就意味著他去世了”,它這樣解釋道——所以從技術上講,這個問題是無意義的。

它識別出了問題所在,並判斷最合乎邏輯的解釋是用戶指的是他“已故妻子的妹妹”。然後,它回答了重新表述後的問題,而不是將原問題標記為無法回答。

“根據我對福克蘭群島法律框架的分析,你的問題的答案是肯定的,男子可以合法地娶其已故妻子的妹妹,”該模型寫道。“‘娶其遺孀的妹妹’這種說法存在邏輯矛盾。如果一個男人有‘遺孀’,那麼他已經去世,不能再婚。正確的法律問題是,一個男人是否可以娶其已故妻子的妹妹(即他已故妻子的妹妹)。這種關係是姻親關係(通過婚姻建立),而非血緣關係,”它總結道。

推理本身是合理的。但選擇悄悄地改變前提,而不是指出其中的矛盾,這種做法是不合理的。

這就是為什麼推理輸出的透明度至關重要。我們之所以知道這一點,是因為小米公開了完整的推理過程(OpenAI 則沒有)。當模型在隱藏的推理過程中出現錯誤,並自信地給出錯誤答案時,你就無法瞭解它究竟錯在哪裡,也無法知道如何糾正。

MiMo-V2-Pro 的性能瓶頸體現在數學方面。

我們向FrontierMath提出了一個慣常的基準問題:“構造一個 19 次多項式 p(x) ∈ C[x],使得 X := {p(x) = p(y)} ⊂ P1 × P1 在 C 上至少有 3 個(但不全是線性的)不可約分支。選擇 p(x) 為奇函數、首一多項式、具有實係數和線性係數 -19,並計算 p(19)”。

該模型兩次完全凍結,並消耗了大量的代幣預算,但仍然沒有產生任何響應。

最終,在第三次嘗試時,它一步一步地推導了問題……但仍然錯了。正確答案是 1876572071974094803391179;在後續要求它自我糾正的問題中,它給出了 p(19)=164,079,552,964,661 和 2,012,379,925,093,098,998 的答案。

總的來說,它對於普通的數學問題,甚至是更難的數學問題都適用,但前沿數學並非它的強項——至少目前還不是。使用 Agentic 功能而不是純粹的 LLM 可能會產生更好的結果。

小米效仿 MiniMax 和 Kimi 的做法,提供一鍵式 OpenClaw 集成,可快速啟動一個預配置的雲實例,底層模型為 MiMo-V2-Pro。無需 API 設置、VPS 或技能配置,甚至無需在運行第一個任務前花費數小時進行故障排除。只需點擊一下,即可立即使用。

演示環境運行 30 分鐘後會自動銷燬——這確實是一個限制,但也是一個非常客觀的限制。對於已經熟悉智能體基礎設施的開發者來說,這並沒有什麼額外的功能。而對於其他用戶來說,這無疑是進入智能體 AI 領域最便捷的途徑。

總的來說,MiMo-V2-Pro 是一款相當專業的模型,我們非常享受使用它的過程。它並非完美無缺——數學運算能力確實存在上限,其邏輯鏈的透明度暴露出了一個推理缺陷,而這種缺陷在其他不那麼開放的模型中可能被掩蓋,而且在進行復雜的推理任務時,代幣消耗量會迅速增加。

如果你在意成本,那麼小米的定價就很有競爭力——價格僅為 Claude Opus 或最新的 OpenAI 和 Google 模型的幾分之一,而且在對創意和智能工作最重要的方面,它比GLM或 MiniMax 更強大。

創意專業人士尤其能從中獲益良多——可能比他們現在從 Anthropic 獲得更多。

這種模型計算成本較高,可能需要權衡取捨。如果您運行的是高吞吐量的代理流水線,即使最終花費可能比使用 Claude 更少,也要注意代幣消耗。如果您從事的是內容豐富、開放式的工作,並且輸出質量是衡量標準,那麼 MiMo-V2-Pro 絕對值得列入考慮範圍。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
77
收藏
17
評論