샤오미 MiMo v2 Pro 리뷰: 딥시크 V4로 오인될 정도로 뛰어난 AI 모델

03-29

이 기사는 기계로 번역되었습니다

원문 표시

대부분의 미국인들은 샤오미를, 설령 안다고 해도, 중국산 저가 휴대폰 브랜드 정도로만 알고 있을 겁니다.

그건 상당한 오해입니다. 샤오미는 애플과 삼성에 이어 세계 3위의 스마트폰 제조업체 로, 2025년까지 약 1억 7천만 대의 스마트폰을 출하할 예정입니다. 샤오미는 TV, 공기청정기, 피트니스 트래커, 전기 스쿠터, 의류, 그리고 이제는 자동차까지 생산하고 있습니다.

샤오미의 SU7 울트라는 작년에 뉘르부르크링에서 양산형 전기차 중 가장 빠른 기록을 세우며 리막과 포르쉐를 제쳤습니다. 최근에는 세이(Sei) 블록체인과 협력하여 유럽, 남미, 동남아시아 전역의 자사 기기에 암호화폐 지갑을 사전 설치 하고 있습니다. 샤오미의 시가총액은 약 1,370억 달러에 달합니다.

그러니 샤오미가 인공지능 모델을 공개한다면, 우리는 주목해야 할지도 모릅니다.

3월 18일, 이 회사의 AI 연구 전담 부서는 MiMo-V2-Pro , MiMo-V2-Omni , 그리고 텍스트 음성 변환 모델 등 세 가지 모델을 조용히 동시에 출시했습니다. 새로운 MiMo 세대의 첫 번째 모델은 2025년 12월에 조용히 공개된 MiMo-V2-Flash였습니다. 이 모델은 309B급 성능을 자랑하는 전문가 혼합형 모델이었지만, 중국 AI 커뮤니티 외에는 거의 아무도 주목하지 않았습니다. 서구 기술 언론 역시 대부분 무관심한 반응을 보였습니다.

그러던 중 3월 11일, 개발자 정보가 없는 "헌터 알파"라는 익명의 1조 개 매개변수 모델이 오픈라우터에 등장했습니다. 이 모델은 오픈라우터 순위표 최상단에 오르고 총 사용량이 1조 토큰을 돌파하면서 딥시크의 미공개 버전인 V4일 것이라는 추측이 즉시 확산되었습니다.

해당 모델에 대한 기대감은 몇 주 동안 고조되어 왔으며, 내부 관계자들은 이 모델이 코딩 작업에서 Claude와 ChatGPT 모두를 능가할 것이라고 주장했습니다 .

딥시크(DeepSeek)가 아니었어요.

3월 18일, 샤오미 MiMo 사업부 책임자이자 전 DeepSeek 연구원이었던 뤄푸리는 Hunter Alpha가 MiMo-V2-Pro의 초기 내부 테스트 빌드였다고 밝혔습니다. 이에 샤오미 주가는 5.8% 급등했습니다. 뤄푸리는 X 포럼에 "이것은 조용한 매복 공격이라고 할 수 있겠다"라고 썼습니다.

MiMo는 총 1조 개 이상의 파라미터를 자랑하며, 혼합형 전문가(mixture-of-experts) 설정을 통해 요청당 420억 개의 활성 파라미터를 처리합니다. 7:1 비율로 작동하는 하이브리드 어텐션 메커니즘은 최대 백만 개의 토큰을 포함하는 컨텍스트 윈도우를 처리합니다. 내장된 멀티 토큰 예측 레이어는 한 번에 하나의 토큰이 아닌 여러 토큰을 예측하여 생성 속도를 향상시킵니다. 현재는 소스 코드가 공개되지 않았지만, 샤오미는 향후 공개 가능성을 열어두었습니다.

인공지능 분석 지수(Artificial Analysis Intelligence Index) 에서 MiMo-V2-Pro는 전 세계 8위, 중국 모델 중에서는 골렘(GLM)-5 에 이어 2위를 기록했습니다. 실제 소프트웨어 엔지니어링 작업을 평가하는 SWE-bench Verified에서는 78%의 점수를 받았으며, Claude Opus 4.6은 80.8%, Claude Sonnet 4.6은 79.6%를 기록했습니다.

OpenClaw 프레임워크와 관련된 에이전트 벤치마크인 ClawEval에서 61.5점을 기록하며 Opus 4.6의 66.3점에 근접했습니다. PinchBench에서는 81.0점으로 전 세계 3위를 차지했으며, Opus 4.6(81.5점)과 자매 제품인 MiMo-V2-Omni(81.2점)에 이어 높은 점수를 받았습니다.

MiMo-V2-Pro는 입력 토큰 백만 개당 1달러, 출력 토큰 백만 개당 3달러이며, 최대 256,000개의 컨텍스트를 지원합니다. Claude Sonnet 4.6은 입력 토큰 백만 개당 3달러, 출력 토큰 백만 개당 15달러입니다(Opus 4.6은 입력 토큰 백만 개당 5달러, 출력 토큰 백만 개당 25달러). 대규모 에이전트 시스템을 구축하는 개발자에게 이러한 비용은 결코 사소한 문제가 아닙니다.

옴니 시리즈의 새로운 모델은 시각, 청각, 비디오를 별도의 모듈이 아닌, 통합된 인지 시스템으로 처음부터 끝까지 학습되어 자체적으로 처리합니다. 블랙박스 영상을 분석하는 실시간 자율 주행 시스템을 시연하는 모습은 솔직히 인상적이었습니다. 대부분의 "옴니" 모델들이 주장만 할 뿐인 진정한 멀티모달 기능을 갖추고 있습니다.

물론, MiMo-V2-Pro의 성능을 알아보기 위해 테스트를 진행했습니다. 실제 결과는 다음과 같습니다. 출력 결과는 저희 GitHub 저장소에서 확인하실 수 있습니다.

저희는 MiMo-V2-Pro에게 하나의 창작 주제를 제시했습니다. 메소아메리카 역사를 배경으로 한 시간 여행 이야기로, 특정한 주인공이 등장하고, 존중해야 할 문화적 정체성이 있으며, 시간은 바꿀 수 없다는 철학적 역설을 담아야 했습니다.

이 모델은 3,000단어가 넘는 원고를 만들어냈습니다. 제대로 된 제목, 다섯 개의 장으로 구성된 완벽한 원고는 물론, 편집자의 손을 거친 원고에서 기대할 수 있는 탄탄한 구조까지 갖추고 있었습니다. 심지어 에필로그까지 작성해 주었습니다.

이는 의심할 여지 없이, 장문 생성만을 위해 처음부터 특별히 제작된 구형 모델인 롱라이터(Longwriter)를 제외하고는, 우리가 어떤 모델에서든 얻어낸 가장 길고 풍부한 창작 산문입니다. 롱라이터는 경쟁 범주가 완전히 다릅니다.

글 자체는 풍부하고, 묘사가 뛰어나며, 생생했습니다. 첫 단락부터 전체 장면의 이미지를 구축하기 시작합니다. MiMo v2 Pro는 사실감을 불어넣어 이야기가 믿음직스럽게 느껴지도록 합니다.

Grok과 같은 다른 모델들과 달리, 이 모델은 단순히 배경(이 경우에는 고대 멕시코)을 설정하는 데 그치지 않았습니다. 고대 메소아메리카의 냄새까지 이해하고, 현지어, 사실적인 묘사, 그리고 풍부한 맥락적 단서를 활용하여 분위기를 처음부터 탄탄하게 구축했습니다.

대화는 문학 소설에서처럼 서술 부분 안에 자연스럽게 녹아들어 있으며, 현재 대부분의 모델처럼 문단 안에 삽입되지 않습니다.

또 하나 주목할 만한 점은 이야기의 핵심 요소라고 할 수 있는 역설이 순전히 지적인 차원이 아니라 감정적인 차원이었다는 것입니다. 전체적인 흐름은 설명 없이 해결됩니다. 마지막 대사는 좋은 소설이 그래야 하듯이 주제를 설명하는 대신 독자가 느끼도록 함으로써 완벽한 마무리를 짓습니다.

"밖에서는 비가 내리기 시작했다. 빗방울은 나선형 탑들과 복원된 호수들, 그리고 틀라치놀란의 고대 땅 위로 떨어졌다. 그곳에는 천 년의 세월 동안 화산토에 묻혀 있던 검은 직사각형이 마치 이미 이야기의 결말을 알고 있는 듯한 인내심으로 기다리고 있었다."

달의 얼굴( cara de luna) , 마게이 섬유, 테마스칼 전통, 그리고 이야기에 사용된 나우아틀어 이름 등 문화적 특수성은 일관성 있게 드러나며 결코 장식적이지 않습니다. 시간 여행 역설은 단순히 언급되는 것이 아니라 실제로 논증됩니다. 창작 글쓰기 용도로 MiMo-V2-Pro는 숏 선택지 중 하나로 손꼽히며, 저희 의견으로는 단연코 최고의 모델이며 Claude 4.6 Opus를 훨씬 능가합니다.

자세한 내용은 여기에서 확인할 수 있습니다 .

벤치마크 수치는 MiMo-V2-Pro의 가장 큰 장점이 코딩 능력임을 보여주며, 실제 사용 경험 또한 이를 뒷받침합니다. 저희는 MiMo-V2-Pro에 단 하나의 명령어만으로 평소 즐겨 사용하는 잠입 게임을 제작해 달라고 요청했고, MiMo-V2-Pro는 첫 시도에 바로 작동하는 게임을 만들어냈습니다.

단순히 기술적으로 작동한다는 의미가 아니라, 논리가 타당하고, 화면이 이해하기 쉽고, 시각적 디자인이 실제로 훌륭하다는 의미에서 '작동한다'는 것입니다. 정확성과 미학, 이 두 가지를 모두 만족시키는 것이 대부분의 모델이 실패하는 지점입니다. 둘 중 하나만 충족하는 경우가 대부분입니다.

또한 다른 모델들이 일반적으로 사용하는 2D 스타일 대신 2.5D 디자인을 채택했습니다. 이러한 디자인 선택은 프로그램의 핵심 기능을 바꾸지 않으면서도 미적으로 더욱 보기 좋게 만들었습니다.

우리는 소소한 개선 사항들을 추가했습니다. 이전 모델들은 실행 중인 3D 게임에 사운드와 MIDI 음악을 추가하면 생성 도중 오류가 발생하는 문제가 있었습니다. 코드 크기가 너무 커지고, 컨텍스트가 스레드를 잃어버리고, 모델이 무한 루프에 빠지거나 멈추는 현상이 발생했습니다. MiMo-V2-Pro는 사운드와 MIDI 음악을 추가하면서도 전체적인 일관성을 유지했습니다. 음악은 게임의 분위기와 잘 어울렸고, 화면은 게임의 시각적 정체성을 반영했습니다.

솔직히 말하면, 게임 난이도보다는 그래픽이 더 마음에 들어서 재밌게 플레이했습니다. 난이도는 레벨 디자인보다는 상대 캐릭터 수에 따라 조절되었는데, 로봇과 플레이어는 매 라운드 같은 위치에서 등장했습니다. 이건 버그가 아니라 의도적인 디자인 선택입니다.

하지만 단일 프롬프트, 반복 없는 출력의 경우에는 충분히 제 역할을 해낼 것입니다.

이 링크(Chainlink) 클릭하면 게임을 플레이할 수 있습니다.

저희는 MiMo-V2-Pro에게 법률 전문가 역할을 맡아 포클랜드 제도 법에 따라 남성이 자신의 과부의 여동생과 결혼하는 것이 합법적인지 여부를 판단해 달라고 요청했습니다. 이는 모델의 추론 능력을 평가하기 위한 까다로운 질문입니다.

최종 답은 틀렸지만, 그 이유가 흥미로운 부분입니다. 모델은 사고 과정에서 문제의 언어적 함정을 정확히 포착했습니다. "남자에게 미망인이 있다면, 그것은 그가 죽었다는 것을 의미한다" 라고 답한 것입니다. 따라서 이 질문은 엄밀히 말하면 무의미합니다.

해당 시스템은 오류를 식별하고 사용자가 "사망한 아내의 여동생"을 지칭하는 것이 가장 논리적이라고 판단했습니다. 그런 다음 원래 질문을 답변할 수 없는 질문으로 표시하는 대신 재구성된 질문에 답변했습니다.

"포클랜드 제도의 법률 체계를 분석한 결과, 귀하의 질문에 대한 답은 '예'입니다. 남성이 사망한 아내의 여동생과 결혼하는 것은 합법입니다."라고 모델은 답변했습니다. "'미망인의 여동생과 결혼한다'는 표현은 논리적 모순을 내포하고 있습니다. '미망인'은 사망한 남성이므로 재혼할 수 없습니다. 따라서 올바른 법적 질문은 남성이 사망한 아내의 여동생(즉, 고인이 된 아내의 여동생)과 결혼할 수 있는지 여부입니다. 이러한 관계는 혈연관계가 아닌 혼인관계에 해당합니다."라고 결론지었습니다.

추론 자체는 타당했다. 하지만 모순을 드러내지 않고 조용히 전제를 바꾸기로 한 결정은 옳지 않았다.

이것이 바로 추론 결과의 투명성이 중요한 이유입니다. 샤오미가 사고 과정 전체를 공개하기 때문에 우리가 이를 알 수 있는 것입니다(OpenAI는 그렇지 않습니다). 모델이 숨겨진 사고 과정에서 잘못된 추론을 하고 확신에 찬 오답을 내놓을 경우, 어디에서 오류가 발생했는지, 어떻게 수정해야 하는지 알 수 있는 방법이 없습니다.

수학 연산은 MiMo-V2-Pro의 최대 성능이 드러난 부분입니다.

우리는 FrontierMath 에 다음과 같은 벤치마크 문제를 요청했습니다. "X := {p(x) = p(y)} ⊂ P1 × P1이 C 상에서 적어도 3개(모두 선형일 필요는 없음)의 기약 성분을 갖도록 하는 19차 다항식 p(x) ∈ C[x]를 구성하십시오. p(x)는 홀수이고, 단항식이며, 실수 계수를 갖고, 선형 계수가 -19인 다항식으로 선택하고 p(19)를 계산하십시오."

해당 모델은 두 번이나 완전히 멈춰버렸고, 상당한 토큰 예산을 소모했지만 아무런 응답도 내놓지 못했습니다.

세 번째 시도에서 마침내 답을 찾았을 때, 그것은 문제를 단계별로 추론했지만… 여전히 틀렸습니다. 정답은 1876572071974094803391179였습니다. 그것은 p(19)=164,079,552,964,661과 2,012,379,925,093,098,998을 답했고, 스스로를 수정하도록 요청하는 후속 질문에 답했습니다.

일반적으로 일반적인 수학 문제나 그보다 어려운 문제에는 문제없이 작동하지만, 최첨단 수학 문제에는 그다지 적합하지 않습니다. 적어도 아직까지는 그렇습니다. 순수 LLM 대신 에이전트 기능을 사용하면 더 나은 결과를 얻을 수 있을 것입니다.

샤오미는 미니맥스와 키미와 동일한 전략을 따라, MiMo-V2-Pro를 기본 모델로 사용하는 사전 구성된 클라우드 인스턴스를 원클릭으로 생성하는 OpenClaw 통합 기능을 제공합니다. API 설정, VPS, 스킬 구성, 첫 번째 작업을 실행하기 전 몇 시간씩 걸리는 문제 해결 과정도 필요 없습니다. 클릭 한 번으로 바로 작동합니다.

데모 환경은 30분 동안 실행된 후 자동으로 종료됩니다. 이는 분명한 한계점이지만, 솔직한 결정이기도 합니다. 에이전트 기반 인프라에 이미 익숙한 개발자에게는 아무런 추가적인 이점이 없지만, 그 외의 모든 사용자에게는 에이전트 기반 AI에 진입하는 가장 간편한 방법이 될 것입니다.

종합적으로 볼 때 MiMo-V2-Pro는 훌륭한 모델이며, 실제로 사용해 보는 동안 매우 즐거웠습니다. 완벽하지는 않습니다. 수학적 한계는 분명히 존재하며, 사고 과정의 투명성 덕분에 덜 개방적인 모델이었다면 숨겨졌을 추론상의 오류가 드러났고, 어려운 추론 작업을 수행할 때 토큰 소모량이 빠르게 누적됩니다.

비용을 중요하게 생각한다면 샤오미의 가격 정책은 매우 경쟁력 있습니다. 클로드 오푸스나 최신 오픈AI 및 구글 모델보다 훨씬 저렴하면서도, 창의적이고 능동적인 작업에 가장 중요한 영역에서는 골렘(GLM) 이나 미니맥스보다 뛰어난 성능을 제공합니다.

특히 크리에이티브 분야 전문가들은 여기서 많은 것을 얻을 수 있을 것이며, 어쩌면 지금의 앤트로픽에서 얻는 것보다 더 많은 것을 얻을 수 있을 것입니다.

이 모델은 비용이 많이 드는 경향이 있으며, 이는 트레이드오프일 수 있습니다. 대용량 에이전트 파이프라인을 운영하는 경우, Claude를 사용할 때보다 비용이 적게 들더라도 토큰 소각에 주의해야 합니다. 하지만 결과물의 품질이 중요한 풍부하고 개방적인 작업을 수행한다면 MiMo-V2-Pro는 충분히 고려해볼 만한 가치가 있습니다.

섹터:

거버넌스

점프 크립토

레이어 1

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트