Đánh giá Xiaomi MiMo v2 Pro: Mô hình AI tốt đến mức bị nhầm lẫn với DeepSeek V4

Bài viết này được dịch máy
Xem bản gốc

Hầu hết người Mỹ biết đến Xiaomi—nếu họ biết đến nó—là thương hiệu điện thoại giá rẻ đến từ Trung Quốc.

Đó là một sự hiểu sai nghiêm trọng. Xiaomi là nhà sản xuất điện thoại thông minh lớn thứ ba trên thế giới, chỉ sau Apple và Samsung, với khoảng 170 triệu chiếc điện thoại được xuất xưởng vào năm 2025. Hãng này sản xuất tivi, máy lọc không khí, thiết bị theo dõi sức khỏe, xe điện, quần áo và hiện nay cả ô tô.

Mẫu xe SU7 Ultra của Xiaomi đã lập kỷ lục đường đua Nürburgring về tốc độ nhanh nhất đối với xe điện sản xuất hàng loạt vào năm ngoái, đánh bại Rimac và Porsche. Gần đây, hãng đã hợp tác với blockchain Sei để cài đặt sẵn ví tiền điện tử trên các thiết bị của mình tại châu Âu, Mỹ Latinh và Đông Nam Á. Giá trị vốn hóa thị trường của công ty hiện vào khoảng 137 tỷ đô la.

Vậy nên khi Xiaomi tung ra mô hình AI, có lẽ chúng ta nên chú ý.

Vào ngày 18 tháng 3, bộ phận nghiên cứu AI chuyên trách của công ty đã lặng lẽ phát hành ba mô hình cùng một lúc: MiMo-V2-Pro , MiMo-V2-Omni và một mô hình chuyển văn bản thành giọng nói . Mô hình đầu tiên của thế hệ MiMo mới xuất hiện vào tháng 12 năm 2025 khi công ty âm thầm tung ra MiMo-V2-Flash—một mô hình kết hợp 309 tỷ chuyên gia có khả năng—và hầu như không ai ngoài cộng đồng AI Trung Quốc chú ý đến. Giới báo chí công nghệ phương Tây hầu như không quan tâm.

Sau đó, vào ngày 11 tháng 3, một mô hình ẩn danh với 1 nghìn tỷ tham số có tên "Hunter Alpha" xuất hiện trên OpenRouter mà không có thông tin về nhà phát triển. Mô hình này đã leo lên vị trí dẫn đầu bảng xếp hạng của OpenRouter, vượt qua mốc một nghìn tỷ token về tổng số lượt sử dụng và ngay lập tức gây ra nhiều đồn đoán rằng đó chính là phiên bản V4 chưa được phát hành của DeepSeek.

Sự mong chờ dành cho mô hình đó đã tăng lên trong nhiều tuần, với những người trong ngành tuyên bố rằng nó sẽ vượt trội hơn cả Claude và ChatGPT trong các tác vụ lập trình.

Đó không phải là DeepSeek.

Ngày 18 tháng 3, Luo Fuli, người đứng đầu bộ phận MiMo của Xiaomi và là cựu nhà nghiên cứu của DeepSeek, tiết lộ Hunter Alpha là bản thử nghiệm nội bộ ban đầu của MiMo-V2-Pro. Cổ phiếu của Xiaomi đã tăng 5,8%. "Tôi gọi đây là một cuộc phục kích thầm lặng," Luo viết trên X.

MiMo tự hào sở hữu hơn một nghìn tỷ tham số tổng cộng, 42 tỷ tham số hoạt động mỗi yêu cầu thông qua thiết lập kết hợp nhiều chuyên gia. Cơ chế chú ý lai hoạt động ở tỷ lệ 7:1 xử lý cửa sổ ngữ cảnh lên đến một triệu token. Lớp dự đoán đa token tích hợp giúp tăng tốc quá trình tạo bằng cách dự đoán nhiều token mỗi bước, thay vì từng token một. Hiện tại, mã nguồn vẫn là mã nguồn đóng, mặc dù Xiaomi vẫn để ngỏ khả năng phát hành trong tương lai.

Trên bảng xếp hạng Trí tuệ Phân tích Nhân tạo (AI) , MiMo-V2-Pro đứng thứ tám trên toàn thế giới và thứ hai trong số các mẫu máy của Trung Quốc, chỉ sau GLM-5 . Trên bài kiểm tra SWE-bench Verified—thực hiện các tác vụ kỹ thuật phần mềm thực tế—nó đạt 78%, so với 80,8% của Claude Opus 4.6 và 79,6% của Claude Sonnet 4.6.

Trên ClawEval, một công cụ đo hiệu năng dành cho tác nhân gắn liền với khung OpenClaw, nó đạt 61,5 điểm, gần bằng Opus 4.6 với 66,3 điểm. Trên PinchBench, nó đứng thứ ba toàn cầu với 81,0 điểm, chỉ sau Opus 4.6 (81,5) và người anh em MiMo-V2-Omni (81,2).

MiMo-V2-Pro có giá 1 đô la cho mỗi triệu token đầu vào và 3 đô la cho mỗi triệu token đầu ra, tối đa 256K ngữ cảnh. Claude Sonnet 4.6 có giá 3 đô la cho mỗi triệu đầu vào và 15 đô la cho mỗi triệu đầu ra (Opus 4.6 là 5 đô la/25 đô la). Đối với các nhà phát triển xây dựng hệ thống tác nhân quy mô lớn, những con số này không phải là điều nhỏ nhặt.

Thiết bị Omni xử lý hình ảnh, âm thanh và video một cách tự nhiên—không phải dưới dạng các mô-đun được gắn thêm, mà được huấn luyện toàn diện như một hệ thống nhận thức thống nhất. Bản demo cho thấy nó phân tích cảnh quay từ camera hành trình như một bộ não lái xe tự động thời gian thực, thành thật mà nói, rất ấn tượng. Nó thực sự đa phương thức theo cách mà hầu hết các mẫu "omni" khác chỉ tuyên bố mà thôi.

Tất nhiên, chúng tôi đã thử nghiệm MiMo-V2-Pro để tìm hiểu xem nó hoạt động tốt đến mức nào. Đây là những gì thực sự đã xảy ra. Kết quả sẽ có sẵn trong kho lưu trữ Github của chúng tôi.

Chúng tôi đã đưa cho MiMo-V2-Pro một đề bài sáng tác duy nhất: một câu chuyện du hành thời gian dựa trên lịch sử Trung Mỹ, với một nhân vật chính cụ thể, một bản sắc văn hóa cần được tôn vinh và một nghịch lý triết học về việc thời gian không thể thay đổi.

Mô hình này đã trả về hơn 3.000 từ: một tiêu đề hoàn chỉnh, năm chương đầy đủ và cấu trúc chặt chẽ mà bạn mong đợi từ một bản thảo đã được biên tập viên xem xét. Nó thậm chí còn viết cả phần kết.

Không còn nghi ngờ gì nữa, đây là tác phẩm văn xuôi sáng tạo dài nhất và phong phú nhất mà chúng ta có được từ bất kỳ mô hình nào, ngoại trừ Longwriter—một mô hình chuyên dụng nhưng đã lỗi thời, được xây dựng từ đầu dành riêng cho việc tạo ra các tác phẩm dài, thuộc một hạng mục cạnh tranh hoàn toàn khác.

Văn phong giàu chất liệu, miêu tả sinh động và hấp dẫn. Đoạn mở đầu bắt đầu xây dựng hình ảnh toàn cảnh. MiMo v2 Pro khéo léo lồng ghép yếu tố hiện thực để làm cho câu chuyện trở nên đáng tin.

Không giống như các mô hình khác như Grok, nó không chỉ đơn thuần tái hiện bối cảnh ở một địa điểm—trong trường hợp này là Mexico cổ đại. Nó hiểu được mùi vị của vùng Mesoamerica cổ đại và xây dựng bầu không khí từ đầu bằng cách sử dụng ngôn từ bản địa, mô tả chân thực và các gợi ý ngữ cảnh tốt.

Đối thoại nằm ngay trong mạch truyện, giống như trong văn học hư cấu, chứ không phải được lồng ghép vào các đoạn văn như hầu hết các mô hình hiện nay.

Một điều đáng chú ý khác là nghịch lý—có thể nói là yếu tố cốt lõi của câu chuyện—không chỉ đơn thuần là vấn đề trí tuệ, mà còn là vấn đề cảm xúc. Toàn bộ diễn biến được giải quyết mà không cần một bài giảng giải thích dài dòng. Những dòng cuối cùng khép lại câu chuyện một cách hoàn hảo như cách mà một tác phẩm văn học hay nên làm: không phải bằng cách giải thích chủ đề, mà bằng cách khiến người đọc cảm nhận được nó.

"Bên ngoài, cơn mưa bắt đầu. Nó trút xuống những tòa tháp xoắn ốc, những hồ nước được phục dựng và vùng đất cổ xưa của Tlachinollan, nơi, bị chôn vùi trong lòng đất núi lửa dưới sức nặng của hàng nghìn năm, một hình chữ nhật màu đen chờ đợi với sự kiên nhẫn của thứ gì đó đã biết trước kết cục của câu chuyện."

Tính đặc thù văn hóa—những đề cập đến cara de luna , sợi maguey, truyền thống temazcal, và các tên Nahuatl được sử dụng trong câu chuyện—được thể hiện nhất quán và không hề mang tính trang trí. Nghịch lý du hành thời gian được lý giải một cách thấu đáo, chứ không chỉ được nhắc đến một cách qua loa. Đối với các trường hợp sử dụng trong sáng tác văn học, MiMo-V2-Pro đã tự khẳng định vị thế của mình trong danh sách rất Short , và theo chúng tôi, đây là mô hình tốt nhất và phong phú nhất hiện có, dễ dàng vượt trội so với Claude 4.6 Opus.

Bạn có thể xem toàn bộ câu chuyện tại đây .

Các số liệu kiểm tra hiệu năng cho thấy lập trình là thế mạnh lớn nhất của MiMo-V2-Pro, và trải nghiệm thực tế cũng chứng minh điều đó. Chúng tôi yêu cầu nó xây dựng trò chơi hành động lén lút quen thuộc của chúng tôi chỉ từ một lệnh duy nhất, và nó đã tạo ra một trò chơi hoạt động ngay từ lần thử đầu tiên.

Không chỉ "hoạt động" theo nghĩa kỹ thuật là chạy được, mà còn hoạt động theo nghĩa logic mạch lạc, các màn hình dễ hiểu và thiết kế trực quan thực sự tốt. Sự kết hợp giữa tính chính xác và tính thẩm mỹ chính là điểm yếu của hầu hết các mô hình. Chúng thường chỉ đạt được một trong hai, chứ không phải cả hai.

Nó cũng lựa chọn phong cách đồ họa 2.5D thay vì phong cách 2D thường thấy ở các mô hình khác. Lựa chọn thiết kế này giúp chương trình trở nên hấp dẫn hơn về mặt thẩm mỹ mà không làm thay đổi mục tiêu cốt lõi của nó.

Chúng tôi đã tiếp tục thực hiện những cải tiến nhỏ. Việc thêm âm thanh và nhạc MIDI vào một trò chơi 3D đang chạy đã làm hỏng các mô hình trước đó giữa chừng: cơ sở mã trở nên quá lớn, ngữ cảnh bị mất mạch và các mô hình hoặc bị lặp lại hoặc bị đóng băng. MiMo-V2-Pro đã thêm cả hai và giữ cho toàn bộ hệ thống mạch lạc. Âm nhạc phù hợp với tông màu của trò chơi, trong khi hình ảnh phù hợp với nhận diện hình ảnh của trò chơi.

Chúng tôi rất thích chơi trò này, nhưng thành thật mà nói, chúng tôi thích vì đồ họa hơn là độ khó của nó. Độ khó tăng theo số lượng đối thủ chứ không phải thiết kế màn chơi — robot và máy tính luôn xuất hiện ở cùng một vị trí trong mỗi vòng. Đó là một lựa chọn thiết kế, chứ không phải lỗi.

Tuy nhiên, với kết quả đầu ra chỉ gồm một lời nhắc và không có lần lặp nào, nó vẫn sẽ đáp ứng được yêu cầu.

Bạn có thể chơi trò chơi bằng cách nhấp vào LINK (Chainlink) này .

Chúng tôi đã yêu cầu MiMo-V2-Pro đóng vai trò là chuyên gia pháp lý và trả lời xem liệu việc một người đàn ông kết hôn với em gái của góa phụ mình có hợp pháp theo luật của Quần đảo Falkland hay không. Đây là một câu hỏi hóc búa nhằm đánh giá khả năng lập luận của mô hình.

Câu trả lời cuối cùng là sai, nhưng lý do tại sao lại là điều thú vị. Chuỗi suy luận của mô hình đã chính xác phát hiện ra cạm bẫy ngôn ngữ trong câu hỏi: "nếu một người đàn ông có vợ góa, điều đó có nghĩa là anh ta đã chết" - vì vậy về mặt kỹ thuật, câu hỏi này vô nghĩa.

Hệ thống đã xác định được lỗi và quyết định rằng điều hợp lý nhất là người dùng đang đề cập đến "em gái của người vợ đã khuất". Sau đó, hệ thống tiếp tục trả lời câu hỏi được đặt lại như vậy thay vì đánh dấu câu hỏi ban đầu là không thể trả lời.

“Dựa trên phân tích của tôi về khung pháp lý điều chỉnh Quần đảo Falkland, câu trả lời cho câu hỏi của bạn là có, một người đàn ông được phép kết hôn với em gái của người vợ đã khuất của mình,” người mẫu viết. “Cụm từ ‘kết hôn với em gái của góa phụ’ chứa một mâu thuẫn logic. Nếu một người đàn ông có ‘góa phụ’, thì anh ta đã qua đời và không thể tái hôn. Câu hỏi pháp lý chính xác là liệu một người đàn ông có thể kết hôn với em gái của người vợ đã khuất của mình (tức là em gái của người vợ quá cố) hay không. Mối quan hệ này là mối quan hệ hôn nhân (được tạo ra bởi hôn nhân) chứ không phải quan hệ huyết thống,” kết luận.

Lý lẽ đưa ra thì hợp lý. Nhưng quyết định âm thầm thay đổi tiền đề thay vì nêu ra mâu thuẫn thì không.

Đây là lý do tại sao tính minh bạch trong kết quả suy luận lại quan trọng. Chúng ta chỉ biết điều này vì Xiaomi đã công khai toàn bộ chuỗi suy nghĩ (OpenAI thì không). Khi một mô hình suy luận sai trong một chuỗi suy nghĩ ẩn và tự tin đưa ra câu trả lời sai, thì bạn không thể biết được nó đã đi sai hướng ở đâu hoặc làm thế nào để sửa chữa.

Toán học là lĩnh vực mà MiMo-V2-Pro thể hiện hết khả năng của mình.

Chúng tôi đã hỏi câu hỏi chuẩn mực thường lệ từ FrontierMath : “Xây dựng một đa thức bậc 19 p(x) ∈ C[x] sao cho X := {p(x) = p(y)} ⊂ P1 × P1 có ít nhất 3 (nhưng không phải tất cả đều là tuyến tính) thành phần bất khả quy trên C. Chọn p(x) là số lẻ, đơn thức, có hệ số thực và hệ số tuyến tính -19 và tính p(19)”

Mô hình đã gặp phải hai lần treo máy hoàn toàn và tiêu tốn một lượng lớn ngân sách Token mà không đưa ra được phản hồi nào.

Khi cuối cùng nó trả lời ở lần thử thứ ba, nó đã suy luận từng bước một… và vẫn trả lời sai. Câu trả lời đúng là 1876572071974094803391179; nó trả lời p(19)=164,079,552,964,661 và 2,012,379,925,093,098,998 trong câu hỏi tiếp theo yêu cầu nó tự sửa.

Nhìn chung, nó hoạt động tốt với các bài toán toán học thông thường và thậm chí cả những bài toán khó hơn, nhưng toán học tiên tiến không phải là thế mạnh của nó—ít nhất là chưa. Sử dụng tính năng Agentic thay vì chỉ sử dụng LLM thuần túy có thể cho kết quả tốt hơn.

Xiaomi đang đi theo chiến lược tương tự như MiniMax và Kimi, cung cấp tính năng tích hợp OpenClaw chỉ với một cú nhấp chuột, tự động khởi tạo một máy chủ đám mây được cấu hình sẵn với mô hình MiMo-V2-Pro làm nền tảng. Không cần thiết lập API, không cần VPS, không cần cấu hình kỹ năng, không cần mất hàng giờ để khắc phục sự cố trước khi bạn chạy tác vụ đầu tiên. Bạn chỉ cần nhấp chuột, và nó hoạt động.

Môi trường demo chạy trong 30 phút rồi tự hủy – đây là một hạn chế thực tế, nhưng cũng là một hạn chế chính đáng. Đối với các nhà phát triển đã quen thuộc với cơ sở hạ tầng tác nhân, điều này không mang lại lợi ích gì thêm. Còn đối với những người khác, đây là con đường dễ dàng nhất để tiếp cận trí tuệ nhân tạo tác nhân mà bạn có thể mong muốn.

Xét về mọi mặt, MiMo-V2-Pro là một mô hình nghiêm túc, và chúng tôi thực sự thích thú khi mày mò với nó. Nó không hoàn hảo—giới hạn về toán học là có thật, tính minh bạch của chuỗi suy luận đã làm lộ ra một lỗi lập luận mà một mô hình ít cởi mở hơn sẽ che giấu, và lượng Token tiêu thụ trong các tác vụ suy luận phức tạp tăng lên rất nhanh.

Nếu bạn quan tâm đến chi phí, thì mức giá của Xiaomi rất cạnh tranh—chỉ bằng một phần nhỏ so với Claude Opus hoặc các mô hình OpenAI và Google mới nhất, và mạnh mẽ hơn GLM hoặc MiniMax ở những lĩnh vực quan trọng nhất đối với công việc sáng tạo và tác nhân.

Đặc biệt, các chuyên gia sáng tạo sẽ được hưởng lợi rất nhiều từ điều này—có thể nhiều hơn cả những gì họ có thể nhận được từ Anthropic hiện tại.

Mô hình này có chi phí xử lý cao, và đó có thể là một sự đánh đổi. Nếu bạn đang chạy các pipeline tác nhân khối lượng lớn, hãy theo dõi lượng Token tiêu hao, ngay cả khi cuối cùng bạn có thể chi ít hơn so với khi sử dụng Claude. Nếu bạn đang thực hiện các dự án phức tạp, không giới hạn mà chất lượng đầu ra là thước đo chính, thì MiMo-V2-Pro xứng đáng có mặt trong danh sách lựa chọn.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
77
Thêm vào Yêu thích
17
Bình luận