MiniMax M3 正式开源：428B 原生多模态 MoE、1M 超长上下文

本文目录

全球 AI 开源社群迎来震撼弹。大模型独角兽 MiniMax 于台北时间今（12）日正式宣布，其备受期待的全新旗舰模型 ——「MiniMax M3」，已正式以开放权重（Open-Weight）形式上架开源平台 Hugging Face。这份紧跟著 6 月 1 日官方预告而来的技术大礼，力求全面开放原生多模态混合专家模型（MoE）的权重，并将长文本处理成本降至新低，预计将对现有的开源大模型格局造成剧烈洗牌。

428B 总参数 MoE 架构！单 Token 启动仅 23B

根据 Hugging Face 官方模型库显示，MiniMax M3 采用了极具效率的混合专家（MoE）架构。虽然其总参数高达 428B，但透过 128 个专家网路的精细分工，单个 Token 在运行时仅需启动其中的 4 个专家，相当于仅启动约 23B 的参数。模型整体设计为 60 层，这种「大容量、低消耗」的 MoE 架构，完美平衡了模型的知识储备与推理解码的速度性能。

此外，为了方便不同硬体配备的开发者与企业进行本地部署，MiniMax 此次除了提供 bfloat16 原始精度主版本外，还同步推出了基于 MXFP8 的量化版本（MiniMax-M3-MXFP8），大幅降低了显示记忆体（VRAM）的占用门槛。

独创 MSA 技术！1M 超长上下文「解码提速 15 倍」

在长文本处理上，MiniMax M3 将上下文长度强势扩展至 1M Token（约百万字级别）。这项技术突破得益于官方独创的 MSA（MiniMax Sparse Attention，区块稀疏注意力） 机制。根据官方发布的 MSA 技术论文显示，该机制透过「lightning indexer」实现高效的区块稀疏注意力计算，在 1M 超长上下文的极端场景下，能将预填充（Prefill）阶段加速约 9 倍，解码（Decoding）阶段更是疯狂提速达 15 倍，彻底破解了长上下文 AI 的高昂算力成本瓶颈。

从 Step Zero 原生多模态，Coding 与 Agent 能力登顶

与许多在后训练（Post-training）阶段才强行加入多模态功能的模型不同，MiniMax M3 强调「从预训练 Step Zero 开始就是原生多模态」。这意味著文本、图像与影片资料在底层就进行了深度语意融合，使其天生具备优异的长影片理解与复杂桌面操作能力。

在程式码与 Agent 推理表现上，M3 同样缴出了前沿的成绩单。根据官方先前公布的基准测试，M3 在复杂软体工程基准 SWE-Bench Pro 上达到 59.0% 的惊人正确率，在 Terminal Bench 2.1 亦高达 66.0%，非常适合处理多步推理、工具调用（Tool calling）等复杂的智慧代理工作流。同时，模型也贴心地支援「思考模式（Thinking）」与「非思考模式（Non-Thinking）」，让用户能在深度推理与低延迟场景之间自由切换。

官方部署建议：全面优化 NVIDIA Blackwell 平台

目前 MiniMax M3 已获得 AI 社群的热烈反响，开源镜像也已同步上线 Unsloth 平台。在部署实践上，官方 Cookbook 推荐开发者优先使用 SGLang、vLLM 或 Transformers（需在程式码中设定 `trust_remote_code=True`）进行推服。值得注意的是，该模型已针对 NVIDIA Blackwell 等新一代硬体平台进行了深度优化支援，配合 MXFP8 量化版，将帮助全球开发者更低成本地建构次世代的多模态 Agent 应用。

MiniMax M3 正式开源：428B 原生多模态 MoE、1M 超长上下文

428B 总参数 MoE 架构！单 Token 启动仅 23B

独创 MSA 技术！1M 超长上下文「解码提速 15 倍」

从 Step Zero 原生多模态，Coding 与 Agent 能力登顶

官方部署建议：全面优化 NVIDIA Blackwell 平台

相关报导