MiniMax M3 正式开源:428B 原生多模态 MoE、1M 超长上下文

球 AI 开源社群迎来震撼弹。大模型独角兽 MiniMax 于台北时间今(12)日正式宣布,其备受期待的全新旗舰模型 ——「MiniMax M3」,已正式以开放权重(Open-Weight)形式上架开源平台 Hugging Face。这份紧跟著 6 月 1 日官方预告而来的技术大礼,力求全面开放原生多模态混合专家模型(MoE)的权重,并将长文本处理成本降至新低,预计将对现有的开源大模型格局造成剧烈洗牌。

428B 总参数 MoE 架构!单 Token 启动仅 23B

根据 Hugging Face 官方模型库 显示,MiniMax M3 采用了极具效率的混合专家(MoE)架构。虽然其总参数高达 428B,但透过 128 个专家网路的精细分工,单个 Token 在运行时仅需启动其中的 4 个专家,相当于仅启动约 23B 的参数。模型整体设计为 60 层,这种「大容量、低消耗」的 MoE 架构,完美平衡了模型的知识储备与推理解码的速度性能。

此外,为了方便不同硬体配备的开发者与企业进行本地部署,MiniMax 此次除了提供 bfloat16 原始精度主版本外,还同步推出了基于 MXFP8 的量化版本(MiniMax-M3-MXFP8),大幅降低了显示记忆体(VRAM)的占用门槛。

独创 MSA 技术!1M 超长上下文「解码提速 15 倍」

在长文本处理上,MiniMax M3 将上下文长度强势扩展至 1M Token(约百万字级别)。这项技术突破得益于官方独创的 MSA(MiniMax Sparse Attention,区块稀疏注意力) 机制。根据官方发布的 MSA 技术论文 显示,该机制透过「lightning indexer」实现高效的区块稀疏注意力计算,在 1M 超长上下文的极端场景下,能将预填充(Prefill)阶段加速约 9 倍,解码(Decoding)阶段更是疯狂提速达 15 倍,彻底破解了长上下文 AI 的高昂算力成本瓶颈。

从 Step Zero 原生多模态,Coding 与 Agent 能力登顶

与许多在后训练(Post-training)阶段才强行加入多模态功能的模型不同,MiniMax M3 强调「从预训练 Step Zero 开始就是原生多模态」。这意味著文本、图像与影片资料在底层就进行了深度语意融合,使其天生具备优异的长影片理解与复杂桌面操作能力。

在程式码与 Agent 推理表现上,M3 同样缴出了前沿的成绩单。根据官方先前公布的基准测试,M3 在复杂软体工程基准 SWE-Bench Pro 上达到 59.0% 的惊人正确率,在 Terminal Bench 2.1 亦高达 66.0%,非常适合处理多步推理、工具调用(Tool calling)等复杂的智慧代理工作流。同时,模型也贴心地支援「思考模式(Thinking)」与「非思考模式(Non-Thinking)」,让用户能在深度推理与低延迟场景之间自由切换。

官方部署建议:全面优化 NVIDIA Blackwell 平台

目前 MiniMax M3 已获得 AI 社群的热烈反响,开源镜像也已同步上线 Unsloth 平台。在部署实践上,官方 Cookbook 推荐开发者优先使用 SGLangvLLMTransformers(需在程式码中设定 `trust_remote_code=True`)进行推服。值得注意的是,该模型已针对 NVIDIA Blackwell 等新一代硬体平台进行了深度优化支援,配合 MXFP8 量化版,将帮助全球开发者更低成本地建构次世代的多模态 Agent 应用。

加入动区 Telegram 频道

📍相关报导📍

美国议员提案《AI 盗窃法》蒸馏模型的中国厂商恐遭制裁!DeepSeek、MiniMax 列主要打击目标

中国河南博士生创立 MiniMax,不到OpenAI 1% 资金打造 3000 亿市值 AI 平台

为什么中国 AI 的极致性价比让矽谷集体感到焦虑?

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论