
中国人工智能开发商MiniMax发布了其 M2.1 型号,称其为一次重大升级,旨在为多种编程语言以及移动和 Web 应用程序开发提供更强大的性能。
据该公司称,早期的 M2 版本主要侧重于降低运营成本和提高可访问性,而 M2.1 版本则侧重于提高复杂实际任务的效率,尤其注重更广泛的语言支持和实际办公用例。
MiniMax公司表示,该模型现已大幅提升对多种编程语言的支持能力,包括Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript和JavaScript,从而能够实现从底层系统工程到应用层构建的端到端开发。该公司还宣布,其在Web和移动开发方面也取得了重大改进,增强了对Android和iOS原生平台的支持,同时扩展了模型解读设计需求、生成视觉效果精美的界面以及构建高级交互式三维仿真环境的能力。
该公司进一步指出,M2.1 改进了对复杂指令集和集成任务执行的处理,从而在办公场景中实现了更可靠的性能。与前代版本相比,新版本响应更短、效率更高,执行速度更快,计算开销更低,有助于实现更流畅的 AI 辅助编码和基于代理的操作流程。MiniMax 还补充道,M2.1 与各种开发工具和代理框架具有很强的兼容性,并提高了对话和写作质量,在技术文档和一般沟通场景中都能生成更详细、结构更清晰的输出。
M2.1 树立了新的性能标杆,在多语言和全栈评估中均取得了显著提升。
MiniMax公司报告称,其M2.1模型在主要软件工程基准测试中,相比之前的M2版本,性能均有显著提升,尤其是在多语言编程任务中表现突出,其性能超越了Claude Sonnet 4.5,并接近Claude Opus 4.5。该公司表示,在SWE-bench Verified平台上使用一系列编码代理框架进行的评估表明,该框架具有高度的通用性和运行稳定性。
据报道,涵盖测试生成、运行时优化、代码审查和指令合规性等领域的额外基准测试表明,M2.1 相较于 M2 有显著改进,其中 M2.1 在多个类别中始终与 Claude Sonnet 4.5 的性能持平或更优。为了评估该模型从初始概念到功能部署的完整应用程序的设计和交付能力,MiniMax 引入了一个名为 VIBE 的全新评估框架,该框架可衡量 Web、仿真、Android、iOS 和后端开发中的视觉质量和交互行为。与传统测试方法不同,VIBE 采用基于代理的自动化验证方法来检查界面美观性和运行时逻辑。
据MiniMax称,M2.1的VIBE总分为88.6分,反映出其强大的全栈开发能力,尤其在Web开发(91.5分)和Android开发(89.7分)方面表现突出。该公司还补充说,与之前的M2版本相比,该模型在扩展工具使用和整体智能指标方面也持续改进。





