MiniMax M2.1 為複雜的實際應用提供高階多語言程式設計功能

本文為機器翻譯
展示原文
MiniMax推出M2.1機型,具備先進的多語言和全棧開發能力

中國人工智能開發商MiniMax發佈了其 M2.1 型號,稱其為一次重大升級,旨在為多種編程語言以及移動和 Web 應用程序開發提供更強大的性能。

據該公司稱,早期的 M2 版本主要側重於降低運營成本和提高可訪問性,而 M2.1 版本則側重於提高複雜實際任務的效率,尤其注重更廣泛的語言支持和實際辦公用例。

MiniMax公司表示,該模型現已大幅提升對多種編程語言的支持能力,包括Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript和JavaScript,從而能夠實現從底層系統工程到應用層構建的端到端開發。該公司還宣佈,其在Web和移動開發方面也取得了重大改進,增強了對Android和iOS原生平臺的支持,同時擴展了模型解讀設計需求、生成視覺效果精美的界面以及構建高級交互式三維仿真環境的能力。

該公司進一步指出,M2.1 改進了對複雜指令集和集成任務執行的處理,從而在辦公場景中實現了更可靠的性能。與前代版本相比,新版本響應更短、效率更高,執行速度更快,計算開銷更低,有助於實現更流暢的 AI 輔助編碼和基於代理的操作流程。MiniMax 還補充道,M2.1 與各種開發工具和代理框架具有很強的兼容性,並提高了對話和寫作質量,在技術文檔和一般溝通場景中都能生成更詳細、結構更清晰的輸出。

M2.1 樹立了新的性能標杆,在多語言和全棧評估中均取得了顯著提升。

MiniMax公司報告稱,其M2.1模型在主要軟件工程基準測試中,相比之前的M2版本,性能均有顯著提升,尤其是在多語言編程任務中表現突出,其性能超越了Claude Sonnet 4.5,並接近Claude Opus 4.5。該公司表示,在SWE-bench Verified平臺上使用一系列編碼代理框架進行的評估表明,該框架具有高度的通用性和運行穩定性。

據報道,涵蓋測試生成、運行時優化、代碼審查和指令合規性等領域的額外基準測試表明,M2.1 相較於 M2 有顯著改進,其中 M2.1 在多個類別中始終與 Claude Sonnet 4.5 的性能持平或更優。為了評估該模型從初始概念到功能部署的完整應用程序的設計和交付能力,MiniMax 引入了一個名為 VIBE 的全新評估框架,該框架可衡量 Web、仿真、Android、iOS 和後端開發中的視覺質量和交互行為。與傳統測試方法不同,VIBE 採用基於代理的自動化驗證方法來檢查界面美觀性和運行時邏輯。

據MiniMax稱,M2.1的VIBE總分為88.6分,反映出其強大的全棧開發能力,尤其在Web開發(91.5分)和Android開發(89.7分)方面表現突出。該公司還補充說,與之前的M2版本相比,該模型在擴展工具使用和整體智能指標方面也持續改進。

文章“MiniMax M2.1 為複雜的實際應用提供高級多語言編程”最初發表於元宇宙 Post

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論