MiniMax M3 공식 오픈 소스 공개: 428B 네이티브 멀티모달 MoE, 1M 초장시간 컨텍스트

이 기사는 기계로 번역되었습니다
원문 표시

전 세계 AI 오픈소스 커뮤니티 들썩이고 있습니다. AI 유니콘 기업 미니맥스(MiniMax)는 오늘(6월 12일 타이베이 시간) 자사의 차세대 플래그십 모델인 "미니맥스 M3"를 오픈소스 플랫폼 허깅페이스(Hugging Face)에 공식 출시했다고 발표했습니다. 6월 1일 공식 발표에 이어 이루어진 이번 기술적 성과는, 미니맥스 M3의 네이티브 멀티모달 하이브리드 전문가 모델(MoE)의 가중치를 완전히 개방하여 장문 텍스트 처리 비용을 획기적으로 낮추는 것을 목표로 합니다. 이는 기존 오픈소스 대형 모델 시장에 큰 변화를 가져올 것으로 예상됩니다.

총 4280억 개의 파라미터를 가진 MoE 아키텍처! 단일 토큰으로 단 230억 달러에 시작 가능!

Hugging Face의 공식 모델 라이브러리 에 따르면, MiniMax M3는 매우 효율적인 하이브리드 전문가(MoE) 아키텍처를 사용합니다. 총 파라미터 수는 428바이트에 달하지만, 128개의 전문가 네트워크 간의 세밀한 역할 분담 덕분에 단일 토큰은 런타임 시 4개의 전문가만 활성화하면 되므로, 활성화되는 파라미터 수는 약 23바이트에 불과합니다. 이 모델은 60개의 레이어로 설계되었으며, 이러한 "고용량, 저소비" MoE 아키텍처는 모델의 지식 저장량과 추론 및 디코딩 속도 성능 간의 완벽한 균형을 제공합니다.

또한, MiniMax는 다양한 하드웨어 구성을 가진 개발자와 기업의 로컬 배포를 용이하게 하기 위해 bfloat16의 원래 정밀도를 제공하는 기본 버전 외에도 MXFP8 기반의 양자화 버전(MiniMax-M3-MXFP8)을 출시하여 디스플레이 메모리(VRAM) 사용에 대한 진입 장벽을 크게 낮췄습니다.

독보적인 MSA 기술! 1MB 초장문 컨텍스트의 디코딩 속도가 15배 향상되었습니다.

긴 텍스트 처리에서 MiniMax M3는 컨텍스트 길이를 최대 1M 토큰(약 백만 문자)까지 획기적으로 확장합니다. 이러한 기술적 혁신은 MiniMax의 공식 독자 기술인 MSA(MiniMax Sparse Attention) 메커니즘 덕분입니다. MSA 기술 문서 에 따르면, 이 메커니즘은 "번개 인덱서"를 통해 효율적인 블록 희소 어텐션 연산을 구현합니다. 1M에 달하는 초장문 컨텍스트와 같은 극한 시나리오에서는 사전 채우기 단계를 약 9배, 디코딩 단계를 무려 15배까지 가속화하여 긴 컨텍스트 AI 처리에서 높은 해시레이트 비용으로 인한 병목 현상을 완전히 해결합니다.

Step Zero의 네이티브 멀티모달 기능, 코딩 및 에이전트 기능은 최고 수준에 도달합니다.

많은 모델들이 학습 후 단계에서 멀티모달 기능을 억지로 추가하는 것과는 달리, MiniMax M3는 "사전 학습 단계인 0단계부터 기본적으로 멀티모달 기능을 지원한다"는 점을 강조합니다. 이는 텍스트, 이미지, 비디오 데이터가 기초 수준에서 심층적으로 의미론적으로 융합되어 있어, 본질적으로 긴 비디오를 이해하고 복잡한 데스크톱 작업을 처리하는 데 탁월한 성능을 발휘한다는 것을 의미합니다.

코드 및 에이전트 추론 성능 측면에서도 M3는 최첨단 결과를 제공합니다. 이전에 공개된 벤치마크 테스트에 따르면, M3는 복잡한 소프트웨어 엔지니어링 벤치마크인 SWE-Bench Pro에서 59.0%의 정확도를, Terminal Bench 2.1에서 66.0%라는 놀라운 정확도를 달성하여 다단계 추론 및 도구 호출과 같은 복잡한 지능형 에이전트 워크플로우 처리에 이상적입니다. 또한, 이 모델은 "사고 모드"와 "비사고 모드"를 모두 지원하여 사용자가 심층 추론과 저지연 시나리오를 자유롭게 전환할 수 있도록 합니다.

공식 배포 권장 사항: NVIDIA Blackwell 플랫폼을 최대한 최적화하십시오.

MiniMax M3는 AI 커뮤니티 에서 열렬한 호응을 얻었으며, 오픈 소스 이미지는 이제 Unsloth 플랫폼에서 사용할 수 있습니다. 배포 시 공식 가이드에서는 푸시 서비스에 SGLang , vLLM 또는 Transformers (코드에 `trust_remote_code=True` 설정)를 우선적으로 사용할 것을 권장합니다. 특히 이 모델은 NVIDIA Blackwell 과 같은 차세대 하드웨어 플랫폼에 최적화되어 있으며, MXFP8 양자화 버전과 함께 사용하면 전 세계 개발자들이 차세대 멀티모달 에이전트 애플리케이션을 더 저렴한 비용으로 구축하는 데 도움이 될 것입니다.

加入動區 Telegram 頻道

📍 관련 보고서📍

미국 의회가 통과시킨 '인공지능 절도 방지법'에 따르면, 인공지능 모델을 추출하는 중국 기업들은 제재를 받을 수 있으며, 딥시크(DeepSeek)와 미니맥스(MiniMax)가 주요 제재 대상으로 지목됐다.

중국 허난성 출신의 박사 과정 학생이 미니맥스를 설립하여 오픈AI의 1%도 안 되는 자금으로 3천억 위안 시총 AI 플랫폼을 구축했습니다.

실리콘밸리가 중국 AI의 극단적인 비용 효율성에 대해 집단적으로 불안해하는 이유는 무엇일까요?

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트