MiniMax M3 chính thức mã nguồn mở: Bộ nhớ MoE đa phương thức gốc 428B, ngữ cảnh siêu dài 1 triệu khung hình/giây

Bài viết này được dịch máy
Xem bản gốc

Cộng đồng AI mã nguồn mở toàn cầu đã bị chấn động. MiniMax, một công ty kỳ lân AI mã nguồn mở hàng đầu, hôm nay (12 tháng 6) theo giờ Đài Bắc chính thức thông báo rằng mô hình chủ lực mới được mong đợi từ lâu của họ, "MiniMax M3," đã chính thức được phát hành trên nền tảng mã nguồn mở mở Hugging Face với tỷ trọng . Món quà công nghệ này, sau thông báo chính thức vào ngày 1 tháng 6, nhằm mục đích mở hoàn toàn tỷ trọng của mô hình chuyên gia lai đa phương thức (MoE) gốc và giảm chi phí xử lý văn bản dài xuống mức thấp kỷ lục. Điều này được dự đoán sẽ gây ra một sự thay đổi mạnh mẽ trong bối cảnh các mô hình mã nguồn mã nguồn mở hiện có.

Kiến trúc MoE với tổng cộng 428 tỷ tham số! Khởi nghiệp chỉ với một token duy nhất, chỉ 23 tỷ USD.

Theo thư viện mô hình chính thức của Hugging Face , MiniMax M3 sử dụng kiến ​​trúc Chuyên gia lai (Hybrid Expert - MoE) hiệu quả cao. Mặc dù tổng số tham số lên tới 428 byte, nhưng thông qua sự phân công lao động chi tiết giữa 128 mạng chuyên gia, một token duy nhất chỉ cần kích hoạt 4 trong đó gia trong quá trình hoạt động, tương đương với việc chỉ kích hoạt khoảng 23 byte tham số. Mô hình được thiết kế với 60 lớp; kiến ​​trúc MoE "dung lượng cao, tiêu thụ thấp" này cân bằng hoàn hảo giữa lượng kiến ​​thức dự trữ của mô hình với hiệu suất tốc độ suy luận và giải mã.

Ngoài ra, để tạo điều kiện thuận lợi cho việc triển khai cục bộ cho các nhà phát triển và doanh nghiệp với cấu hình phần cứng khác nhau, MiniMax đã cho ra mắt phiên bản lượng tử hóa dựa trên MXFP8 (MiniMax-M3-MXFP8) lần cạnh phiên bản chính có độ chính xác gốc bfloat16, giúp giảm đáng kể ngưỡng sử dụng bộ nhớ hiển thị (VRAM).

Công nghệ MSA độc đáo! Tốc độ giải mã tăng gấp 15 lần đối với ngữ cảnh siêu dài 1MB.

Trong xử lý văn bản dài, MiniMax M3 mở rộng mạnh mẽ độ dài ngữ cảnh lên đến 1 triệu Token (khoảng một triệu ký tự). Bước đột phá công nghệ này là nhờ cơ chế MSA (MiniMax Sparse Attention) độc chính thức, chính thức. Theo tài liệu kỹ thuật chính thứccủa MSA , cơ chế này đạt được tính toán chú ý thưa thớt khối hiệu quả thông qua "bộ lập chỉ mục nhanh". Trong các trường hợp cực đoan với ngữ cảnh siêu dài 1 triệu, nó có thể tăng tốc giai đoạn điền trước lên khoảng 9 lần và giai đoạn giải mã lên đến 15 lần, hoàn toàn phá vỡ nút thắt cổ chai về chi phí tỷ lệ băm cao trong AI ngữ cảnh dài.

Các khả năng đa phương thức, lập trình và năng lực tác nhân vốn có của Step Zero đạt đến mức cao nhất.

Không giống như nhiều mô hình khác cố gắng thêm chức năng đa phương thức trong giai đoạn sau huấn luyện, MiniMax M3 nhấn mạnh rằng nó "vốn dĩ đã là đa phương thức ngay từ bước huấn luyện ban đầu (Bước 0)". Điều này có nghĩa là dữ liệu văn bản, hình ảnh và video được kết hợp ngữ nghĩa độ sâu ở cấp độ cơ bản, mang lại cho nó khả năng hiểu video dài xuất sắc và khả năng vận hành phức tạp trên máy tính để bàn.

Về hiệu năng suy luận mã và tác nhân, M3 cũng mang lại kết quả tiên tiến. Theo các bài kiểm tra chuẩn đã được công bố chính thức, M3 đạt độ chính xác ấn tượng 59,0% trên bộ dữ liệu chuẩn kỹ thuật phần mềm phức tạp SWE-Bench Pro và 66,0% trên Terminal Bench 2.1, lý tưởng cho việc xử lý các quy trình làm việc phức tạp của tác nhân thông minh như suy luận nhiều bước và gọi công cụ. Hơn nữa, mô hình hỗ trợ cả hai chế độ "Suy nghĩ" và "Không suy nghĩ", cho phép người dùng tự do chuyển đổi giữa các kịch bản suy luận độ sâu và độ trễ thấp.

Khuyến nghị triển khai chính thức: Tối ưu hóa hoàn toàn nền tảng NVIDIA Blackwell.

MiniMax M3 đã nhận được phản hồi tích cực từ cộng đồng AI, và hình ảnh mã nguồn mở của nó hiện đã ra mắt nền tảng Unsloth. Để triển khai, tài liệu hướng dẫn chính thức khuyến nghị các nhà phát triển nên ưu tiên sử dụng SGLang , vLLM hoặc Transformers (với thiết lập `trust_remote_code=True` trong mã) cho các dịch vụ đẩy. Đặc biệt, mô hình này đã được tối ưu hóa độ sâu cho các nền tảng phần cứng thế hệ tiếp theo như NVIDIA Blackwell , và khi được sử dụng với phiên bản lượng tử hóa MXFP8, nó sẽ giúp các nhà phát triển trên toàn thế giới xây dựng các ứng dụng tác nhân đa phương thức lần với chi phí thấp hơn.

加入動區 Telegram 頻道

📍 Các báo cáo liên quan📍

Các công ty Trung Quốc chuyên khai thác mô hình trí tuệ nhân tạo có thể phải đối mặt với lệnh trừng phạt, trong đó DeepSeek và MiniMax được liệt kê là những mục tiêu chính, Đề án, bao gồm cả "Đạo luật chống trộm cắp AI".

Một nghiên cứu sinh tiến sĩ đến từ Hà Nam, Trung Quốc, đã thành lập MiniMax, xây dựng một nền tảng trí tuệ nhân tạo giá trị vốn hóa thị trường 300 tỷ nhân dân tệ chỉ với chưa đến 1% số vốn đầu tư của OpenAI.

Tại sao Thung lũng Silicon lại lo ngại về hiệu quả chi phí cực cao của trí tuệ nhân tạo Trung Quốc?

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận