Nếu bạn đã theo dõi lĩnh vực trí tuệ nhân tạo trong nước, có lẽ bạn đã biết đến Qwopus — mô hình mã nguồn mở cố gắng chắt lọc khả năng suy luận của Claude Opus 4.6 vào Qwen của Alibaba, để bạn có thể chạy một thứ gì đó tương tự như Opus trên phần cứng của mình miễn phí. Nó hoạt động tốt một cách đáng ngạc nhiên. Tuy nhiên, điểm hạn chế rõ ràng là: Qwen là một mô hình của Trung Quốc, và không phải ai cũng cảm thấy thoải mái với điều đó.
Jackrong, nhà phát triển Bút danh đứng sau dự án đó, đã lắng nghe phản hồi. Câu trả lời của ông là Gemopus — một dòng máy tính tinh chỉnh kiểu Claude Opus mới được xây dựng hoàn toàn trên nền tảng mã nguồn mở Gemma 4 của Google. Cùng một ý tưởng, mang đậm dấu ấn Mỹ: khả năng suy luận tiên tiến, hoạt động cục bộ trên phần cứng mà bạn đã sở hữu.
Dòng sản phẩm này có hai phiên bản. Gemopus-4-26B-A4B là phiên bản mạnh hơn—một mô hình Hỗn hợp các Chuyên gia (Mixture of Experts) có tổng cộng 26 tỷ tham số nhưng chỉ kích hoạt khoảng 4 tỷ tham số trong quá trình suy luận, điều này có nghĩa là nó hoạt động vượt trội so với kỳ vọng trên phần cứng hạn chế.
Các tham số là yếu tố quyết định khả năng học hỏi, suy luận và lưu trữ thông tin của trí tuệ nhân tạo (AI). Việc sở hữu tổng cộng 26 tỷ tham số mang lại cho mô hình một lượng kiến thức khổng lồ. Nhưng bằng cách chỉ "kích hoạt" 4 tỷ tham số liên quan đến yêu cầu cụ thể của bạn, nó vẫn cung cấp kết quả chất lượng cao của một AI khổng lồ trong khi vẫn đủ nhẹ để chạy mượt mà trên phần cứng thông thường.
Một mô hình khác là Gemopus-4-E4B , một mô hình điện toán biên với 4 tỷ tham số được thiết kế để chạy mượt mà trên iPhone hiện đại hoặc MacBook mỏng nhẹ—không cần GPU.
Việc lựa chọn mô hình cơ bản rất quan trọng ở đây. Google Gemma 4, ra mắt vào ngày 2 tháng 4, được xây dựng trực tiếp từ cùng một nghiên cứu và công nghệ với Gemini 3 — công ty đã khẳng định điều này một cách rõ ràng khi ra mắt. Điều đó có nghĩa là Gemopus mang trong mình thứ mà không một sản phẩm tinh chỉnh dựa trên Qwen nào có thể có được: ADN của mô hình khép kín hiện đại nhất của Google được gói gọn trong tư duy thiết kế của Anthropic. Nói một cách dễ hiểu, đó là sự kết hợp hoàn hảo giữa hai thế giới.
Điều làm cho Gemopus khác biệt so với làn sóng các bản tinh chỉnh Gemma khác đang tràn ngập Hugging Face hiện nay chính là triết lý đằng sau nó. Jackrong cố tình không áp đặt chuỗi lập luận logic của Claude vào các trọng số của Gemma — một lối tắt mà hầu hết các bản phát hành cạnh tranh khác đều sử dụng.
Lập luận của ông, được hỗ trợ bởi các nghiên cứu gần đây, là việc nhồi nhét vào mô hình học sinh những lý luận hời hợt của giáo viên thực chất không truyền đạt được khả năng lập luận thực sự. Nó dạy bắt chước, chứ không phải logic. "Không cần thiết phải tưởng tượng quá mức hoặc sao chép một cách mê tín chuỗi suy nghĩ theo kiểu Claude," thẻ mô hình ghi rõ. Thay vào đó, ông tập trung vào chất lượng câu trả lời, sự rõ ràng về cấu trúc và tính tự nhiên trong giao tiếp—khắc phục giọng văn cứng nhắc kiểu Wikipedia của Gemma và xu hướng giảng giải cho bạn về những điều bạn không hỏi.
Kỹ sư cơ sở hạ tầng AI Kyle Hessling đã thực hiện các bài kiểm tra hiệu năng độc lập và công bố kết quả trực tiếp trên thẻ mô hình. Đánh giá của ông về biến thể 26B khá tích cực. "Tôi rất vui vì đã kiểm tra hiệu năng của mô hình này một cách kỹ lưỡng và đây là một sự tinh chỉnh tuyệt vời cho một mô hình vốn đã xuất sắc," ông viết trên X. "Nó hoạt động rất tốt với các yêu cầu đơn lẻ trong các ngữ cảnh dài và chạy cực nhanh nhờ kiến trúc MOE (sự kết hợp của các chuyên gia)."
Biến thể E4B nhỏ hơn đã vượt qua tất cả 14 bài kiểm tra năng lực cốt lõi—tuân theo hướng dẫn, lập trình, toán học, suy luận đa bước, dịch thuật, an toàn, bộ nhớ đệm—và vượt qua tất cả 12 bài kiểm tra ngữ cảnh dài ở mức 30.000 và 60.000 token. Trong bài kiểm tra tìm kim trong đống rơm, nó đã vượt qua 13 trên 13 bài kiểm tra, bao gồm cả bài kiểm tra mở rộng ở mức một triệu token với khả năng mở rộng YaRN 8× RoPE.
Bộ nhớ 26B mở rộng tự nhiên lên đến 131K và lên đến 524K với YaRN, điều mà Hessling cũng đã kiểm tra độ bền: "Nó cũng đã vượt qua xuất sắc các bài kiểm tra tìm kim trong đống rơm đơn giản của tôi với phạm vi mở rộng lên đến 524k!"
Trên phần cứng biên, E4B thực sự rất nhanh. Jackrong báo cáo tốc độ 45–60 token mỗi giây trên iPhone 17 Pro Max và 90–120 token mỗi giây trên MacBook Air M3/M4 thông qua MLX. Kiến trúc 26B MoE có nghĩa là nó xử lý mượt mà trên các hệ thống bộ nhớ hợp nhất hoặc GPU có dưới 10GB VRAM. Hessling gọi đây là lựa chọn hàng đầu của anh ấy cho các thiết lập thiếu VRAM.
Cả hai mô hình đều có sẵn ở định dạng GGUF, có nghĩa là bạn có thể trực tiếp sử dụng chúng trong LM Studio hoặc llama.cpp mà không cần cấu hình. Mã huấn luyện đầy đủ và hướng dẫn tinh chỉnh từng bước đều có trên GitHub của Jackrong — cùng một quy trình mà anh ấy đã sử dụng cho Qwopus, cùng thiết lập Unsloth và LoRA, có thể tái tạo trên Colab.
Gemopus không phải là hoàn hảo. Việc gọi công cụ vẫn còn gặp lỗi trên toàn bộ dòng Gemma 4 trong llama.cpp và LM Studio — lỗi gọi, không khớp định dạng, vòng lặp — vì vậy nếu quy trình làm việc của bạn phụ thuộc vào việc các tác nhân sử dụng các công cụ bên ngoài, thì đây chưa phải là mô hình phù hợp. Bản thân Jackrong gọi nó là "một tài liệu tham khảo để khám phá kỹ thuật hơn là một giải pháp hoàn chỉnh sẵn sàng cho sản xuất", và khuyến nghị dòng Qwopus 3.5 của riêng ông cho bất kỳ ai cần một giải pháp ổn định hơn cho khối lượng công việc thực tế.
Và bởi vì Jackrong cố tình tránh lối tư duy mạch lạc, phức tạp kiểu Claude, nên đừng mong nó sẽ mang đậm chất Opus như Qwopus — đó là sự đánh đổi có chủ ý để đạt được sự ổn định, chứ không phải là sự thiếu sót.
Đối với những ai muốn tìm hiểu sâu hơn về việc tinh chỉnh Gemma để suy luận, có một dự án cộng đồng riêng biệt đáng để theo dõi: Ornstein của nhà phát triển pseudonmyous DJLougen, sử dụng cùng nền tảng Gemma 4 26B và tập trung cụ thể vào việc cải thiện chuỗi suy luận mà không dựa vào logic hoặc kiểu dáng của bất kỳ mô hình bên thứ ba cụ thể nào.
Một lưu ý thẳng thắn: Cơ chế huấn luyện của Gemma phức tạp hơn Qwen đối với những người tinh chỉnh – biến động tổn thất rộng hơn, độ nhạy siêu tham số cao hơn. Chính Jackrong cũng thừa nhận điều này. Nếu bạn cần một mô hình cục bộ đã được kiểm chứng kỹ lưỡng hơn cho quy trình sản xuất, dòng Qwopus 3.5 của ông vẫn được xác thực mạnh mẽ hơn. Nhưng nếu bạn muốn một mô hình của Mỹ với độ hoàn thiện kiểu Opus, Gemopus hiện là lựa chọn tốt nhất hiện có. Một biến thể Gemopus 31B dày đặc hơn cũng đang được phát triển, và Hessling đã hé lộ rằng nó "chắc chắn sẽ là một sản phẩm tuyệt vời".
Nếu bạn muốn thử chạy các mô hình cục bộ trên phần cứng của riêng mình, hãy xem hướng dẫn của chúng tôi về cách bắt đầu với AI cục bộ .




