谷歌的Gemma已经像Gemini一样运行——有人还让它像Claude Opus一样思考。

04-15

本文为机器翻译

展示原文

如果你一直关注本地人工智能领域，你可能听说过Qwopus——这个开源模型试图将Claude Opus 4.6的推理过程提炼到阿里巴巴的Qwen中，这样你就可以在自己的硬件上免费运行类似Opus的程序。它的效果出乎意料地好。但显而易见的问题是：Qwen是一个中国模型，并非所有人都对此感到放心。

Jackrong，也就是那个化名开发者的Jackrong，听到了大家的反馈。他的回应是Gemopus——一个全新的Claude Opus风格的微调工具系列，完全基于谷歌的开源Gemma 4构建。纯正的美国基因，同样的理念：前沿级别的推理，在本地你已有的硬件上运行。

该系列模型有两种版本。Gemopus -4-26B-A4B是较重的版本——它是一个专家混合模型，总共有 260 亿个参数，但在推理过程中只激活大约 40 亿个参数，这意味着它在硬件资源有限的情况下也能发挥出远超其参数量的性能。

参数决定了人工智能的学习、推理和信息存储能力。总共 260 亿个参数赋予了模型极其丰富的知识。但通过仅“激活”与您的特定提示相关的 40 亿个参数，它既能提供大型人工智能的高质量结果，又能保持轻量级，在日常硬件上流畅运行。

另一个是Gemopus-4-E4B ，这是一个拥有 40 亿个参数的边缘模型，专为在现代 iPhone 或轻薄型 MacBook 上流畅运行而设计——无需 GPU。

基础模型的选择至关重要。谷歌于4月2日发布的Gemma 4直接基于与Gemini 3相同的研究和技术——该公司在发布会上明确表示了这一点。这意味着Gemopus拥有Qwen微调版本所不具备的优势：它底层搭载了谷歌最先进的封闭式模型，并融合了Anthropic的思维方式。可以说，它兼具两者的优势。

Gemopus之所以与目前Hugging Face上涌现的其他Gemma微调版本不同，在于其背后的理念。Jackrong刻意没有像大多数同类版本那样，将Claude的思维导图强行移植到Gemma的权重中。

他的论点得到了近期研究的支持，即把老师浅显易懂的推理文本塞进学生模型中，并不能真正培养学生的推理能力。这样做教的是模仿，而不是逻辑。“无需过度发挥想象力，也无需盲目地复制克劳德式的思维链，”模型卡片上写道。相反，他专注于答案的质量、结构的清晰度和对话的自然性——纠正了Gemma模型生硬的维基百科式语气，以及它喜欢就你没问的问题进行说教的倾向。

AI基础设施工程师Kyle Hessling进行了独立的基准测试，并将结果直接发布在了模型卡上。他对26B变体的评价相当高。“很高兴能对这个模型进行如此严格的基准测试，它在一个已经非常优秀的模型基础上进行了出色的微调，”他在X上写道。“它在处理长时间上下文中的单次请求方面表现出色，并且由于采用了MOE（混合专家）架构，运行速度非常快。”

较小的 E4B 变体通过了全部 14 项核心能力测试——指令遵循、编码、数学、多步骤推理、翻译、安全性、缓存——并在 3 万和 6 万个 token 的规模下通过了全部 12 项长上下文测试。在“大海捞针”检索任务中，它通过了全部 13 项探测，其中包括一项在 100 万个 token 的扩展测试，该测试采用了 YaRN 8 倍 RoPE 扩展。

26B 原生支持 131K 上下文，使用 YaRN 则支持高达 524K 的上下文，Hessling 也对此进行了压力测试：“它甚至轻松通过了我简单的大海捞针测试，一直扩展到 524k 的扩展上下文！”

在边缘硬件上，E4B 的速度确实很快。Jackrong 报告称，在 iPhone 17 Pro Max 上每秒可处理 45-60 个令牌，在通过 MLX 接口连接的 MacBook Air M3/M4 上每秒可处理 90-120 个令牌。26 位 MoE 架构意味着它可以在统一内存系统或显存低于 10GB 的 GPU 上流畅运行。Hessling 称其为显存不足配置的日常主力推荐。

这两个模型都采用 GGUF 格式，这意味着您可以直接将它们导入 LM Studio 或 llama.cpp，无需任何配置。完整的训练代码和分步微调指南都位于 Jackrong 的GitHub上——与他用于 Qwopus 的流程相同，Unsloth 和 LoRa 设置也相同，可在 Colab 上复现。

Gemopus并非完美无缺。在整个Gemma 4系列中，llama.cpp和LM Studio的工具调用仍然存在问题——调用失败、格式不匹配、循环等——因此，如果您的工作流程依赖于代理使用外部工具，那么Gemopus目前还不适合您。Jackrong本人称其为“工程探索参考，而非完全可用于生产环境的解决方案”，并推荐他自己的Qwopus 3.5系列给任何需要更稳定解决方案来应对实际工作负载的用户。

而且由于 Jackrong 刻意避免了像 Claude 那样激进的思维链提炼，所以不要指望它像 Qwopus 那样具有 Opus 式的深度——这是为了稳定性而有意做出的权衡，而不是疏忽。

对于那些想要深入了解 Gemma 推理微调的人来说，还有一个值得关注的独立社区项目：由 pseudonmyous 开发者 DJLougen 开发的Ornstein ，它以相同的 26B Gemma 4 基础为基础，专门致力于改进其推理链，而不依赖于任何特定第三方模型的逻辑或风格。

需要坦诚指出的是：对于微调者来说，Gemma 的训练动态比 Qwen 的更复杂——损失波动更大，对超参数更敏感。Jackrong 本人也承认这一点。如果您需要一个经过实战检验的本地模型用于生产工作流程，那么他的 Qwopus 3.5 系列仍然拥有更可靠的验证。但如果您想要一个像 Opus 那样精细的美国模型，那么 Gemopus 目前是您的最佳选择。一个密度更高的 31B Gemopus 变体也在开发中，Hessling 称其“绝对会大放异彩”。

如果您想尝试在自己的硬件上运行本地模型，请查看我们关于如何开始使用本地 AI 的指南。