谷歌的Gemma已經像Gemini一樣運行——有人還讓它像Claude Opus一樣思考。

04-15

本文為機器翻譯

展示原文

如果你一直關注本地人工智能領域，你可能聽說過Qwopus——這個開源模型試圖將Claude Opus 4.6的推理過程提煉到阿里巴巴的Qwen中，這樣你就可以在自己的硬件上免費運行類似Opus的程序。它的效果出乎意料地好。但顯而易見的問題是：Qwen是一箇中國模型，並非所有人都對此感到放心。

Jackrong，也就是那個化名開發者的Jackrong，聽到了大家的反饋。他的回應是Gemopus——一個全新的Claude Opus風格的微調工具系列，完全基於谷歌的開源Gemma 4構建。純正的美國基因，同樣的理念：前沿級別的推理，在本地你已有的硬件上運行。

該系列模型有兩種版本。Gemopus -4-26B-A4B是較重的版本——它是一個專家混合模型，總共有 260 億個參數，但在推理過程中只激活大約 40 億個參數，這意味著它在硬件資源有限的情況下也能發揮出遠超其參數量的性能。

參數決定了人工智能的學習、推理和信息存儲能力。總共 260 億個參數賦予了模型極其豐富的知識。但通過僅“激活”與您的特定提示相關的 40 億個參數，它既能提供大型人工智能的高質量結果，又能保持輕量級，在日常硬件上流暢運行。

另一個是Gemopus-4-E4B ，這是一個擁有 40 億個參數的邊緣模型，專為在現代 iPhone 或輕薄型 MacBook 上流暢運行而設計——無需 GPU。

基礎模型的選擇至關重要。谷歌於4月2日發佈的Gemma 4直接基於與Gemini 3相同的研究和技術——該公司在發佈會上明確表示了這一點。這意味著Gemopus擁有Qwen微調版本所不具備的優勢：它底層搭載了谷歌最先進的封閉式模型，並融合了Anthropic的思維方式。可以說，它兼具兩者的優勢。

Gemopus之所以與目前Hugging Face上湧現的其他Gemma微調版本不同，在於其背後的理念。Jackrong刻意沒有像大多數同類版本那樣，將Claude的思維導圖強行移植到Gemma的權重中。

他的論點得到了近期研究的支持，即把老師淺顯易懂的推理文本塞進學生模型中，並不能真正培養學生的推理能力。這樣做教的是模仿，而不是邏輯。“無需過度發揮想象力，也無需盲目地複製克勞德式的思維鏈，”模型卡片上寫道。相反，他專注於答案的質量、結構的清晰度和對話的自然性——糾正了Gemma模型生硬的維基百科式語氣，以及它喜歡就你沒問的問題進行說教的傾向。

AI基礎設施工程師Kyle Hessling進行了獨立的基準測試，並將結果直接發佈在了模型卡上。他對26B變體的評價相當高。“很高興能對這個模型進行如此嚴格的基準測試，它在一個已經非常優秀的模型基礎上進行了出色的微調，”他在X上寫道。“它在處理長時間上下文中的單次請求方面表現出色，並且由於採用了MOE（混合專家）架構，運行速度非常快。”

較小的 E4B 變體通過了全部 14 項核心能力測試——指令遵循、編碼、數學、多步驟推理、翻譯、安全性、緩存——並在 3 萬和 6 萬個 token 的規模下通過了全部 12 項長上下文測試。在“大海撈針”檢索任務中，它通過了全部 13 項探測，其中包括一項在 100 萬個 token 的擴展測試，該測試採用了 YaRN 8 倍 RoPE 擴展。

26B 原生支持 131K 上下文，使用 YaRN 則支持高達 524K 的上下文，Hessling 也對此進行了壓力測試：“它甚至輕鬆通過了我簡單的大海撈針測試，一直擴展到 524k 的擴展上下文！”

在邊緣硬件上，E4B 的速度確實很快。Jackrong 報告稱，在 iPhone 17 Pro Max 上每秒可處理 45-60 個令牌，在通過 MLX 接口連接的 MacBook Air M3/M4 上每秒可處理 90-120 個令牌。26 位 MoE 架構意味著它可以在統一內存系統或顯存低於 10GB 的 GPU 上流暢運行。Hessling 稱其為顯存不足配置的日常主力推薦。

這兩個模型都採用 GGUF 格式，這意味著您可以直接將它們導入 LM Studio 或 llama.cpp，無需任何配置。完整的訓練代碼和分步微調指南都位於 Jackrong 的GitHub上——與他用於 Qwopus 的流程相同，Unsloth 和 LoRa 設置也相同，可在 Colab 上覆現。

Gemopus並非完美無缺。在整個Gemma 4系列中，llama.cpp和LM Studio的工具調用仍然存在問題——調用失敗、格式不匹配、循環等——因此，如果您的工作流程依賴於代理使用外部工具，那麼Gemopus目前還不適合您。Jackrong本人稱其為“工程探索參考，而非完全可用於生產環境的解決方案”，並推薦他自己的Qwopus 3.5系列給任何需要更穩定解決方案來應對實際工作負載的用戶。

而且由於 Jackrong 刻意避免了像 Claude 那樣激進的思維鏈提煉，所以不要指望它像 Qwopus 那樣具有 Opus 式的深度——這是為了穩定性而有意做出的權衡，而不是疏忽。

對於那些想要深入瞭解 Gemma 推理微調的人來說，還有一個值得關注的獨立社區項目：由 pseudonmyous 開發者 DJLougen 開發的Ornstein ，它以相同的 26B Gemma 4 基礎為基礎，專門致力於改進其推理鏈，而不依賴於任何特定第三方模型的邏輯或風格。

需要坦誠指出的是：對於微調者來說，Gemma 的訓練動態比 Qwen 的更復雜——損失波動更大，對超參數更敏感。Jackrong 本人也承認這一點。如果您需要一個經過實戰檢驗的本地模型用於生產工作流程，那麼他的 Qwopus 3.5 系列仍然擁有更可靠的驗證。但如果您想要一個像 Opus 那樣精細的美國模型，那麼 Gemopus 目前是您的最佳選擇。一個密度更高的 31B Gemopus 變體也在開發中，Hessling 稱其“絕對會大放異彩”。

如果您想嘗試在自己的硬件上運行本地模型，請查看我們關於如何開始使用本地 AI 的指南。