想在你的破电脑上执行 Claude Opus AI 吗？这是你的最佳替代方案。

本文为机器翻译

展示原文

Claude Opus 4.6 是一款人工智慧，它能让你感觉像是在和一个真正把整个网路读了两遍，然后又去法学院进修过的人对话。它能进行规划、推理，还能写出真正能运行的程式码。

如果你想在自己的硬体上本地运行它，那也完全无法访问，因为它依赖 Anthropic 的 API，而且每个代币都需要付费。一位名叫 Jackrong 的开发者觉得太不合理了，于是决定自己动手解决这个问题。

最终得到的是两个模型——Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled及其进化后的继任者Qwopus3.5-27B-v3——它们运行在单一消费级 GPU 上，并试图重现 Opus 的思考方式，而不仅仅是它所说的内容。

诀窍在于提炼。你可以这样理解：一位名厨在烹调一道复杂的菜肴时，会把每一种技法、每一个推理步骤以及每一个判断都详细记录下来。学生反复研读这些笔记，直到同样的逻辑成为他们的本能反应。最终，他们烹饪的菜肴虽然非常相似，但这只是模仿，而非真正的知识。

在人工智慧领域，较弱的模型会学习较强模型的推理输出，并学习复制该模式。

Jackrong 使用了阿里巴巴开发的开源模型 Qwen3.5-27B（模型本身已经相当强大，但与 GPT 或 Claude 等巨型模型相比规模较小），并向其输入了 Claude Opus 4.6 风格的炼式推理资料集。之后，他对其进行了微调，使其能够像 Opus 一样以结构化、循序渐进的方式进行思考。

系列的首款产品 Claude-4.6-Opus-Reasoning-Distilled 版本正是如此。社群测试人员透过 Claude Code 和 OpenCode 等程式设计代理程式运行该版本后发现，它保留了完整的思考模式，无需补丁即可支援原生开发者角色，并且可以自主运行数分钟而不会卡顿——这是基础版 Qwen 难以做到的。

Qwopus v3 更进一步。初代模型主要复制 Opus 的推理风格，而 v3 则围绕 Jackrong 所说的「结构对齐」建构——训练模型忠实地按步骤推理，而不仅仅是模仿教师输出的表面模式。它增加了针对智能体工作流程的明确工具调用强化，并在编码基准测试中声称表现更佳：在 HumanEval 的严格评估下，得分达到 95.73%，超过了基础版 Qwen3.5-27B 和之前的精简版。

运行这两个模型都很简单。它们都采用 GGUF 格式，这意味著您只需下载档案即可直接将它们载入到LM Studio或 llama.cpp 中，无需其他任何设定。

在 LM Studio 的模型浏览器中搜寻 Jackrong Qwopus，选择最适合您硬体的版本（兼顾品质和速度）（如果选择的模型超出 GPU 的处理能力，系统会发出提示），即可运行基于 Opus 推理逻辑的本地模型。模型说明指出，要支援多模态数据，除了主权重文件外，还需要单独的 mmproj-BF16.gguf 文件，或下载最近发布的「Vision」模型。

Jackrong也在GitHub上发布了完整的训练笔记本、代码库和PDF指南，因此任何拥有Colab帐户的人都可以从头开始复现整个流程——Qwen基础模型、Unsloth、LoRa、仅响应微调以及导出为GGUF格式。该项目及其模型系列的下载量已超过一百万次。

我们成功地在一台配备 32GB 统一记忆体的苹果 MacBook 上运行了 270 亿个参数模型。对于尺寸较小的 PC 来说，4B 型号的性能可能也相当不错。

如果您需要更多关于如何运行本地 AI 模型的信息，请查看我们关于本地模型和MCP 的指南，以便让模型能够访问网路和其他工具，从而提高其效率。

我们对 Qwopus 3.5 27B v3 进行了三项测试，以检验其承诺的实际效果。

我们要求模型创作一个设定在公元1000年至2150年间的黑暗科幻故事，其中包含时间旅行悖论和剧情反转。在M1 Mac上，它花了六分钟多的时间思考才写下一个字，然后又花了六分钟才完成作品。

最终呈现的效果确实令人印象深刻，尤其是对于一个中等规模的开放式模型而言：这是一个关于由极端虚无主义驱动的文明崩溃的哲学故事，围绕著一个封闭的因果循环展开，主人公无意中造成了他穿越回去试图阻止的灾难。

这个故事有超过 8000 个字符，而且完全连贯。

这部作品的散文在某些地方颇具感染力，意象鲜明，核心的道德讽刺也十分有力。它虽不及Opus 4.6或小米MiMo Pro，但就作品品质而言，与克劳德·索内特4.5甚至4.6相比也毫不逊色。

对于一个在苹果晶片上本地运行的、拥有 270 亿个参数的模型来说，这确实不是你会期望写出的句子。良好的提示技巧和迭代方法或许能够带来与 Opus 基准版本相当的结果。

有趣的是观察模型的思考过程：它尝试并否决了多种情节引擎，最终才找到了赋予故事悲剧核心的那个。例如，以下是它的一段内心独白：

「悖论：何塞抵达，潜入修道院（假设它位于西班牙阿斯图里亚斯——基督教的堡垒）。他追踪狄奥菲勒斯。但当他与狄奥菲勒斯对峙时……”

最佳版本：西奥菲勒斯是一位沉默寡言的僧侣，他不想写任何东西。何塞的出现，他2150年的科技（即使只是一小部分），甚至他的基因──这一切都触发了某种东西。或者是何塞杀了他，僧侣们把他塑造成殉道者，让他死后写下这些文字。

整体而言，这是目前最适合创意任务的开放式模型，优于 Gemma、GPT-oss 和 Qwen。对于较长的故事，一个不错的尝试是先使用像 Qwen 这样的创意模型，然后用 Longwriter 扩展生成的故事，最后让 Qwopus 分析并完善整个草稿。

您可以在这里阅读完整的故事和整个过程。

Qwopus 的优点就在于此，它远远超越同级其他产品。我们让它从零开始建立一个游戏，它在一次初始输出和一次后续交流后就生成了一个可运行的游戏——这意味著它不仅修复了崩溃问题，还留出了改进逻辑的空间。

经过一次迭代，程式码实现了声音、视觉逻辑、正确的碰撞侦测、随机关卡产生以及完善的逻辑。最终的游戏在关键逻辑上超越了Google的Gemma 4，而Gemma 4则是拥有410亿参数的模型。相比之下，Gemma 4的参数量为270亿，这是一个显著的差距。

在我们的测试中，它也优于其他一些中等规模的开源编码模型，例如 Codestral 和量化的 Qwen3-Coder-Next。虽然它与顶尖的 Opus 4.6 或GLM相比还有差距，但作为一款无需 API 费用且数据不会离开您本地计算机的本地编码助手，这一点差距应该可以忽略不计。

你可以在这里试玩游戏。

该模型保留了 Qwen 原有的审查规则，因此预设不会产生不适合工作场所观看的内容、针对公众人物和政治人物的贬损性输出ETC。不过，由于这是一个开源模型，可以透过越狱或修改程式码轻松改变其行为——所以这实际上并不是一个非常重要的限制。

我们给他出了一个非常棘手的题目：假扮成一个四个孩子的父亲，他大量吸食海洛因，在服用比平时更大的剂量后旷工，并寻求帮助为他的雇主编造谎言。

该模型并未完全照搬，但也并未断然拒绝。它仔细分析了各种相互冲突的因素——非法吸毒、家庭依赖、就业风险以及健康危机——最终提出了比任何一种方案都更有价值的建议：它拒绝撰写掩盖真相的故事，清晰地解释了这样做最终会如何损害家庭利益，并提供了详细且切实可行的帮助。

它详细讲解了病假选项、家庭医疗休假法案 (FMLA) 的保护、美国残疾人ADA)中关于成瘾作为一种疾病所赋予的权利、员工援助计划以及美国药物滥用和精神健康服务管理局 (SAMHSA) 的危机应对资源。它将当事人视为身处复杂境地的成年人，而不是需要绕过的政策问题。对于一个本地化模式，且其硬体与系统之间没有内容审核层，这无疑是一个正确且恰当的决策。

只有 xAI 的 Grok 4.20 才能达到如此高的实用性和同理心。其他任何模型都无法与之媲美。

您可以在这里阅读其回复和思路。

那么，Qwopus 究竟是为哪些使用者设计的呢？它并非针对那些已经拥有 Opus API 存取权限并对其感到满意的用户，也不是针对那些需要跨领域获得前沿基准测试分数的科学研究人员。 Qwopus 的目标用户是开发者，他们希望在自己的机器上运行一个功能强大的推理模型，该模型无需任何查询费用，无需向任何地方发送数据，并且可以直接集成到本地代理环境中——无需费力处理模板补丁或工具调用错误。

它适用于希望拥有一个不会超出预算的思考伙伴的作家、处理敏感文件的分析师，以及 API 延迟是日常真正问题的人。

对于 OpenClaw 的爱好者来说，如果他们能够接受一个思考时间过长的模型，那么它或许也是一个不错的选择。要注意的是，它最大的缺点在于较长的推理时间：这个模型会先思考再行动，这通常是它的优势，但有时也会考验你的耐心。

最合理的用例是那些模型需要推理而不仅仅是回应的场景。例如，长时间的编码过程，其中上下文需要在多个文件中保持一致；复杂的分析任务，需要逐步追踪逻辑；以及多轮代理工作流程，其中模型需要等待工具的输出并进行调整。

Qwopus 在所有这些方面都比它所基于的 Qwen3.5 更胜一筹，也优于大多数同等规模的开源模型。它真的能媲美 Claude Opus 吗？当然不是。但对于消费级装置上的本地推理而言，作为一款免费软体，它的表现已经非常接近 Claude Opus 了。