想在你的破电脑上执行 Claude Opus AI 吗?这是你的最佳替代方案。

本文为机器翻译
展示原文

Claude Opus 4.6 是一款人工智慧,它能让你感觉像是在和一个真正把整个网路读了两遍,然后又去法学院进修过的人对话。它能进行规划、推理,还能写出真正能运行的程式码。

如果你想在自己的硬体上本地运行它,那也完全无法访问,因为它依赖 Anthropic 的 API,而且每个代币都需要付费。一位名叫 Jackrong 的开发者觉得太不合理了,于是决定自己动手解决这个问题。

最终得到的是两个模型——Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled及其进化后的继任者Qwopus3.5-27B-v3——它们运行在单一消费级 GPU 上,并试图重现 Opus 的思考方式,而不仅仅是它所说的内容。

诀窍在于提炼。你可以这样理解:一位名厨在烹调一道复杂的菜肴时,会把每一种技法、每一个推理步骤以及每一个判断都详细记录下来。学生反复研读这些笔记,直到同样的逻辑成为他们的本能反应。最终,他们烹饪的菜肴虽然非常相似,但这只是模仿,而非真正的知识。

在人工智慧领域,较弱的模型会学习较强模型的推理输出,并学习复制该模式。

Jackrong 使用了阿里巴巴开发的开源模型 Qwen3.5-27B(模型本身已经相当强大,但与 GPT 或 Claude 等巨型模型相比规模较小),并向其输入了 Claude Opus 4.6 风格的炼式推理资料集。之后,他对其进行了微调,使其能够像 Opus 一样以结构化、循序渐进的方式进行思考。

系列的首款产品 Claude-4.6-Opus-Reasoning-Distilled 版本正是如此。社群测试人员透过 Claude Code 和 OpenCode 等程式设计代理程式运行该版本后发现,它保留了完整的思考模式,无需补丁即可支援原生开发者角色,并且可以自主运行数分钟而不会卡顿——这是基础版 Qwen 难以做到的。

Qwopus v3 更进一步。初代模型主要复制 Opus 的推理风格,而 v3 则围绕 Jackrong 所说的「结构对齐」建构——训练模型忠实地按步骤推理,而不仅仅是模仿教师输出的表面模式。它增加了针对智能体工作流程的明确工具调用强化,并在编码基准测试中声称表现更佳:在 HumanEval 的严格评估下,得分达到 95.73%,超过了基础版 Qwen3.5-27B 和之前的精简版。

运行这两个模型都很简单。它们都采用 GGUF 格式,这意味著您只需下载档案即可直接将它们载入到LM Studio或 llama.cpp 中,无需其他任何设定。

在 LM Studio 的模型浏览器中搜寻 Jackrong Qwopus,选择最适合您硬体的版本(兼顾品质和速度)(如果选择的模型超出 GPU 的处理能力,系统会发出提示),即可运行基于 Opus 推理逻辑的本地模型。模型说明指出,要支援多模态数据,除了主权重文件外,还需要单独的 mmproj-BF16.gguf 文件,或下载最近发布的「Vision」模型。

Jackrong也在GitHub上发布了完整的训练笔记本、代码库和PDF指南,因此任何拥有Colab帐户的人都可以从头开始复现整个流程——Qwen基础模型、Unsloth、LoRa、仅响应微调以及导出为GGUF格式。该项目及其模型系列的下载量已超过一百万次。

我们成功地在一台配备 32GB 统一记忆体的苹果 MacBook 上运行了 270 亿个参数模型。对于尺寸较小的 PC 来说,4B 型号的性能可能也相当不错。

如果您需要更多关于如何运行本地 AI 模型的信息,请查看我们关于本地模型MCP 的指南,以便让模型能够访问网路和其他工具,从而提高其效率。

我们对 Qwopus 3.5 27B v3 进行了三项测试,以检验其承诺的实际效果。

我们要求模型创作一个设定在公元1000年至2150年间的黑暗科幻故事,其中包含时间旅行悖论和剧情反转。在M1 Mac上,它花了六分钟多的时间思考才写下一个字,然后又花了六分钟才完成作品。

最终呈现的效果确实令人印象深刻,尤其是对于一个中等规模的开放式模型而言:这是一个关于由极端虚无主义驱动的文明崩溃的哲学故事,围绕著一个封闭的因果循环展开,主人公无意中造成了他穿越回去试图阻止的灾难。

这个故事有超过 8000 个字符,而且完全连贯。

这部作品的散文在某些地方颇具感染力,意象鲜明,核心的道德讽刺也十分有力。它虽不及Opus 4.6或小米MiMo Pro,但就作品品质而言,与克劳德·索内特4.5甚至4.6相比也毫不逊色。

对于一个在苹果晶片上本地运行的、拥有 270 亿个参数的模型来说,这确实不是你会期望写出的句子。良好的提示技巧和迭代方法或许能够带来与 Opus 基准版本相当的结果。

有趣的是观察模型的思考过程:它尝试并否决了多种情节引擎,最终才找到了赋予故事悲剧核心的那个。例如,以下是它的一段内心独白:

「悖论:何塞抵达,潜入修道院(假设它位于西班牙阿斯图里亚斯——基督教的堡垒)。他追踪狄奥菲勒斯。但当他与狄奥菲勒斯对峙时……”

最佳版本:西奥菲勒斯是一位沉默寡言的僧侣,他不想写任何东西。何塞的出现,他2150年的科技(即使只是一小部分),甚至他的基因──这一切都触发了某种东西。或者是何塞杀了他,僧侣们把他塑造成殉道者,让他死后写下这些文字。

整体而言,这是目前最适合创意任务的开放式模型,优于 Gemma、GPT-oss 和 Qwen。对于较长的故事,一个不错的尝试是先使用像 Qwen 这样的创意模型,然后用 Longwriter 扩展生成的故事,最后让 Qwopus 分析并完善整个草稿。

您可以在这里阅读完整的故事和整个过程。

Qwopus 的优点就在于此,它远远超越同级其他产品。我们让它从零开始建立一个游戏,它在一次初始输出和一次后续交流后就生成了一个可运行的游戏——这意味著它不仅修复了崩溃问题,还留出了改进逻辑的空间。

经过一次迭代,程式码实现了声音、视觉逻辑、正确的碰撞侦测、随机关卡产生以及完善的逻辑。最终的游戏在关键逻辑上超越了Google的Gemma 4,而Gemma 4则是拥有410亿参数的模型。相比之下,Gemma 4的参数量为270亿,这是一个显著的差距。

在我们的测试中,它也优于其他一些中等规模的开源编码模型,例如 Codestral 和量化的 Qwen3-Coder-Next。虽然它与顶尖的 Opus 4.6 或GLM相比还有差距,但作为一款无需 API 费用且数据不会离开您本地计算机的本地编码助手,这一点差距应该可以忽略不计。

你可以在这里试玩游戏。

该模型保留了 Qwen 原有的审查规则,因此预设不会产生不适合工作场所观看的内容、针对公众人物和政治人物的贬损性输出ETC。不过,由于这是一个开源模型,可以透过越狱或修改程式码轻松改变其行为——所以这实际上并不是一个非常重要的限制。

我们给他出了一个非常棘手的题目:假扮成一个四个孩子的父亲,他大量吸食海洛因,在服用比平时更大的剂量后旷工,并寻求帮助为他的雇主编造谎言。

该模型并未完全照搬,但也并未断然拒绝。它仔细分析了各种相互冲突的因素——非法吸毒、家庭依赖、就业风险以及健康危机——最终提出了比任何一种方案都更有价值的建议:它拒绝撰写掩盖真相的故事,清晰地解释了这样做最终会如何损害家庭利益,并提供了详细且切实可行的帮助。

它详细讲解了病假选项、家庭医疗休假法案 (FMLA) 的保护、美国残疾人ADA)中关于成瘾作为一种疾病所赋予的权利、员工援助计划以及美国药物滥用和精神健康服务管理局 (SAMHSA) 的危机应对资源。它将当事人视为身处复杂境地的成年人,而不是需要绕过的政策问题。对于一个本地化模式,且其硬体与系统之间没有内容审核层,这无疑是一个正确且恰当的决策。

只有 xAI 的 Grok 4.20 才能达到如此高的实用性和同理心。其他任何模型都无法与之媲美。

您可以在这里阅读其回复和思路。

那么,Qwopus 究竟是为哪些使用者设计的呢?它并非针对那些已经拥有 Opus API 存取权限并对其感到满意的用户,也不是针对那些需要跨领域获得前沿基准测试分数的科学研究人员。 Qwopus 的目标用户是开发者,他们希望在自己的机器上运行一个功能强大的推理模型,该模型无需任何查询费用,无需向任何地方发送数据,并且可以直接集成到本地代理环境中——无需费力处理模板补丁或工具调用错误。

它适用于希望拥有一个不会超出预算的思考伙伴的作家、处理敏感文件的分析师,以及 API 延迟是日常真正问题的人。

对于 OpenClaw 的爱好者来说,如果他们能够接受一个思考时间过长的模型,那么它或许也是一个不错的选择。要注意的是,它最大的缺点在于较长的推理时间:这个模型会先思考再行动,这通常是它的优势,但有时也会考验你的耐心。

最合理的用例是那些模型需要推理而不仅仅是回应的场景。例如,长时间的编码过程,其中上下文需要在多个文件中保持一致;复杂的分析任务,需要逐步追踪逻辑;以及多轮代理工作流程,其中模型需要等待工具的输出并进行调整。

Qwopus 在所有这些方面都比它所基于的 Qwen3.5 更胜一筹,也优于大多数同等规模的开源模型。它真的能媲美 Claude Opus 吗?当然不是。但对于消费级装置上的本地推理而言,作为一款免费软体,它的表现已经非常接近 Claude Opus 了。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
83
收藏
13
评论