第109封信：关于本地法学硕士的一切

04-21

本文为机器翻译

展示原文

我认为这是我近期写过的最实用的文章之一。虽然它并非严格意义上的加密货币文章，但与我最近发表的关于人工智能代理和克劳德代码的文章非常契合，而这些文章也确实很受欢迎。

每当我在本期简报中谈到人工智能时，通常指的是像 Claude、ChatGPT、 GeminiETC大型云端人工智能工具。这些模型的工作原理是：你输入一个提示，它会被发送到某个服务器进行处理，然后返回结果。就这么简单。无论你是使用网页界面，还是使用 Claude Max 订阅在 Claude Code 中进行深度编码，原理都是一样的。

但还有完全运行在你自己电脑上的开源人工智能世界。这些是本地LLM（逻辑逻辑模型），到2026年，它们已经非常出色了。

不出所料，这个领域发展迅猛。仅在过去两周， GLM-5.1 就成为首个在主流编码基准测试中超越 Claude Opus 4.6 的开源模型。今天早些时候，Kimi K2.6 发布，从GLM手中夺得桂冠。工具和模型不断改进，云端和本地之间的差距也在不断缩小。

过去一周，我一直在学习和尝试使用Mac版Studio上的本地模型，它们的强大功能让我惊喜不已。当然，对于极其复杂的操作，它们肯定比不上Claude Opus 4.7和其他一些前沿模型，但对于我日常的大部分工作来说，本地模型确实非常实用。而且，它们免费、私密，并且随时可用。

即使你保留了云订阅（我就是这么做的），拥有一个本地模型作为备份或用于特定任务也是你能做的最佳举措之一。

这本身就非常引人入胜，而且在这个时代，学习如何拥有和运行自己的模型是一项非常实用的技能。

今天这篇文章我们将介绍以下内容：

为什么要运行本地模型？
硬件：你需要哪些硬件？
软件工具
哪种模型适用于哪种任务？
入门
将本地模型与人工智能代理连接起来
结语

如果您有兴趣进一步提升您的 AI 学习之旅，那么请查看我与几位朋友共同创办的新公司： AI 的 Stoa 。
我们制作视频课程，并每周举办直播研讨会和电话会议，向您展示将人工智能融入日常工作流程的实用方法。
我们目前处于早期体验阶段，提供折扣价格，点击这里了解详情： https://www.skool.com/thestoaofai

为什么要运行本地模型？

五个主要原因。

隐私保护。您的提示、文件和对话都保留在您的本地计算机上，不会上传到任何第三方服务器。对于任何处理敏感数据、专有代码或机密文档的人来说，这至关重要。更不用说那些仅仅关心个人隐私，不希望大型人工智能监视自己（或者更糟，不希望数据泄露给不法分子）的人了。
成本方面，一旦拥有了硬件，推理就是免费的。如果大量使用人工智能，本地模型通常会在足够长的时间内收回成本。你还可以重新利用家中的旧设备来运行本地模型。
没有速率限制。Frontier模型会迅速消耗积分。拥有本地备用方案简直是天赐之物，让模型运行永远不会达到速率限制的任务（并且不计入您现有的速率限制）也同样重要。大多数人采用“一刀切”的 AI 方法，对于一些完全过剩的简单任务，使用像 Opus 和 Sonnet 这样的模型，而更简单的本地模型就能胜任。
离线访问。这功能很棒。一旦将模型下载到本地，即使没有网络也能使用。您可以在飞行途中、偏远地区与模型互动，或者只是拥有一个备用方案，在自己的电脑上访问人类的全部知识。
完全掌控。您可以选择模型，并随心所欲地调整其配置。您无需担心服务条款的变更，也不会因为违反条款（或因对方错误）而被无故封禁。运行本地模型时，您可以完全掌控整个 AI 堆栈。

几周前，Anthropic 阻止 OpenClaw 和其他第三方代理框架使用 Claude Pro/Max 订阅，这件事让我感触颇深。依赖这种设置的人突然被迫切换到另一个提供商，或者支付每天可能高达 50 美元的 API 费用。

本地模型不存在这个问题。

正如我开头所说，本地模型在处理最复杂的多步骤推理时无法与前沿模型相媲美。但对于简单的日常编码、摘要生成、草稿撰写、网页抓取、研究和问答等任务，它们可以处理我交给它们的 70-80% 的任务。

理想的方案是两者兼顾。云端处理复杂任务，本地处理其他事务。

硬件：你需要哪些硬件？

在深入探讨硬件本身之前，我们先快速了解一下量化。你会在本地LLM世界中到处看到这个术语，它会影响你做出的每一个硬件决策，因此值得提前理解。

全精度模型将每个参数存储为一个 16 位数字。量化会将其压缩到 8 位、4 位甚至更低。模型体积更小、运行速度更快，但代价是牺牲了一点点精度。我突然想到一个音乐的例子：FLAC 在技术上比 320kbps 的 MP3 文件更好，但大多数人听不出区别（我肯定听不出来）。

对于大多数任务而言，4 位量化产生的输出与全精度输出几乎没有区别。如果您遇到类似 Q4_K_M 或 Q3_K_M 这样的模型名称，请注意，它们指的是同一模型，只是量化位数分别为 4 位和 3 位。

经验法则：Q4 量化模型每十亿个参数大约需要 0.6-0.7 GB 内存（我在上周的帖子中解释了参数）。

我建议您坚持使用Q4_K_M型号，除非您有特殊原因不这样做。

好了，我们还是回到硬件话题上来。在硬件上运行LLM时，最重要的参数就是可用内存。这在PC上指的是显存（VRAM），在Mac上指的是统一内存（UM）。其他所有硬件相关的参数都是次要的。

这里有一个方便的图表，可以根据不同的硬件规格查看您可以运行的模型类型：

由于采用了统一内存，Mac 拥有独特的优势。CPU、GPU 和神经网络引擎共享同一个内存池。一台配备 512 GB 统一内存的 Mac Studio 实际上可以在本地运行 DeepSeek R1，处理 6710 亿个参数。

我个人在自己的 Mac Studio（Q3 版本，需要约 308GB 内存）上运行 GLM5.1，参数数量为 7440 亿。

Mac 和 PC：你应该买哪一款？

这是一个常见问题，答案和大多数事情一样，“视情况而定”。两者没有绝对的优劣之分，它们各有优势，具体取决于您的情况/需求。

其他一些需要考虑的因素：

根据您的情况，我的建议是：

如果你预算有限，而且已经有了电脑：那就买一块二手的 RTX 3090 显卡吧。2026 年性价比最高的显卡，每 GB 显存。

如果您想要一台价格低于 1500 美元的完整机器，并且主要运行 7B-14B 型号的 Mac Mini：配备 24GB 内存的 Mac Mini M4 Pro（1399 美元）。安静、高效，无需组装。

如果您想要中小型机型拥有最快的响应速度：组装一台配备 RTX 4090 或 5090 显卡的电脑。总价大约在 2500-3500 美元之间。

如果您想运行 30B+ 型号，或者您想要一台安静的始终开机的机器： Mac Mini M4 Pro 配备 48-64 GB（1,999-2,199 美元）或 Mac Studio 配备 64-128 GB（2,400-4,500 美元）。

如果你想运行最大的开源模型（GLM-5.1、Kimi K2.6、DeepSeek R1，全部占用 671 字节），但又不想使用一整套专业级 GPU，那么配备 256GB 或 512GB 硬盘的 Mac Studio 是唯一合理的消费级选择。价格在 6000 到 10000 美元之间。

你现有的笔记本电脑呢？

在你花钱之前，需要了解的一点是，任何配备至少 8GB 内存的 M1 MacBook 或更新机型都可以运行小型本地模型。例如，配备 16GB 内存的 M1 MacBook Air 可以以每秒 15-25 个令牌的速度运行 7B 型模型；如果你拥有内存更大的 MacBook，则可以运行更多模型。

这些设备不会很花哨，但对于简单/基本的任务来说仍然非常实用，更重要的是，你至少可以在花额外的钱之前了解一下本地型号是如何运作的。

软件工具

硬件是第一步，但有了硬件之后，您还需要一些工具来管理和运行您自己的设备上的模型。以下是主要选项。

如果您是新手， LM Studio是个不错的起点。它是一款功能齐全的桌面应用程序，界面简洁易用。您只需下载安装程序，浏览内置的 HuggingFace 模型库，点击您想要的模型，即可开始聊天。无需任何终端命令。

它具有实时内存监控功能，可在您下载之前告知您的机器是否可以运行某个模型，并根据您的硬件推荐最适合您下载的模型。

它还公开了一个与 OpenAI 兼容的 API，因此您可以根据需要将其连接到脚本和代理（即，您可以在本地模型上运行 Openclaw 或 Hermes 代理）。

如果你想使用本地模型构建项目， Ollama总体来说是更好的选择，但它要求你熟悉终端/命令行界面 (CLI)。Ollama 相对于 LM Studio 的一些优势如下：

Ollama 与 LM Studio 具有相同的 API 兼容性。

Ollama 的确有原生桌面应用程序，而且功能齐全，但与 LM Studio 相比，功能非常简陋。它没有实时内存监控、可视化参数控制、并排模型对比，也没有 HuggingFace 浏览器。它适合快速聊天，但这并非 Ollama 的优势所在。如果您想要一个精致的图形用户界面，请选择 LM Studio。如果您需要无头/脚本/代理功能，请使用 Ollama。或者，还有更好的选择……

你可以同时安装这两个软件！它们不会冲突，这也是我的建议。我用 LM Studio 快速测试新模型，用 Ollama 集成到工作流程中。如果非要二选一的话：LM Studio 适合刚入门的非开发人员，而 Ollama 则适合任何计划将本地模型连接到 OpenClaw、Hermes 或自定义脚本的用户。

还有一些值得了解的工具：

Unsloth可以用来在您自己的数据上微调模型，这为本地模型带来了一种非常棒的全新可能性。三月份发布的全新 Unsloth Studio 允许您使用自己的文档或写作风格来训练模型。我打算在某个时候用我所有的简报（或 X 篇文章）来微调模型，看看它与 Frontier 模型相比，在模仿我的写作风格方面表现如何。

HuggingFace是模型存放的仓库。你可以把它想象成人工智能领域的 GitHub，你其实不需要直接操作它，但当你在 Local LM 或 Ollama 上“下载模型”时，要知道你很可能是从 HuggingFace 下载的。

llama.cpp和MLX是底层引擎。Ollama 和 LM Studio 都使用其中一个进行推理。大多数用户无需考虑它们的具体作用。

哪种模型适用于哪种任务？

在我写这封信的这段时间里，这部分内容已经过时两次了。以下内容是我截至2026年4月21日的看法。其中一半内容可能在三个月内就会被取代，甚至可能更快。Kimi K2.6几个小时前才发布，我还没来得及亲自试用，但我之前用过GLM-5.1，在Kimi K2.6发布之前，它可能是最佳选择。

在分享对比图表之前，有几点需要注意。前沿的开放权重模型（Kimi K2.6、 GLM-5.1）几乎在所有方面都优于较小的模型。这是参数更多、规模更大的模型的固有特性。但它们需要强大的硬件才能在本地运行，因此对于不需要深度推理的任务，较小的模型就能以更低的成本和延迟完成任务。你应该问自己的实际问题不是“哪个模型最适合这项任务”，而是“哪个模型规模最小，却能很好地完成这项任务”。

关于基准测试，这里先简单提一下。本文中我会多次提到SWE-Bench Pro 。它是对编码而言最重要的基准测试工具。SWE-Bench Pro 并非测试模型能否编写独立的函数，而是给模型提供一个来自真实开源项目的 GitHub 问题，并要求模型修复它。模型必须阅读代码库，理解 bug，编写修复程序，并提交能够通过现有测试的代码。50% 的分数意味着模型解决了一半的问题。

作为参考，Claude Opus 4.6 的得分为 53.4%。而最新发布的 Opus 4.7 的得分更是高达 64.3%。通常来说，得分在 55% 到 60% 之间的产品都被认为是前沿产品，但随着前沿产品性能的不断提升，这个数字显然也在不断变化。

目前，在编程领域的顶尖产品中，有两款开放重量级模型脱颖而出。

Moonshot AI 的Kimi K2.6是开源编码领域的新王者。它今天正式发布，专为长时间、复杂的编码任务而设计。其他模型在运行一两个小时后就开始出现性能下降，而 K2.6 已在实际工程任务中实现了长达 5 天的连续运行。

它还可以并行协调 300 个子代理（简直不可思议），这意味着你可以给它布置类似“重构整个单体仓库”的任务，它会将任务分解到数百个专门的工作节点上执行。它在 SWE-Bench Pro 测试中胜过 Claude Opus 4.6（58.6% 对 53.4%）。如果你正在构建任何智能体或进行大量代码库工作，这是目前最好的本地模型（但再说一遍……这一切可能明天就改变，哈哈）。

Z.ai 的GLM-5.1版本虽然发布时间较早（4 月 7 日发布，称之为“较早版本”有点不可思议），但编码质量依然非常接近。它在 SWE-Bench Pro 测试中得分 58.4%，仅比 K2.6 略逊一筹。如果您想要体验前沿编码技术，但又没有足够硬件运行 Kimi 模型，那么 GLM -5.1 也是一个不错的选择。

从实用角度来看， Qwen3.6-35B-A3B （4月16日发布）对大多数用户来说都非常理想。其MoE架构意味着即使模型总大小为350亿，每个token也只有30亿个参数处于激活状态，因此即使在24GB内存的机器上也能快速运行。它不仅可以处理文本，还可以处理图像和视频，并且上下文窗口最大可达100万个token，因此您可以将其用于整个代码库或长文档。

它擅长日常编码、撰写草稿、摘要和代理工作流程。

这纯属巧合，但有人在笔记本电脑上用它和 Claude Opus 4.7 对比测试了一番，结果本地模型画出的鹈鹕骑自行车的图案更好（这是一个非常随机且愚蠢的例子，但生活如果没有一点奇思妙想又有什么意义呢）：

来源： https ://simonwillison.net/2026/Apr/16/qwen-beats-opus/

对于配置较低的硬件， Qwen 3.5 9B是一个实用的选择，在 8GB 内存的 MacBook 上运行良好。它无法处理复杂的多文件运算，但对于一些日常任务（例如重写电子邮件、文章摘要、快速问答），它的表现非常出色。

入门

如果您想尝试运行自己的本地模型，以下是 LM Studioo 和 Ollama 的一些入门说明。

LM工作室：

从lmstudio.ai下载LM Studio。
安装它。
打开应用。
点击“发现”并搜索型号。实时内存监控器会告诉您该型号是否能在您的计算机上运行。
点击下载。
完成后点击“加载模型”，就可以开始使用了。你可以直接在LM Studio中与模型聊天，或者将其连接到像OpenClaw/Hermes这样的代理（我将在下一节中解释如何操作）。

奥拉玛：