第109封信：關於本地法學碩士的一切

04-21

本文為機器翻譯

展示原文

我認為這是我近期寫過的最實用的文章之一。雖然它並非嚴格意義上的加密貨幣文章，但與我最近發表的關於人工智能代理和克勞德代碼的文章非常契合，而這些文章也確實很受歡迎。

每當我在本期簡報中談到人工智能時，通常指的是像 Claude、ChatGPT、 GeminiETC大型雲端人工智能工具。這些模型的工作原理是：你輸入一個提示，它會被髮送到某個服務器進行處理，然後返回結果。就這麼簡單。無論你是使用網頁界面，還是使用 Claude Max 訂閱在 Claude Code 中進行深度編碼，原理都是一樣的。

但還有完全運行在你自己電腦上的開源人工智能世界。這些是本地LLM（邏輯邏輯模型），到2026年，它們已經非常出色了。

不出所料，這個領域發展迅猛。僅在過去兩週， GLM-5.1 就成為首個在主流編碼基準測試中超越 Claude Opus 4.6 的開源模型。今天早些時候，Kimi K2.6 發佈，從GLM手中奪得桂冠。工具和模型不斷改進，雲端和本地之間的差距也在不斷縮小。

過去一週，我一直在學習和嘗試使用Mac版Studio上的本地模型，它們的強大功能讓我驚喜不已。當然，對於極其複雜的操作，它們肯定比不上Claude Opus 4.7和其他一些前沿模型，但對於我日常的大部分工作來說，本地模型確實非常實用。而且，它們免費、私密，並且隨時可用。

即使你保留了雲訂閱（我就是這麼做的），擁有一個本地模型作為備份或用於特定任務也是你能做的最佳舉措之一。

這本身就非常引人入勝，而且在這個時代，學習如何擁有和運行自己的模型是一項非常實用的技能。

今天這篇文章我們將介紹以下內容：

為什麼要運行本地模型？
硬件：你需要哪些硬件？
軟件工具
哪種模型適用於哪種任務？
入門
將本地模型與人工智能代理連接起來
結語

如果您有興趣進一步提升您的 AI 學習之旅，那麼請查看我與幾位朋友共同創辦的新公司： AI 的 Stoa 。
我們製作視頻課程，並每週舉辦直播研討會和電話會議，向您展示將人工智能融入日常工作流程的實用方法。
我們目前處於早期體驗階段，提供折扣價格，點擊這裡瞭解詳情： https://www.skool.com/thestoaofai

為什麼要運行本地模型？

五個主要原因。

隱私保護。您的提示、文件和對話都保留在您的本地計算機上，不會上傳到任何第三方服務器。對於任何處理敏感數據、專有代碼或機密文檔的人來說，這至關重要。更不用說那些僅僅關心個人隱私，不希望大型人工智能監視自己（或者更糟，不希望數據洩露給不法分子）的人了。
成本方面，一旦擁有了硬件，推理就是免費的。如果大量使用人工智能，本地模型通常會在足夠長的時間內收回成本。你還可以重新利用家中的舊設備來運行本地模型。
沒有速率限制。Frontier模型會迅速消耗積分。擁有本地備用方案簡直是天賜之物，讓模型運行永遠不會達到速率限制的任務（並且不計入您現有的速率限制）也同樣重要。大多數人採用“一刀切”的 AI 方法，對於一些完全過剩的簡單任務，使用像 Opus 和 Sonnet 這樣的模型，而更簡單的本地模型就能勝任。
離線訪問。這功能很棒。一旦將模型下載到本地，即使沒有網絡也能使用。您可以在飛行途中、偏遠地區與模型互動，或者只是擁有一個備用方案，在自己的電腦上訪問人類的全部知識。
完全掌控。您可以選擇模型，並隨心所欲地調整其配置。您無需擔心服務條款的變更，也不會因為違反條款（或因對方錯誤）而被無故封禁。運行本地模型時，您可以完全掌控整個 AI 堆棧。

幾周前，Anthropic 阻止 OpenClaw 和其他第三方代理框架使用 Claude Pro/Max 訂閱，這件事讓我感觸頗深。依賴這種設置的人突然被迫切換到另一個提供商，或者支付每天可能高達 50 美元的 API 費用。

本地模型不存在這個問題。

正如我開頭所說，本地模型在處理最複雜的多步驟推理時無法與前沿模型相媲美。但對於簡單的日常編碼、摘要生成、草稿撰寫、網頁抓取、研究和問答等任務，它們可以處理我交給它們的 70-80% 的任務。

理想的方案是兩者兼顧。雲端處理複雜任務，本地處理其他事務。

硬件：你需要哪些硬件？

在深入探討硬件本身之前，我們先快速瞭解一下量化。你會在本地LLM世界中到處看到這個術語，它會影響你做出的每一個硬件決策，因此值得提前理解。

全精度模型將每個參數存儲為一個 16 位數字。量化會將其壓縮到 8 位、4 位甚至更低。模型體積更小、運行速度更快，但代價是犧牲了一點點精度。我突然想到一個音樂的例子：FLAC 在技術上比 320kbps 的 MP3 文件更好，但大多數人聽不出區別（我肯定聽不出來）。

對於大多數任務而言，4 位量化產生的輸出與全精度輸出幾乎沒有區別。如果您遇到類似 Q4_K_M 或 Q3_K_M 這樣的模型名稱，請注意，它們指的是同一模型，只是量化位數分別為 4 位和 3 位。

經驗法則：Q4 量化模型每十億個參數大約需要 0.6-0.7 GB 內存（我在上週的帖子中解釋了參數）。

我建議您堅持使用Q4_K_M型號，除非您有特殊原因不這樣做。

好了，我們還是回到硬件話題上來。在硬件上運行LLM時，最重要的參數就是可用內存。這在PC上指的是顯存（VRAM），在Mac上指的是統一內存（UM）。其他所有硬件相關的參數都是次要的。

這裡有一個方便的圖表，可以根據不同的硬件規格查看您可以運行的模型類型：

由於採用了統一內存，Mac 擁有獨特的優勢。CPU、GPU 和神經網絡引擎共享同一個內存池。一臺配備 512 GB 統一內存的 Mac Studio 實際上可以在本地運行 DeepSeek R1，處理 6710 億個參數。

我個人在自己的 Mac Studio（Q3 版本，需要約 308GB 內存）上運行 GLM5.1，參數數量為 7440 億。

Mac 和 PC：你應該買哪一款？

這是一個常見問題，答案和大多數事情一樣，“視情況而定”。兩者沒有絕對的優劣之分，它們各有優勢，具體取決於您的情況/需求。

其他一些需要考慮的因素：

根據您的情況，我的建議是：

如果你預算有限，而且已經有了電腦：那就買一塊二手的 RTX 3090 顯卡吧。2026 年性價比最高的顯卡，每 GB 顯存。

如果您想要一臺價格低於 1500 美元的完整機器，並且主要運行 7B-14B 型號的 Mac Mini：配備 24GB 內存的 Mac Mini M4 Pro（1399 美元）。安靜、高效，無需組裝。

如果您想要中小型機型擁有最快的響應速度：組裝一臺配備 RTX 4090 或 5090 顯卡的電腦。總價大約在 2500-3500 美元之間。

如果您想運行 30B+ 型號，或者您想要一臺安靜的始終開機的機器： Mac Mini M4 Pro 配備 48-64 GB（1,999-2,199 美元）或 Mac Studio 配備 64-128 GB（2,400-4,500 美元）。

如果你想運行最大的開源模型（GLM-5.1、Kimi K2.6、DeepSeek R1，全部佔用 671 字節），但又不想使用一整套專業級 GPU，那麼配備 256GB 或 512GB 硬盤的 Mac Studio 是唯一合理的消費級選擇。價格在 6000 到 10000 美元之間。

你現有的筆記本電腦呢？

在你花錢之前，需要了解的一點是，任何配備至少 8GB 內存的 M1 MacBook 或更新機型都可以運行小型本地模型。例如，配備 16GB 內存的 M1 MacBook Air 可以以每秒 15-25 個令牌的速度運行 7B 型模型；如果你擁有內存更大的 MacBook，則可以運行更多模型。

這些設備不會很花哨，但對於簡單/基本的任務來說仍然非常實用，更重要的是，你至少可以在花額外的錢之前瞭解一下本地型號是如何運作的。

軟件工具

硬件是第一步，但有了硬件之後，您還需要一些工具來管理和運行您自己的設備上的模型。以下是主要選項。

如果您是新手， LM Studio是個不錯的起點。它是一款功能齊全的桌面應用程序，界面簡潔易用。您只需下載安裝程序，瀏覽內置的 HuggingFace 模型庫，點擊您想要的模型，即可開始聊天。無需任何終端命令。

它具有實時內存監控功能，可在您下載之前告知您的機器是否可以運行某個模型，並根據您的硬件推薦最適合您下載的模型。

它還公開了一個與 OpenAI 兼容的 API，因此您可以根據需要將其連接到腳本和代理（即，您可以在本地模型上運行 Openclaw 或 Hermes 代理）。

如果你想使用本地模型構建項目， Ollama總體來說是更好的選擇，但它要求你熟悉終端/命令行界面 (CLI)。Ollama 相對於 LM Studio 的一些優勢如下：

Ollama 與 LM Studio 具有相同的 API 兼容性。

Ollama 的確有原生桌面應用程序，而且功能齊全，但與 LM Studio 相比，功能非常簡陋。它沒有實時內存監控、可視化參數控制、並排模型對比，也沒有 HuggingFace 瀏覽器。它適合快速聊天，但這並非 Ollama 的優勢所在。如果您想要一個精緻的圖形用戶界面，請選擇 LM Studio。如果您需要無頭/腳本/代理功能，請使用 Ollama。或者，還有更好的選擇……

你可以同時安裝這兩個軟件！它們不會衝突，這也是我的建議。我用 LM Studio 快速測試新模型，用 Ollama 集成到工作流程中。如果非要二選一的話：LM Studio 適合剛入門的非開發人員，而 Ollama 則適合任何計劃將本地模型連接到 OpenClaw、Hermes 或自定義腳本的用戶。

還有一些值得了解的工具：

Unsloth可以用來在您自己的數據上微調模型，這為本地模型帶來了一種非常棒的全新可能性。三月份發佈的全新 Unsloth Studio 允許您使用自己的文檔或寫作風格來訓練模型。我打算在某個時候用我所有的簡報（或 X 篇文章）來微調模型，看看它與 Frontier 模型相比，在模仿我的寫作風格方面表現如何。

HuggingFace是模型存放的倉庫。你可以把它想象成人工智能領域的 GitHub，你其實不需要直接操作它，但當你在 Local LM 或 Ollama 上“下載模型”時，要知道你很可能是從 HuggingFace 下載的。

llama.cpp和MLX是底層引擎。Ollama 和 LM Studio 都使用其中一個進行推理。大多數用戶無需考慮它們的具體作用。

哪種模型適用於哪種任務？

在我寫這封信的這段時間裡，這部分內容已經過時兩次了。以下內容是我截至2026年4月21日的看法。其中一半內容可能在三個月內就會被取代，甚至可能更快。Kimi K2.6幾個小時前才發佈，我還沒來得及親自試用，但我之前用過GLM-5.1，在Kimi K2.6發佈之前，它可能是最佳選擇。

在分享對比圖表之前，有幾點需要注意。前沿的開放權重模型（Kimi K2.6、 GLM-5.1）幾乎在所有方面都優於較小的模型。這是參數更多、規模更大的模型的固有特性。但它們需要強大的硬件才能在本地運行，因此對於不需要深度推理的任務，較小的模型就能以更低的成本和延遲完成任務。你應該問自己的實際問題不是“哪個模型最適合這項任務”，而是“哪個模型規模最小，卻能很好地完成這項任務”。

關於基準測試，這裡先簡單提一下。本文中我會多次提到SWE-Bench Pro 。它是對編碼而言最重要的基準測試工具。SWE-Bench Pro 並非測試模型能否編寫獨立的函數，而是給模型提供一個來自真實開源項目的 GitHub 問題，並要求模型修復它。模型必須閱讀代碼庫，理解 bug，編寫修復程序，並提交能夠通過現有測試的代碼。50% 的分數意味著模型解決了一半的問題。

作為參考，Claude Opus 4.6 的得分為 53.4%。而最新發布的 Opus 4.7 的得分更是高達 64.3%。通常來說，得分在 55% 到 60% 之間的產品都被認為是前沿產品，但隨著前沿產品性能的不斷提升，這個數字顯然也在不斷變化。

目前，在編程領域的頂尖產品中，有兩款開放重量級模型脫穎而出。

Moonshot AI 的Kimi K2.6是開源編碼領域的新王者。它今天正式發佈，專為長時間、複雜的編碼任務而設計。其他模型在運行一兩個小時後就開始出現性能下降，而 K2.6 已在實際工程任務中實現了長達 5 天的連續運行。

它還可以並行協調 300 個子代理（簡直不可思議），這意味著你可以給它佈置類似“重構整個單體倉庫”的任務，它會將任務分解到數百個專門的工作節點上執行。它在 SWE-Bench Pro 測試中勝過 Claude Opus 4.6（58.6% 對 53.4%）。如果你正在構建任何智能體或進行大量代碼庫工作，這是目前最好的本地模型（但再說一遍……這一切可能明天就改變，哈哈）。

Z.ai 的GLM-5.1版本雖然發佈時間較早（4 月 7 日發佈，稱之為“較早版本”有點不可思議），但編碼質量依然非常接近。它在 SWE-Bench Pro 測試中得分 58.4%，僅比 K2.6 略遜一籌。如果您想要體驗前沿編碼技術，但又沒有足夠硬件運行 Kimi 模型，那麼 GLM -5.1 也是一個不錯的選擇。

從實用角度來看， Qwen3.6-35B-A3B （4月16日發佈）對大多數用戶來說都非常理想。其MoE架構意味著即使模型總大小為350億，每個token也只有30億個參數處於激活狀態，因此即使在24GB內存的機器上也能快速運行。它不僅可以處理文本，還可以處理圖像和視頻，並且上下文窗口最大可達100萬個token，因此您可以將其用於整個代碼庫或長文檔。

它擅長日常編碼、撰寫草稿、摘要和代理工作流程。

這純屬巧合，但有人在筆記本電腦上用它和 Claude Opus 4.7 對比測試了一番，結果本地模型畫出的鵜鶘騎自行車的圖案更好（這是一個非常隨機且愚蠢的例子，但生活如果沒有一點奇思妙想又有什麼意義呢）：

來源： https ://simonwillison.net/2026/Apr/16/qwen-beats-opus/

對於配置較低的硬件， Qwen 3.5 9B是一個實用的選擇，在 8GB 內存的 MacBook 上運行良好。它無法處理複雜的多文件運算，但對於一些日常任務（例如重寫電子郵件、文章摘要、快速問答），它的表現非常出色。

入門

如果您想嘗試運行自己的本地模型，以下是 LM Studioo 和 Ollama 的一些入門說明。

LM工作室：

從lmstudio.ai下載LM Studio。
安裝它。
打開應用。
點擊“發現”並搜索型號。實時內存監控器會告訴您該型號是否能在您的計算機上運行。
點擊下載。
完成後點擊“加載模型”，就可以開始使用了。你可以直接在LM Studio中與模型聊天，或者將其連接到像OpenClaw/Hermes這樣的代理（我將在下一節中解釋如何操作）。

奧拉瑪：