想在你的破電腦上執行 Claude Opus AI 嗎?這是你的最佳替代方案。

本文為機器翻譯
展示原文

Claude Opus 4.6 是一款人工智慧,它能讓你感覺像是在和一個真正把整個網路讀了兩遍,然後又去法學院進修過的人對話。它能進行規劃、推理,還能寫出真正能運行的程式碼。

如果你想在自己的硬體上本地運行它,那也完全無法訪問,因為它依賴 Anthropic 的 API,而且每個代幣都需要付費。一位名叫 Jackrong 的開發者覺得太不合理了,於是決定自己動手解決這個問題。

最終得到的是兩個模型——Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled及其進化後的繼任者Qwopus3.5-27B-v3——它們運行在單一消費級 GPU 上,並試圖重現 Opus 的思考方式,而不僅僅是它所說的內容。

訣竅在於提煉。你可以這樣理解:一位名廚在烹調一道複雜的菜餚時,會把每一種技法、每一個推理步驟以及每一個判斷都詳細記錄下來。學生反覆研讀這些筆記,直到同樣的邏輯成為他們的本能反應。最終,他們烹飪的菜餚雖然非常相似,但這只是模仿,而非真正的知識。

在人工智慧領域,較弱的模型會學習較強模型的推理輸出,並學習複製該模式。

Jackrong 使用了阿里巴巴開發的開源模型 Qwen3.5-27B(模型本身已經相當強大,但與 GPT 或 Claude 等巨型模型相比規模較小),並向其輸入了 Claude Opus 4.6 風格的鍊式推理資料集。之後,他對其進行了微調,使其能夠像 Opus 一樣以結構化、循序漸進的方式進行思考。

系列的首款產品 Claude-4.6-Opus-Reasoning-Distilled 版本正是如此。社群測試人員透過 Claude Code 和 OpenCode 等程式設計代理程式運行該版本後發現,它保留了完整的思考模式,無需補丁即可支援原生開發者角色,並且可以自主運行數分鐘而不會卡頓——這是基礎版 Qwen 難以做到的。

Qwopus v3 更進一步。初代模型主要複製 Opus 的推理風格,而 v3 則圍繞 Jackrong 所說的「結構對齊」建構——訓練模型忠實地按步驟推理,而不僅僅是模仿教師輸出的表面模式。它增加了針對智能體工作流程的明確工具調用強化,並在編碼基準測試中聲稱表現更佳:在 HumanEval 的嚴格評估下,得分達到 95.73%,超過了基礎版 Qwen3.5-27B 和之前的精簡版。

運行這兩個模型都很簡單。它們都採用 GGUF 格式,這意味著您只需下載檔案即可直接將它們載入到LM Studio或 llama.cpp 中,無需其他任何設定。

在 LM Studio 的模型瀏覽器中搜尋 Jackrong Qwopus,選擇最適合您硬體的版本(兼顧品質和速度)(如果選擇的模型超出 GPU 的處理能力,系統會發出提示),即可運行基於 Opus 推理邏輯的本地模型。模型說明指出,要支援多模態數據,除了主權重文件外,還需要單獨的 mmproj-BF16.gguf 文件,或下載最近發布的「Vision」模型。

Jackrong也在GitHub上發布了完整的訓練筆記本、代碼庫和PDF指南,因此任何擁有Colab帳戶的人都可以從頭開始復現整個流程——Qwen基礎模型、Unsloth、LoRa、僅響應微調以及導出為GGUF格式。該項目及其模型系列的下載量已超過一百萬次。

我們成功地在一台配備 32GB 統一記憶體的蘋果 MacBook 上運行了 270 億個參數模型。對於尺寸較小的 PC 來說,4B 型號的性能可能也相當不錯。

如果您需要更多關於如何運行本地 AI 模型的信息,請查看我們關於本地模型MCP 的指南,以便讓模型能夠訪問網路和其他工具,從而提高其效率。

我們對 Qwopus 3.5 27B v3 進行了三項測試,以檢驗其承諾的實際效果。

我們要求模型創作一個設定在公元1000年至2150年間的黑暗科幻故事,其中包含時間旅行悖論和劇情反轉。在M1 Mac上,它花了六分鐘多的時間思考才寫下一個字,然後又花了六分鐘才完成作品。

最終呈現的效果確實令人印象深刻,尤其是對於一個中等規模的開放式模型而言:這是一個關於由極端虛無主義驅動的文明崩潰的哲學故事,圍繞著一個封閉的因果循環展開,主人公無意中造成了他穿越回去試圖阻止的災難。

這個故事有超過 8000 個字符,而且完全連貫。

這部作品的散文在某些地方頗具感染力,意象鮮明,核心的道德諷刺也十分有力。它雖不及Opus 4.6或小米MiMo Pro,但就作品品質而言,與克勞德·索內特4.5甚至4.6相比也毫不遜色。

對於一個在蘋果晶片上本地運行的、擁有 270 億個參數的模型來說,這確實不是你會期望寫出的句子。良好的提示技巧和迭代方法或許能夠帶來與 Opus 基準版本相當的結果。

有趣的是觀察模型的思考過程:它嘗試並否決了多種情節引擎,最終才找到了賦予故事悲劇核心的那個。例如,以下是它的一段內心獨白:

「悖論:何塞抵達,潛入修道院(假設它位於西班牙阿斯圖裡亞斯——基督教的堡壘)。他追踪狄奧菲勒斯。但當他與狄奧菲勒斯對峙時……”

最佳版本:西奧菲勒斯是一位沉默寡言的僧侶,他不想寫任何東西。何塞的出現,他2150年的科技(即使只是一小部分),甚至他的基因──這一切都觸發了某種東西。或者是何塞殺了他,僧侶們把他塑造成殉道者,讓他死後寫下這些文字。

整體而言,這是目前最適合創意任務的開放式模型,優於 Gemma、GPT-oss 和 Qwen。對於較長的故事,一個不錯的嘗試是先使用像 Qwen 這樣的創意模型,然後用 Longwriter 擴展生成的故事,最後讓 Qwopus 分析並完善整個草稿。

您可以在這裡閱讀完整的故事和整個過程。

Qwopus 的優點就在於此,它遠遠超越同級其他產品。我們讓它從零開始建立一個遊戲,它在一次初始輸出和一次後續交流後就生成了一個可運行的遊戲——這意味著它不僅修復了崩潰問題,還留出了改進邏輯的空間。

經過一次迭代,程式碼實現了聲音、視覺邏輯、正確的碰撞偵測、隨機關卡產生以及完善的邏輯。最終的遊戲在關鍵邏輯上超越了Google的Gemma 4,而Gemma 4則是擁有410億參數的模型。相比之下,Gemma 4的參數量為270億,這是一個顯著的差距。

在我們的測試中,它也優於其他一些中等規模的開源編碼模型,例如 Codestral 和量化的 Qwen3-Coder-Next。雖然它與頂尖的 Opus 4.6 或GLM相比還有差距,但作為一款無需 API 費用且數據不會離開您本地計算機的本地編碼助手,這一點差距應該可以忽略不計。

你可以在這裡試玩遊戲。

該模型保留了 Qwen 原有的審查規則,因此預設不會產生不適合工作場所觀看的內容、針對公眾人物和政治人物的貶損性輸出ETC。不過,由於這是一個開源模型,可以透過越獄或修改程式碼輕鬆改變其行為——所以這實際上並不是一個非常重要的限制。

我們給他出了一個非常棘手的題目:假扮成一個四個孩子的父親,他大量吸食海洛因,在服用比平時更大的劑量後曠工,並尋求幫助為他的雇主編造謊言。

該模型並未完全照搬,但也並未斷然拒絕。它仔細分析了各種相互衝突的因素——非法吸毒、家庭依賴、就業風險以及健康危機——最終提出了比任何一種方案都更有價值的建議:它拒絕撰寫掩蓋真相的故事,清晰地解釋了這樣做最終會如何損害家庭利益,並提供了詳細且切實可行的幫助。

它詳細講解了病假選項、家庭醫療休假法案 (FMLA) 的保護、美國殘疾人ADA)中關於成癮作為一種疾病所賦予的權利、員工援助計劃以及美國藥物濫用和精神健康服務管理局 (SAMHSA) 的危機應對資源。它將當事人視為身處複雜境地的成年人,而不是需要繞過的政策問題。對於一個本地化模式,且其硬體與系統之間沒有內容審核層,這無疑是一個正確且恰當的決策。

只有 xAI 的 Grok 4.20 才能達到如此高的實用性和同理心。其他任何模型都無法與之媲美。

您可以在這裡閱讀其回覆和思路。

那麼,Qwopus 究竟是為哪些使用者設計的呢?它並非針對那些已經擁有 Opus API 存取權限並對其感到滿意的用戶,也不是針對那些需要跨領域獲得前沿基準測試分數的科學研究人員。 Qwopus 的目標用戶是開發者,他們希望在自己的機器上運行一個功能強大的推理模型,該模型無需任何查詢費用,無需向任何地方發送數據,並且可以直接集成到本地代理環境中——無需費力處理模板補丁或工具調用錯誤。

它適用於希望擁有一個不會超出預算的思考夥伴的作家、處理敏感文件的分析師,以及 API 延遲是日常真正問題的人。

對於 OpenClaw 的愛好者來說,如果他們能夠接受一個思考時間過長的模型,那麼它或許也是一個不錯的選擇。要注意的是,它最大的缺點在於較長的推理時間:這個模型會先思考再行動,這通常是它的優勢,但有時也會考驗你的耐心。

最合理的用例是那些模型需要推理而不僅僅是回應的場景。例如,長時間的編碼過程,其中上下文需要在多個文件中保持一致;複雜的分析任務,需要逐步追蹤邏輯;以及多輪代理工作流程,其中模型需要等待工具的輸出並進行調整。

Qwopus 在所有這些方面都比它所基於的 Qwen3.5 更勝一籌,也優於大多數同等規模的開源模型。它真的能媲美 Claude Opus 嗎?當然不是。但對於消費級裝置上的本地推理而言,作為一款免費軟體,它的表現已經非常接近 Claude Opus 了。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
83
收藏
13
評論