OpenClaw + Codex/Claude Code Agent Swarm：一人開發團隊的完整搭建方案

ME News

02-26

作者分享了一套基於 OpenClaw 的 Agent 編排系統，將 Codex、Claude Code、Gemini 等模型組成“多智能體開發艦隊”，由本地編排器 Zoe 統一調度，實現從需求到 PR 的全自動閉環。

文章作者：@elvissun

文章來源：X 平臺

我現在已經不再直接使用 Codex 或 Claude Code 了。

我使用 OpenClaw 作為我的編排層。我的編排器 Zoe 會負責生成子 Agent、撰寫它們的 Prompt、為不同任務選擇最合適的模型、監控進度，並在 PR 可以合併時通過 Telegram 通知我。

過去 4 周的數據：

單日 94 次 commit。這是我效率最高的一天——那天我有 3 個客戶電話，甚至沒有打開編輯器。平均每天大約 50 次 commit。
30 分鐘內 7 個 PR。從想法到生產環境幾乎是閃電般速度，因為編碼與驗證基本都已自動化。
Commits → MRR：我將這套系統用於真實的 B2B SaaS 產品開發，配合創始人主導銷售，實現當天交付大多數功能需求。速度直接轉化為付費客戶。

對比：

1 月之前：只用 Claude Code/Codex

1 月之後：OpenClaw 編排 Claude Code/Codex

現在我的 Git 歷史看起來像是剛僱了一支開發團隊。

實際上只是我從“管理 Claude Code”，升級成“管理一個 OpenClaw Agent，而這個 Agent 再管理一整支 Claude Code 和 Codex Agent 艦隊”。

成功率：

幾乎所有中小型任務都能一次完成，無需人工干預。

成本：

Claude 約 $100/月，Codex 約 $90/月，入門可從 $20 起步。

為什麼這比直接使用 Codex 或 Claude Code 更有效？

Codex 和 Claude Code 幾乎不瞭解你的業務。

它們看到的是代碼，而不是業務全局。

OpenClaw 改變了這個邏輯。

它是你與所有 Agent 之間的編排層——它在我的 Obsidian Vault 中保存完整業務上下文（客戶數據、會議紀要、歷史決策、成功經驗與失敗教訓），並將這些歷史背景轉化為精準 Prompt 給每個編碼 Agent。

編碼 Agent 專注代碼。

編排器負責戰略。

高層架構

上週 Stripe 發佈了他們的後臺 Agent 系統“Minions”——並行編碼 Agent + 中央編排層。

我無意間做出了類似系統，只不過運行在我的 Mac mini 本地。

為什麼必須有 Agent 編排器？

上下文窗口是零和的。

你必須選擇填什麼：

用代碼填滿它 → 沒有空間容納業務背景信息。用客戶歷史信息填滿它 → 沒有空間留給代碼庫。這就是雙層系統能夠發揮作用的原因：每個 AI 都僅裝載了其所需的具體內容。

完整 8 步工作流

下面是真實案例流程。

Step 1：客戶需求 → 與 Zoe 共同拆解

客戶希望團隊複用已有配置。

會議結束後，我和 Zoe 討論需求。

因為會議記錄自動同步到 Obsidian Vault，我無需解釋背景。我們一起探討了這個功能，並找到了一個模板系統，允許他們保存和編輯現有的配置。

Zoe 做三件事：

通過 Admin API 為客戶補充額度
從生產數據庫讀取客戶配置（只讀權限，Codex Agent 永遠不會擁有此權限）
啟動 Codex Agent，並附帶完整上下文 Prompt

Step 2：啟動 Agent

每個 Agent 擁有獨立 worktree 和 tmux 會話。

使用 tmux 的好處是可以中途干預，而不必關閉進程。

任務狀態記錄在 JSON 註冊表中。

Step 3：自動監控循環

每 10 分鐘 cron 執行一次：

檢查 tmux 會話是否存在
檢查 PR 狀態
檢查 CI
最多自動重試 3 次
只在需要人工干預時通知我。

Step 4：Agent 創建 PR

產出一個 PR 並不是結束。

完整的完成標準包括：

PR 創建
無衝突
CI 通過
Codex 審查通過
Claude 審查通過
Gemini 審查通過
若涉及 UI 必須附截圖

Step 5：三模型代碼審查

每個 PR 都會經過三種人工智能模型的審核。它們能捕捉到不同的信息

Codex：邏輯與邊界處理最強
Gemini：安全與擴展性優秀
Claude：偏謹慎，通常忽略非關鍵建議

Step 6：自動化測試

我們的 CI 管道運行大量的自動化測試：

Lint 和 TypeScript 檢查-單元測試-E2E 測試-針對預覽環境的劇作家測試（與 prod 相同）

上週我添加了一條新規則:如果公關更改任何用戶界面，它必須在公關描述中包含屏幕截圖。否則 CI 將失敗。這大大縮短了審查時間，我無需點擊預覽即可準確看到更改的內容。

Step 7：人工審核

當三模型通過 + CI 通過後，Telegram 將會通知我。

我只需 5-10 分鐘審核。

很多 PR 我甚至不讀代碼，只看截圖。

Step 8：合併

每日 cron 會清理獨立的工作樹和任務註冊表。

Ralph Loop V2

本質上，這是 Ralph Loop 的升級版。

傳統 Ralph Loop 會從記憶中提取上下文，生成輸出，評估結果，並保存學習成果。但大多數實現方式在每一輪循環中使用的是相同的 Prompt。提煉出的經驗確實會改善未來的檢索效果，但 Prompt 本身是靜態不變的。

我們的系統不同。

當某個 Agent 失敗時，Zoe 不會用相同的 Prompt 簡單重啟它。她會結合完整的業務上下文分析失敗原因，並找出如何解除阻塞：

Agent 上下文不足？

“只專注這三個文件。”

Agent 走錯方向？

“停。客戶想要的是 X，不是 Y。這是他們在會議中說的話。”

Agent 需要澄清？

“這是客戶的郵件，以及他們公司的業務介紹。”

Zoe 會一路陪跑，直到任務完成。她擁有 Agent 不具備的上下文——客戶歷史、會議紀要、過去嘗試過什麼、為什麼失敗。她利用這些信息，在每一次重試時寫出更精準的 Prompt。

但她不會等我分配任務。

她會主動尋找工作：

早上：掃描 Sentry → 發現 4 個新錯誤 → 啟動 4 個 Agent 調查修復

會議後：掃描會議紀要 → 標記出 3 個客戶提到的新功能 → 啟動 3 個 Codex Agent

晚上：掃描 Git 日誌 → 啟動 Claude Code 更新 changelog 和客戶文檔

我在客戶電話後去散步。回來打開 Telegram：

“7 個 PR 已準備好審核。3 個新功能，4 個 Bug 修復。”

當 Agent 成功時，成功模式會被記錄：

“這種 Prompt 結構適用於計費功能。”

“Codex 需要提前提供類型定義。”

“一定要包含測試文件路徑。”

獎勵信號包括：

CI 通過
三個 AI 審查全部通過
人工合併

任何失敗都會觸發循環。

隨著時間推移，Zoe 會因為記住了“什麼成功上線”而寫出越來越好的 Prompt。

選擇正確的 Agent

並不是所有編碼 Agent 都一樣。

簡要參考：

Codex 是我的主力。

後端邏輯、複雜 Bug、多文件重構、需要跨代碼庫推理的任務。它較慢，但非常全面。我 90% 的任務都交給它。

Claude Code 更快，且更擅長前端開發。權限問題更少，非常適合 Git 操作。（我以前更多使用它驅動日常開發，但現在 Codex 5.3 更強更快。）

Gemini 擁有不同的優勢——設計感。

做漂亮 UI 時，我會先讓 Gemini 生成 HTML/CSS 規範，再交給 Claude Code 在組件系統中實現。Gemini 負責設計，Claude 負責構建。

Zoe 會為每個任務選擇合適的 Agent，並在它們之間路由輸出：

計費系統 Bug → Codex
按鈕樣式修復 → Claude Code
新儀表盤設計 → 先 Gemini

如何搭建這套系統

把整篇文章複製到 OpenClaw，然後告訴它：

“為我的代碼庫實現這個 Agent Swarm 架構。”

它會讀取架構說明，創建腳本，建立目錄結構，配置 cron 監控。

10 分鐘完成。

沒有課程賣給你。

意想不到的瓶頸

我現在遇到的天花板是：內存。

每個 Agent 需要獨立 worktree。

每個 worktree 需要獨立 node_modules。

每個 Agent 都要運行構建、類型檢查和測試。

五個 Agent 同時運行，意味著：

五個並行的 TypeScript 編譯器
五個測試運行器
五套依賴加載到內存

我的 16GB Mac Mini 最多隻能跑 4-5 個 Agent，再多就開始內存交換。而且還要祈禱它們不要同時構建。

因此我購買了一臺 Mac Studio M4 Max，128GB RAM（$3,500）專門運行這套系統。三月底到貨，我會分享是否值得。

下一步：一人百萬美元公司

2026 年，我們會看到大量“一人百萬美元公司”。

對於那些理解如何構建可遞歸自我改進 Agent 的人來說，槓桿巨大。

它看起來是這樣的：

一個 AI 編排器作為你的延伸（就像 Zoe 之於我），

將工作分派給專門的 Agent：

工程
客戶支持
運維
市場

每個 Agent 專注自己擅長的領域。

你保持高度專注和完全控制。

下一代創業者不會再僱 10 人團隊去完成一個人配合合適系統就能完成的事情。

他們會這樣構建公司——保持精簡、快速迭代、每日發佈。

現在充斥著大量 AI 生成的垃圾內容。

關於 Agent 和“任務控制檯”的炒作很多，但沒有真正落地的成果。

花哨演示，沒有現實價值。

我想做相反的事：

少炒作，多記錄真實業務構建過程。

真實客戶。

真實收入。

真實上線的 commit。

也包括真實的損失。

我在做什麼？

Agentic PR——

一個一人公司，對抗企業級 PR 機構。

用 Agent 幫助創業公司獲得媒體曝光，而無需每月 $10,000 的服務費。

如果你想看我能走多遠，繼續關注。