作者分享了一套基於 OpenClaw 的 Agent 編排系統,將 Codex、Claude Code、Gemini 等模型組成“多智能體開發艦隊”,由本地編排器 Zoe 統一調度,實現從需求到 PR 的全自動閉環。
文章作者:@elvissun
文章來源:X 平臺
我現在已經不再直接使用 Codex 或 Claude Code 了。
我使用 OpenClaw 作為我的編排層。我的編排器 Zoe 會負責生成子 Agent、撰寫它們的 Prompt、為不同任務選擇最合適的模型、監控進度,並在 PR 可以合併時通過 Telegram 通知我。
過去 4 周的數據:
- 單日 94 次 commit。這是我效率最高的一天——那天我有 3 個客戶電話,甚至沒有打開編輯器。平均每天大約 50 次 commit。
- 30 分鐘內 7 個 PR。從想法到生產環境幾乎是閃電般速度,因為編碼與驗證基本都已自動化。
- Commits → MRR:我將這套系統用於真實的 B2B SaaS 產品開發,配合創始人主導銷售,實現當天交付大多數功能需求。速度直接轉化為付費客戶。

對比:
1 月之前:只用 Claude Code/Codex
1 月之後:OpenClaw 編排 Claude Code/Codex
現在我的 Git 歷史看起來像是剛僱了一支開發團隊。
實際上只是我從“管理 Claude Code”,升級成“管理一個 OpenClaw Agent,而這個 Agent 再管理一整支 Claude Code 和 Codex Agent 艦隊”。
成功率:
幾乎所有中小型任務都能一次完成,無需人工干預。
成本:
Claude 約 $100/月,Codex 約 $90/月,入門可從 $20 起步。
為什麼這比直接使用 Codex 或 Claude Code 更有效?
Codex 和 Claude Code 幾乎不瞭解你的業務。
它們看到的是代碼,而不是業務全局。
OpenClaw 改變了這個邏輯。
它是你與所有 Agent 之間的編排層——它在我的 Obsidian Vault 中保存完整業務上下文(客戶數據、會議紀要、歷史決策、成功經驗與失敗教訓),並將這些歷史背景轉化為精準 Prompt 給每個編碼 Agent。

編碼 Agent 專注代碼。
編排器負責戰略。
高層架構
上週 Stripe 發佈了他們的後臺 Agent 系統“Minions”——並行編碼 Agent + 中央編排層。
我無意間做出了類似系統,只不過運行在我的 Mac mini 本地。
為什麼必須有 Agent 編排器?
上下文窗口是零和的。
你必須選擇填什麼:
用代碼填滿它 → 沒有空間容納業務背景信息。用客戶歷史信息填滿它 → 沒有空間留給代碼庫。這就是雙層系統能夠發揮作用的原因:每個 AI 都僅裝載了其所需的具體內容。

完整 8 步工作流
下面是真實案例流程。
Step 1:客戶需求 → 與 Zoe 共同拆解
客戶希望團隊複用已有配置。
會議結束後,我和 Zoe 討論需求。
因為會議記錄自動同步到 Obsidian Vault,我無需解釋背景。我們一起探討了這個功能,並找到了一個模板系統,允許他們保存和編輯現有的配置。
Zoe 做三件事:
- 通過 Admin API 為客戶補充額度
- 從生產數據庫讀取客戶配置(只讀權限,Codex Agent 永遠不會擁有此權限)
- 啟動 Codex Agent,並附帶完整上下文 Prompt
Step 2:啟動 Agent
每個 Agent 擁有獨立 worktree 和 tmux 會話。


使用 tmux 的好處是可以中途干預,而不必關閉進程。



任務狀態記錄在 JSON 註冊表中。
Step 3:自動監控循環
每 10 分鐘 cron 執行一次:

- 檢查 tmux 會話是否存在
- 檢查 PR 狀態
- 檢查 CI
- 最多自動重試 3 次
- 只在需要人工干預時通知我。
Step 4:Agent 創建 PR
產出一個 PR 並不是結束。
完整的完成標準包括:
- PR 創建
- 無衝突
- CI 通過
- Codex 審查通過
- Claude 審查通過
- Gemini 審查通過
- 若涉及 UI 必須附截圖
Step 5:三模型代碼審查
每個 PR 都會經過三種人工智能模型的審核。它們能捕捉到不同的信息
- Codex:邏輯與邊界處理最強
- Gemini:安全與擴展性優秀
- Claude:偏謹慎,通常忽略非關鍵建議
Step 6:自動化測試
我們的 CI 管道運行大量的自動化測試:
Lint 和 TypeScript 檢查-單元測試-E2E 測試-針對預覽環境的劇作家測試(與 prod 相同)
上週我添加了一條新規則:如果公關更改任何用戶界面,它必須在公關描述中包含屏幕截圖。否則 CI 將失敗。這大大縮短了審查時間,我無需點擊預覽即可準確看到更改的內容。
Step 7:人工審核
當三模型通過 + CI 通過後,Telegram 將會通知我。
我只需 5-10 分鐘審核。
很多 PR 我甚至不讀代碼,只看截圖。
Step 8:合併
每日 cron 會清理獨立的工作樹和任務註冊表。
Ralph Loop V2
本質上,這是 Ralph Loop 的升級版。
傳統 Ralph Loop 會從記憶中提取上下文,生成輸出,評估結果,並保存學習成果。但大多數實現方式在每一輪循環中使用的是相同的 Prompt。提煉出的經驗確實會改善未來的檢索效果,但 Prompt 本身是靜態不變的。
我們的系統不同。
當某個 Agent 失敗時,Zoe 不會用相同的 Prompt 簡單重啟它。她會結合完整的業務上下文分析失敗原因,並找出如何解除阻塞:
Agent 上下文不足?
“只專注這三個文件。”
Agent 走錯方向?
“停。客戶想要的是 X,不是 Y。這是他們在會議中說的話。”
Agent 需要澄清?
“這是客戶的郵件,以及他們公司的業務介紹。”
Zoe 會一路陪跑,直到任務完成。她擁有 Agent 不具備的上下文——客戶歷史、會議紀要、過去嘗試過什麼、為什麼失敗。她利用這些信息,在每一次重試時寫出更精準的 Prompt。
但她不會等我分配任務。
她會主動尋找工作:
早上:掃描 Sentry → 發現 4 個新錯誤 → 啟動 4 個 Agent 調查修復
會議後:掃描會議紀要 → 標記出 3 個客戶提到的新功能 → 啟動 3 個 Codex Agent
晚上:掃描 Git 日誌 → 啟動 Claude Code 更新 changelog 和客戶文檔
我在客戶電話後去散步。回來打開 Telegram:
“7 個 PR 已準備好審核。3 個新功能,4 個 Bug 修復。”
當 Agent 成功時,成功模式會被記錄:
“這種 Prompt 結構適用於計費功能。”
“Codex 需要提前提供類型定義。”
“一定要包含測試文件路徑。”
獎勵信號包括:
- CI 通過
- 三個 AI 審查全部通過
- 人工合併
任何失敗都會觸發循環。
隨著時間推移,Zoe 會因為記住了“什麼成功上線”而寫出越來越好的 Prompt。
選擇正確的 Agent
並不是所有編碼 Agent 都一樣。
簡要參考:
Codex 是我的主力。
後端邏輯、複雜 Bug、多文件重構、需要跨代碼庫推理的任務。它較慢,但非常全面。我 90% 的任務都交給它。
Claude Code 更快,且更擅長前端開發。權限問題更少,非常適合 Git 操作。(我以前更多使用它驅動日常開發,但現在 Codex 5.3 更強更快。)
Gemini 擁有不同的優勢——設計感。
做漂亮 UI 時,我會先讓 Gemini 生成 HTML/CSS 規範,再交給 Claude Code 在組件系統中實現。Gemini 負責設計,Claude 負責構建。
Zoe 會為每個任務選擇合適的 Agent,並在它們之間路由輸出:
- 計費系統 Bug → Codex
- 按鈕樣式修復 → Claude Code
- 新儀表盤設計 → 先 Gemini
如何搭建這套系統
把整篇文章複製到 OpenClaw,然後告訴它:
“為我的代碼庫實現這個 Agent Swarm 架構。”
它會讀取架構說明,創建腳本,建立目錄結構,配置 cron 監控。
10 分鐘完成。
沒有課程賣給你。
意想不到的瓶頸
我現在遇到的天花板是:內存。
每個 Agent 需要獨立 worktree。
每個 worktree 需要獨立 node_modules。
每個 Agent 都要運行構建、類型檢查和測試。
五個 Agent 同時運行,意味著:
- 五個並行的 TypeScript 編譯器
- 五個測試運行器
- 五套依賴加載到內存
我的 16GB Mac Mini 最多隻能跑 4-5 個 Agent,再多就開始內存交換。而且還要祈禱它們不要同時構建。
因此我購買了一臺 Mac Studio M4 Max,128GB RAM($3,500)專門運行這套系統。三月底到貨,我會分享是否值得。
下一步:一人百萬美元公司
2026 年,我們會看到大量“一人百萬美元公司”。
對於那些理解如何構建可遞歸自我改進 Agent 的人來說,槓桿巨大。
它看起來是這樣的:
一個 AI 編排器作為你的延伸(就像 Zoe 之於我),
將工作分派給專門的 Agent:
- 工程
- 客戶支持
- 運維
- 市場
每個 Agent 專注自己擅長的領域。
你保持高度專注和完全控制。
下一代創業者不會再僱 10 人團隊去完成一個人配合合適系統就能完成的事情。
他們會這樣構建公司——保持精簡、快速迭代、每日發佈。
現在充斥著大量 AI 生成的垃圾內容。
關於 Agent 和“任務控制檯”的炒作很多,但沒有真正落地的成果。
花哨演示,沒有現實價值。
我想做相反的事:
少炒作,多記錄真實業務構建過程。
真實客戶。
真實收入。
真實上線的 commit。
也包括真實的損失。
我在做什麼?
Agentic PR——
一個一人公司,對抗企業級 PR 機構。
用 Agent 幫助創業公司獲得媒體曝光,而無需每月 $10,000 的服務費。
如果你想看我能走多遠,繼續關注。




