OpenClaw + Codex/Claude Code Agent Swarm：一人开发团队的完整搭建方案

ME News

02-26

作者分享了一套基于 OpenClaw 的 Agent 编排系统，将 Codex、Claude Code、Gemini 等模型组成“多智能体开发舰队”，由本地编排器 Zoe 统一调度，实现从需求到 PR 的全自动闭环。

文章作者：@elvissun

文章来源：X 平台

我现在已经不再直接使用 Codex 或 Claude Code 了。

我使用 OpenClaw 作为我的编排层。我的编排器 Zoe 会负责生成子 Agent、撰写它们的 Prompt、为不同任务选择最合适的模型、监控进度，并在 PR 可以合并时通过 Telegram 通知我。

过去 4 周的数据：

单日 94 次 commit。这是我效率最高的一天——那天我有 3 个客户电话，甚至没有打开编辑器。平均每天大约 50 次 commit。
30 分钟内 7 个 PR。从想法到生产环境几乎是闪电般速度，因为编码与验证基本都已自动化。
Commits → MRR：我将这套系统用于真实的 B2B SaaS 产品开发，配合创始人主导销售，实现当天交付大多数功能需求。速度直接转化为付费客户。

对比：

1 月之前：只用 Claude Code/Codex

1 月之后：OpenClaw 编排 Claude Code/Codex

现在我的 Git 历史看起来像是刚雇了一支开发团队。

实际上只是我从“管理 Claude Code”，升级成“管理一个 OpenClaw Agent，而这个 Agent 再管理一整支 Claude Code 和 Codex Agent 舰队”。

成功率：

几乎所有中小型任务都能一次完成，无需人工干预。

成本：

Claude 约 $100/月，Codex 约 $90/月，入门可从 $20 起步。

为什么这比直接使用 Codex 或 Claude Code 更有效？

Codex 和 Claude Code 几乎不了解你的业务。

它们看到的是代码，而不是业务全局。

OpenClaw 改变了这个逻辑。

它是你与所有 Agent 之间的编排层——它在我的 Obsidian Vault 中保存完整业务上下文（客户数据、会议纪要、历史决策、成功经验与失败教训），并将这些历史背景转化为精准 Prompt 给每个编码 Agent。

编码 Agent 专注代码。

编排器负责战略。

高层架构

上周 Stripe 发布了他们的后台 Agent 系统“Minions”——并行编码 Agent + 中央编排层。

我无意间做出了类似系统，只不过运行在我的 Mac mini 本地。

为什么必须有 Agent 编排器？

上下文窗口是零和的。

你必须选择填什么：

用代码填满它 → 没有空间容纳业务背景信息。用客户历史信息填满它 → 没有空间留给代码库。这就是双层系统能够发挥作用的原因：每个 AI 都仅装载了其所需的具体内容。

完整 8 步工作流

下面是真实案例流程。

Step 1：客户需求 → 与 Zoe 共同拆解

客户希望团队复用已有配置。

会议结束后，我和 Zoe 讨论需求。

因为会议记录自动同步到 Obsidian Vault，我无需解释背景。我们一起探讨了这个功能，并找到了一个模板系统，允许他们保存和编辑现有的配置。

Zoe 做三件事：

通过 Admin API 为客户补充额度
从生产数据库读取客户配置（只读权限，Codex Agent 永远不会拥有此权限）
启动 Codex Agent，并附带完整上下文 Prompt

Step 2：启动 Agent

每个 Agent 拥有独立 worktree 和 tmux 会话。

使用 tmux 的好处是可以中途干预，而不必关闭进程。

任务状态记录在 JSON 注册表中。

Step 3：自动监控循环

每 10 分钟 cron 执行一次：

检查 tmux 会话是否存在
检查 PR 状态
检查 CI
最多自动重试 3 次
只在需要人工干预时通知我。

Step 4：Agent 创建 PR

产出一个 PR 并不是结束。

完整的完成标准包括：

PR 创建
无冲突
CI 通过
Codex 审查通过
Claude 审查通过
Gemini 审查通过
若涉及 UI 必须附截图

Step 5：三模型代码审查

每个 PR 都会经过三种人工智能模型的审核。它们能捕捉到不同的信息

Codex：逻辑与边界处理最强
Gemini：安全与扩展性优秀
Claude：偏谨慎，通常忽略非关键建议

Step 6：自动化测试

我们的 CI 管道运行大量的自动化测试：

Lint 和 TypeScript 检查-单元测试-E2E 测试-针对预览环境的剧作家测试（与 prod 相同）

上周我添加了一条新规则:如果公关更改任何用户界面，它必须在公关描述中包含屏幕截图。否则 CI 将失败。这大大缩短了审查时间，我无需点击预览即可准确看到更改的内容。

Step 7：人工审核

当三模型通过 + CI 通过后，Telegram 将会通知我。

我只需 5-10 分钟审核。

很多 PR 我甚至不读代码，只看截图。

Step 8：合并

每日 cron 会清理独立的工作树和任务注册表。

Ralph Loop V2

本质上，这是 Ralph Loop 的升级版。

传统 Ralph Loop 会从记忆中提取上下文，生成输出，评估结果，并保存学习成果。但大多数实现方式在每一轮循环中使用的是相同的 Prompt。提炼出的经验确实会改善未来的检索效果，但 Prompt 本身是静态不变的。

我们的系统不同。

当某个 Agent 失败时，Zoe 不会用相同的 Prompt 简单重启它。她会结合完整的业务上下文分析失败原因，并找出如何解除阻塞：

Agent 上下文不足？

“只专注这三个文件。”

Agent 走错方向？

“停。客户想要的是 X，不是 Y。这是他们在会议中说的话。”

Agent 需要澄清？

“这是客户的邮件，以及他们公司的业务介绍。”

Zoe 会一路陪跑，直到任务完成。她拥有 Agent 不具备的上下文——客户历史、会议纪要、过去尝试过什么、为什么失败。她利用这些信息，在每一次重试时写出更精准的 Prompt。

但她不会等我分配任务。

她会主动寻找工作：

早上：扫描 Sentry → 发现 4 个新错误 → 启动 4 个 Agent 调查修复

会议后：扫描会议纪要 → 标记出 3 个客户提到的新功能 → 启动 3 个 Codex Agent

晚上：扫描 Git 日志 → 启动 Claude Code 更新 changelog 和客户文档

我在客户电话后去散步。回来打开 Telegram：

“7 个 PR 已准备好审核。3 个新功能，4 个 Bug 修复。”

当 Agent 成功时，成功模式会被记录：

“这种 Prompt 结构适用于计费功能。”

“Codex 需要提前提供类型定义。”

“一定要包含测试文件路径。”

奖励信号包括：

CI 通过
三个 AI 审查全部通过
人工合并

任何失败都会触发循环。

随着时间推移，Zoe 会因为记住了“什么成功上线”而写出越来越好的 Prompt。

选择正确的 Agent

并不是所有编码 Agent 都一样。

简要参考：

Codex 是我的主力。

后端逻辑、复杂 Bug、多文件重构、需要跨代码库推理的任务。它较慢，但非常全面。我 90% 的任务都交给它。

Claude Code 更快，且更擅长前端开发。权限问题更少，非常适合 Git 操作。（我以前更多使用它驱动日常开发，但现在 Codex 5.3 更强更快。）

Gemini 拥有不同的优势——设计感。

做漂亮 UI 时，我会先让 Gemini 生成 HTML/CSS 规范，再交给 Claude Code 在组件系统中实现。Gemini 负责设计，Claude 负责构建。

Zoe 会为每个任务选择合适的 Agent，并在它们之间路由输出：

计费系统 Bug → Codex
按钮样式修复 → Claude Code
新仪表盘设计 → 先 Gemini

如何搭建这套系统

把整篇文章复制到 OpenClaw，然后告诉它：

“为我的代码库实现这个 Agent Swarm 架构。”

它会读取架构说明，创建脚本，建立目录结构，配置 cron 监控。

10 分钟完成。

没有课程卖给你。

意想不到的瓶颈

我现在遇到的天花板是：内存。

每个 Agent 需要独立 worktree。

每个 worktree 需要独立 node_modules。

每个 Agent 都要运行构建、类型检查和测试。

五个 Agent 同时运行，意味着：

五个并行的 TypeScript 编译器
五个测试运行器
五套依赖加载到内存

我的 16GB Mac Mini 最多只能跑 4-5 个 Agent，再多就开始内存交换。而且还要祈祷它们不要同时构建。

因此我购买了一台 Mac Studio M4 Max，128GB RAM（$3,500）专门运行这套系统。三月底到货，我会分享是否值得。

下一步：一人百万美元公司

2026 年，我们会看到大量“一人百万美元公司”。

对于那些理解如何构建可递归自我改进 Agent 的人来说，杠杆巨大。

它看起来是这样的：

一个 AI 编排器作为你的延伸（就像 Zoe 之于我），

将工作分派给专门的 Agent：

工程
客户支持
运维
市场

每个 Agent 专注自己擅长的领域。

你保持高度专注和完全控制。

下一代创业者不会再雇 10 人团队去完成一个人配合合适系统就能完成的事情。

他们会这样构建公司——保持精简、快速迭代、每日发布。

现在充斥着大量 AI 生成的垃圾内容。

关于 Agent 和“任务控制台”的炒作很多，但没有真正落地的成果。

花哨演示，没有现实价值。

我想做相反的事：

少炒作，多记录真实业务构建过程。

真实客户。

真实收入。

真实上线的 commit。

也包括真实的损失。

我在做什么？

Agentic PR——

一个一人公司，对抗企业级 PR 机构。

用 Agent 帮助创业公司获得媒体曝光，而无需每月 $10,000 的服务费。

如果你想看我能走多远，继续关注。