作者分享了一套基于 OpenClaw 的 Agent 编排系统,将 Codex、Claude Code、Gemini 等模型组成“多智能体开发舰队”,由本地编排器 Zoe 统一调度,实现从需求到 PR 的全自动闭环。
文章作者:@elvissun
文章来源:X 平台
我现在已经不再直接使用 Codex 或 Claude Code 了。
我使用 OpenClaw 作为我的编排层。我的编排器 Zoe 会负责生成子 Agent、撰写它们的 Prompt、为不同任务选择最合适的模型、监控进度,并在 PR 可以合并时通过 Telegram 通知我。
过去 4 周的数据:
- 单日 94 次 commit。这是我效率最高的一天——那天我有 3 个客户电话,甚至没有打开编辑器。平均每天大约 50 次 commit。
- 30 分钟内 7 个 PR。从想法到生产环境几乎是闪电般速度,因为编码与验证基本都已自动化。
- Commits → MRR:我将这套系统用于真实的 B2B SaaS 产品开发,配合创始人主导销售,实现当天交付大多数功能需求。速度直接转化为付费客户。

对比:
1 月之前:只用 Claude Code/Codex
1 月之后:OpenClaw 编排 Claude Code/Codex
现在我的 Git 历史看起来像是刚雇了一支开发团队。
实际上只是我从“管理 Claude Code”,升级成“管理一个 OpenClaw Agent,而这个 Agent 再管理一整支 Claude Code 和 Codex Agent 舰队”。
成功率:
几乎所有中小型任务都能一次完成,无需人工干预。
成本:
Claude 约 $100/月,Codex 约 $90/月,入门可从 $20 起步。
为什么这比直接使用 Codex 或 Claude Code 更有效?
Codex 和 Claude Code 几乎不了解你的业务。
它们看到的是代码,而不是业务全局。
OpenClaw 改变了这个逻辑。
它是你与所有 Agent 之间的编排层——它在我的 Obsidian Vault 中保存完整业务上下文(客户数据、会议纪要、历史决策、成功经验与失败教训),并将这些历史背景转化为精准 Prompt 给每个编码 Agent。

编码 Agent 专注代码。
编排器负责战略。
高层架构
上周 Stripe 发布了他们的后台 Agent 系统“Minions”——并行编码 Agent + 中央编排层。
我无意间做出了类似系统,只不过运行在我的 Mac mini 本地。
为什么必须有 Agent 编排器?
上下文窗口是零和的。
你必须选择填什么:
用代码填满它 → 没有空间容纳业务背景信息。用客户历史信息填满它 → 没有空间留给代码库。这就是双层系统能够发挥作用的原因:每个 AI 都仅装载了其所需的具体内容。

完整 8 步工作流
下面是真实案例流程。
Step 1:客户需求 → 与 Zoe 共同拆解
客户希望团队复用已有配置。
会议结束后,我和 Zoe 讨论需求。
因为会议记录自动同步到 Obsidian Vault,我无需解释背景。我们一起探讨了这个功能,并找到了一个模板系统,允许他们保存和编辑现有的配置。
Zoe 做三件事:
- 通过 Admin API 为客户补充额度
- 从生产数据库读取客户配置(只读权限,Codex Agent 永远不会拥有此权限)
- 启动 Codex Agent,并附带完整上下文 Prompt
Step 2:启动 Agent
每个 Agent 拥有独立 worktree 和 tmux 会话。


使用 tmux 的好处是可以中途干预,而不必关闭进程。



任务状态记录在 JSON 注册表中。
Step 3:自动监控循环
每 10 分钟 cron 执行一次:

- 检查 tmux 会话是否存在
- 检查 PR 状态
- 检查 CI
- 最多自动重试 3 次
- 只在需要人工干预时通知我。
Step 4:Agent 创建 PR
产出一个 PR 并不是结束。
完整的完成标准包括:
- PR 创建
- 无冲突
- CI 通过
- Codex 审查通过
- Claude 审查通过
- Gemini 审查通过
- 若涉及 UI 必须附截图
Step 5:三模型代码审查
每个 PR 都会经过三种人工智能模型的审核。它们能捕捉到不同的信息
- Codex:逻辑与边界处理最强
- Gemini:安全与扩展性优秀
- Claude:偏谨慎,通常忽略非关键建议
Step 6:自动化测试
我们的 CI 管道运行大量的自动化测试:
Lint 和 TypeScript 检查-单元测试-E2E 测试-针对预览环境的剧作家测试(与 prod 相同)
上周我添加了一条新规则:如果公关更改任何用户界面,它必须在公关描述中包含屏幕截图。否则 CI 将失败。这大大缩短了审查时间,我无需点击预览即可准确看到更改的内容。
Step 7:人工审核
当三模型通过 + CI 通过后,Telegram 将会通知我。
我只需 5-10 分钟审核。
很多 PR 我甚至不读代码,只看截图。
Step 8:合并
每日 cron 会清理独立的工作树和任务注册表。
Ralph Loop V2
本质上,这是 Ralph Loop 的升级版。
传统 Ralph Loop 会从记忆中提取上下文,生成输出,评估结果,并保存学习成果。但大多数实现方式在每一轮循环中使用的是相同的 Prompt。提炼出的经验确实会改善未来的检索效果,但 Prompt 本身是静态不变的。
我们的系统不同。
当某个 Agent 失败时,Zoe 不会用相同的 Prompt 简单重启它。她会结合完整的业务上下文分析失败原因,并找出如何解除阻塞:
Agent 上下文不足?
“只专注这三个文件。”
Agent 走错方向?
“停。客户想要的是 X,不是 Y。这是他们在会议中说的话。”
Agent 需要澄清?
“这是客户的邮件,以及他们公司的业务介绍。”
Zoe 会一路陪跑,直到任务完成。她拥有 Agent 不具备的上下文——客户历史、会议纪要、过去尝试过什么、为什么失败。她利用这些信息,在每一次重试时写出更精准的 Prompt。
但她不会等我分配任务。
她会主动寻找工作:
早上:扫描 Sentry → 发现 4 个新错误 → 启动 4 个 Agent 调查修复
会议后:扫描会议纪要 → 标记出 3 个客户提到的新功能 → 启动 3 个 Codex Agent
晚上:扫描 Git 日志 → 启动 Claude Code 更新 changelog 和客户文档
我在客户电话后去散步。回来打开 Telegram:
“7 个 PR 已准备好审核。3 个新功能,4 个 Bug 修复。”
当 Agent 成功时,成功模式会被记录:
“这种 Prompt 结构适用于计费功能。”
“Codex 需要提前提供类型定义。”
“一定要包含测试文件路径。”
奖励信号包括:
- CI 通过
- 三个 AI 审查全部通过
- 人工合并
任何失败都会触发循环。
随着时间推移,Zoe 会因为记住了“什么成功上线”而写出越来越好的 Prompt。
选择正确的 Agent
并不是所有编码 Agent 都一样。
简要参考:
Codex 是我的主力。
后端逻辑、复杂 Bug、多文件重构、需要跨代码库推理的任务。它较慢,但非常全面。我 90% 的任务都交给它。
Claude Code 更快,且更擅长前端开发。权限问题更少,非常适合 Git 操作。(我以前更多使用它驱动日常开发,但现在 Codex 5.3 更强更快。)
Gemini 拥有不同的优势——设计感。
做漂亮 UI 时,我会先让 Gemini 生成 HTML/CSS 规范,再交给 Claude Code 在组件系统中实现。Gemini 负责设计,Claude 负责构建。
Zoe 会为每个任务选择合适的 Agent,并在它们之间路由输出:
- 计费系统 Bug → Codex
- 按钮样式修复 → Claude Code
- 新仪表盘设计 → 先 Gemini
如何搭建这套系统
把整篇文章复制到 OpenClaw,然后告诉它:
“为我的代码库实现这个 Agent Swarm 架构。”
它会读取架构说明,创建脚本,建立目录结构,配置 cron 监控。
10 分钟完成。
没有课程卖给你。
意想不到的瓶颈
我现在遇到的天花板是:内存。
每个 Agent 需要独立 worktree。
每个 worktree 需要独立 node_modules。
每个 Agent 都要运行构建、类型检查和测试。
五个 Agent 同时运行,意味着:
- 五个并行的 TypeScript 编译器
- 五个测试运行器
- 五套依赖加载到内存
我的 16GB Mac Mini 最多只能跑 4-5 个 Agent,再多就开始内存交换。而且还要祈祷它们不要同时构建。
因此我购买了一台 Mac Studio M4 Max,128GB RAM($3,500)专门运行这套系统。三月底到货,我会分享是否值得。
下一步:一人百万美元公司
2026 年,我们会看到大量“一人百万美元公司”。
对于那些理解如何构建可递归自我改进 Agent 的人来说,杠杆巨大。
它看起来是这样的:
一个 AI 编排器作为你的延伸(就像 Zoe 之于我),
将工作分派给专门的 Agent:
- 工程
- 客户支持
- 运维
- 市场
每个 Agent 专注自己擅长的领域。
你保持高度专注和完全控制。
下一代创业者不会再雇 10 人团队去完成一个人配合合适系统就能完成的事情。
他们会这样构建公司——保持精简、快速迭代、每日发布。
现在充斥着大量 AI 生成的垃圾内容。
关于 Agent 和“任务控制台”的炒作很多,但没有真正落地的成果。
花哨演示,没有现实价值。
我想做相反的事:
少炒作,多记录真实业务构建过程。
真实客户。
真实收入。
真实上线的 commit。
也包括真实的损失。
我在做什么?
Agentic PR——
一个一人公司,对抗企业级 PR 机构。
用 Agent 帮助创业公司获得媒体曝光,而无需每月 $10,000 的服务费。
如果你想看我能走多远,继续关注。




