OpenClaw + Codex/Claude Code Agent Swarm:一人开发团队的完整搭建方案

作者分享了一套基于 OpenClaw 的 Agent 编排系统,将 Codex、Claude Code、Gemini 等模型组成“多智能体开发舰队”,由本地编排器 Zoe 统一调度,实现从需求到 PR 的全自动闭环。

文章作者:@elvissun

文章来源:X 平台

我现在已经不再直接使用 Codex 或 Claude Code 了。

我使用 OpenClaw 作为我的编排层。我的编排器 Zoe 会负责生成子 Agent、撰写它们的 Prompt、为不同任务选择最合适的模型、监控进度,并在 PR 可以合并时通过 Telegram 通知我。

过去 4 周的数据:

  • 单日 94 次 commit。这是我效率最高的一天——那天我有 3 个客户电话,甚至没有打开编辑器。平均每天大约 50 次 commit。
  • 30 分钟内 7 个 PR。从想法到生产环境几乎是闪电般速度,因为编码与验证基本都已自动化。
  • Commits → MRR:我将这套系统用于真实的 B2B SaaS 产品开发,配合创始人主导销售,实现当天交付大多数功能需求。速度直接转化为付费客户。

对比:

1 月之前:只用 Claude Code/Codex

1 月之后:OpenClaw 编排 Claude Code/Codex

现在我的 Git 历史看起来像是刚雇了一支开发团队。

实际上只是我从“管理 Claude Code”,升级成“管理一个 OpenClaw Agent,而这个 Agent 再管理一整支 Claude Code 和 Codex Agent 舰队”。

成功率:

几乎所有中小型任务都能一次完成,无需人工干预。

成本:

Claude 约 $100/月,Codex 约 $90/月,入门可从 $20 起步。

为什么这比直接使用 Codex 或 Claude Code 更有效?

Codex 和 Claude Code 几乎不了解你的业务。

它们看到的是代码,而不是业务全局。

OpenClaw 改变了这个逻辑。

它是你与所有 Agent 之间的编排层——它在我的 Obsidian Vault 中保存完整业务上下文(客户数据、会议纪要、历史决策、成功经验与失败教训),并将这些历史背景转化为精准 Prompt 给每个编码 Agent。

编码 Agent 专注代码。

编排器负责战略。

高层架构

上周 Stripe 发布了他们的后台 Agent 系统“Minions”——并行编码 Agent + 中央编排层。

我无意间做出了类似系统,只不过运行在我的 Mac mini 本地。

为什么必须有 Agent 编排器?

上下文窗口是零和的。

你必须选择填什么:

用代码填满它 → 没有空间容纳业务背景信息。用客户历史信息填满它 → 没有空间留给代码库。这就是双层系统能够发挥作用的原因:每个 AI 都仅装载了其所需的具体内容。

完整 8 步工作流

下面是真实案例流程。

Step 1:客户需求 → 与 Zoe 共同拆解

客户希望团队复用已有配置。

会议结束后,我和 Zoe 讨论需求。

因为会议记录自动同步到 Obsidian Vault,我无需解释背景。我们一起探讨了这个功能,并找到了一个模板系统,允许他们保存和编辑现有的配置。

Zoe 做三件事:

  • 通过 Admin API 为客户补充额度
  • 从生产数据库读取客户配置(只读权限,Codex Agent 永远不会拥有此权限)
  • 启动 Codex Agent,并附带完整上下文 Prompt

Step 2:启动 Agent

每个 Agent 拥有独立 worktree 和 tmux 会话。

使用 tmux 的好处是可以中途干预,而不必关闭进程。

任务状态记录在 JSON 注册表中。

Step 3:自动监控循环

每 10 分钟 cron 执行一次:

  • 检查 tmux 会话是否存在
  • 检查 PR 状态
  • 检查 CI
  • 最多自动重试 3 次
  • 只在需要人工干预时通知我。

Step 4:Agent 创建 PR

产出一个 PR 并不是结束。

完整的完成标准包括:

  • PR 创建
  • 无冲突
  • CI 通过
  • Codex 审查通过
  • Claude 审查通过
  • Gemini 审查通过
  • 若涉及 UI 必须附截图

Step 5:三模型代码审查

每个 PR 都会经过三种人工智能模型的审核。它们能捕捉到不同的信息

  • Codex:逻辑与边界处理最强
  • Gemini:安全与扩展性优秀
  • Claude:偏谨慎,通常忽略非关键建议

Step 6:自动化测试

我们的 CI 管道运行大量的自动化测试:

Lint 和 TypeScript 检查-单元测试-E2E 测试-针对预览环境的剧作家测试(与 prod 相同)

上周我添加了一条新规则:如果公关更改任何用户界面,它必须在公关描述中包含屏幕截图。否则 CI 将失败。这大大缩短了审查时间,我无需点击预览即可准确看到更改的内容。

Step 7:人工审核

当三模型通过 + CI 通过后,Telegram 将会通知我。

我只需 5-10 分钟审核。

很多 PR 我甚至不读代码,只看截图。

Step 8:合并

每日 cron 会清理独立的工作树和任务注册表。

Ralph Loop V2

本质上,这是 Ralph Loop 的升级版。

传统 Ralph Loop 会从记忆中提取上下文,生成输出,评估结果,并保存学习成果。但大多数实现方式在每一轮循环中使用的是相同的 Prompt。提炼出的经验确实会改善未来的检索效果,但 Prompt 本身是静态不变的。

我们的系统不同。

当某个 Agent 失败时,Zoe 不会用相同的 Prompt 简单重启它。她会结合完整的业务上下文分析失败原因,并找出如何解除阻塞:

Agent 上下文不足?

“只专注这三个文件。”

Agent 走错方向?

“停。客户想要的是 X,不是 Y。这是他们在会议中说的话。”

Agent 需要澄清?

“这是客户的邮件,以及他们公司的业务介绍。”

Zoe 会一路陪跑,直到任务完成。她拥有 Agent 不具备的上下文——客户历史、会议纪要、过去尝试过什么、为什么失败。她利用这些信息,在每一次重试时写出更精准的 Prompt。

但她不会等我分配任务。

她会主动寻找工作:

早上:扫描 Sentry → 发现 4 个新错误 → 启动 4 个 Agent 调查修复

会议后:扫描会议纪要 → 标记出 3 个客户提到的新功能 → 启动 3 个 Codex Agent

晚上:扫描 Git 日志 → 启动 Claude Code 更新 changelog 和客户文档

我在客户电话后去散步。回来打开 Telegram:

“7 个 PR 已准备好审核。3 个新功能,4 个 Bug 修复。”

当 Agent 成功时,成功模式会被记录:

“这种 Prompt 结构适用于计费功能。”

“Codex 需要提前提供类型定义。”

“一定要包含测试文件路径。”

奖励信号包括:

  • CI 通过
  • 三个 AI 审查全部通过
  • 人工合并

任何失败都会触发循环。

随着时间推移,Zoe 会因为记住了“什么成功上线”而写出越来越好的 Prompt。

选择正确的 Agent

并不是所有编码 Agent 都一样。

简要参考:

Codex 是我的主力。

后端逻辑、复杂 Bug、多文件重构、需要跨代码库推理的任务。它较慢,但非常全面。我 90% 的任务都交给它。

Claude Code 更快,且更擅长前端开发。权限问题更少,非常适合 Git 操作。(我以前更多使用它驱动日常开发,但现在 Codex 5.3 更强更快。)

Gemini 拥有不同的优势——设计感。

做漂亮 UI 时,我会先让 Gemini 生成 HTML/CSS 规范,再交给 Claude Code 在组件系统中实现。Gemini 负责设计,Claude 负责构建。

Zoe 会为每个任务选择合适的 Agent,并在它们之间路由输出:

  • 计费系统 Bug → Codex
  • 按钮样式修复 → Claude Code
  • 新仪表盘设计 → 先 Gemini

如何搭建这套系统

把整篇文章复制到 OpenClaw,然后告诉它:

“为我的代码库实现这个 Agent Swarm 架构。”

它会读取架构说明,创建脚本,建立目录结构,配置 cron 监控。

10 分钟完成。

没有课程卖给你。

意想不到的瓶颈

我现在遇到的天花板是:内存。

每个 Agent 需要独立 worktree。

每个 worktree 需要独立 node_modules。

每个 Agent 都要运行构建、类型检查和测试。

五个 Agent 同时运行,意味着:

  • 五个并行的 TypeScript 编译器
  • 五个测试运行器
  • 五套依赖加载到内存

我的 16GB Mac Mini 最多只能跑 4-5 个 Agent,再多就开始内存交换。而且还要祈祷它们不要同时构建。

因此我购买了一台 Mac Studio M4 Max,128GB RAM($3,500)专门运行这套系统。三月底到货,我会分享是否值得。

下一步:一人百万美元公司

2026 年,我们会看到大量“一人百万美元公司”。

对于那些理解如何构建可递归自我改进 Agent 的人来说,杠杆巨大。

它看起来是这样的:

一个 AI 编排器作为你的延伸(就像 Zoe 之于我),

将工作分派给专门的 Agent:

  • 工程
  • 客户支持
  • 运维
  • 市场

每个 Agent 专注自己擅长的领域。

你保持高度专注和完全控制。

下一代创业者不会再雇 10 人团队去完成一个人配合合适系统就能完成的事情。

他们会这样构建公司——保持精简、快速迭代、每日发布。

现在充斥着大量 AI 生成的垃圾内容。

关于 Agent 和“任务控制台”的炒作很多,但没有真正落地的成果。

花哨演示,没有现实价值。

我想做相反的事:

少炒作,多记录真实业务构建过程。

真实客户。

真实收入。

真实上线的 commit。

也包括真实的损失。

我在做什么?

Agentic PR——

一个一人公司,对抗企业级 PR 机构。

用 Agent 帮助创业公司获得媒体曝光,而无需每月 $10,000 的服务费。

如果你想看我能走多远,继续关注。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论