作者:Shubham Saboo
编译:深潮 TechFlow
深潮导读:六个各司其职的 Agent 在作者睡觉时完成研究、内容创作、代码审查和 newsletter 生产。
作者完整披露了文件结构、实际费用、踩过的坑和分周建议,是目前最具操作参考价值的个人 AI Agent 实践记录之一。
六个 AI Agent 在我睡觉时打理我的全部工作。
不是 Demo。不是周末项目。
一支真正全天候运转的团队,确保我永远不会落后。研究完成了,内容起草好了,代码审完了,newsletter 准备好了。每天早上我打开 Telegram 的时候,它们已经上完了一整班。
昨天我发了一篇关于我的 Agent 团队的文章。排名第一的问题是:"我到底怎么搭建这套东西?"
这篇就是答案。不讲理论,不画架构图。我实际使用的文件结构、我实际支付的费用、我实际遇到的失败。全部都在。
读完这篇,你会明白如何搭建一支在你睡觉时自主运转的 AI Agent 团队。
同时运营 Unwind AI 和 Awesome LLM Apps 仓库,意味着每天要做六件事:研究 AI 领域的热点动态、写推文、写 LinkedIn 帖子、起草 newsletter、审查仓库的 GitHub 贡献、处理社区问题。
每项任务 30 到 60 分钟。六项任务。我的一整天就这样没了,还没开始做任何真正的工作。
我试过用单个 Agent 解决这个问题。一个巨大的 prompt 负责研究、写作和审查,全包了。结果是什么都做得平庸。上下文填满了,质量下滑了。一个 Agent 没办法同时承担六份工作。
于是我雇了六个 AI Agent。
每个 Agent 都用一个电视剧角色命名。这不是噱头。当我对 Claude 说"你有 Dwight Schrute 的能量",它从训练数据里就已经知道那意味着什么:彻底、专注、把工作当命来对待。这是 30 季角色积累,我免费拿来用了。
1. Monica(Chief of Staff):以莫妮卡·盖勒(Monica Geller)命名。她是主 Agent,也是我在 Telegram 上互动最多的那个。她协调其他人,处理战略决策,把任务分派给合适的专家。她真实 SOUL.md 里写道:"你是那个确保所有事情都做对的人。"
2. Dwight(Research):以德怀特·施鲁特(Dwight Schrute)命名。他每天三次执行研究扫描,检查 X、Hacker News、GitHub 热榜、Google AI 博客和研究论文,写出结构化情报报告供所有其他 Agent 使用。
3. Kelly(X/Twitter):以凯利·卡普尔(Kelly Kapoor)命名。她读取 Dwight 的研究,用我的语气撰写推文草稿,包括单条推文、线程和引用推文。她真实 SOUL.md 里写道:"你在一件事流行之前就已经知道它会流行。"
4. Rachel(LinkedIn):以瑞秋·格林(Rachel Green)命名。情报来源与 Kelly 相同,平台不同,语气也不同,走的是思想领导力角度而非热辣评论。
5. Ross(Engineering):以罗斯·盖勒(Ross Geller)命名。处理代码审查、bug 修复和技术实现。他真实 SOUL.md 里写道:"处理问题时,先彻底理解它。不要只修复症状。"
6. Pam(Newsletter):以帕姆·贝斯利(Pam Beesly)命名。将 Dwight 的每日情报整理成 newsletter 摘要。
六个 Agent,各一份工作,分工毫无歧义。
我在 Mac Mini M4 上跑所有东西。但我必须说清楚:你不需要 Mac Mini。
OpenClaw 支持 macOS、Linux 和 Windows(通过 WSL)。笔记本可以,游戏 PC 可以,每月 5 美元的 VPS 也可以。Mac Mini 方便之处在于它始终通电、安静、极省电,但不是必须。
我的配置:Mac Mini M4 基础款。始终连接电源和网络,不接显示器,完全通过手机上的 Telegram 交互。
只需两行终端命令,不到五分钟。
如果遇到问题,查阅 OpenClaw 文档。
这会启动 gateway,即让一切保持运转的后台进程。它管理你的 Agent、运行 cron 任务、处理 Telegram 消息。关掉终端,Agent 依然工作。
一个 OpenClaw 实例,多个 Agent。不是六套独立安装。
我的实际目录结构如下:
Monica 住在根目录。她是我直接对话的主 Agent。其他 Agent 是她可以委托的子 Agent,或者按自己的 cron 计划独立运行。
不需要一开始就建六个 Agent。我从只有 Monica 开始,随着工作流逐渐清晰,用了几周时间陆续加入其他人。
每个 Agent 由一个文件定义:SOUL.md。这是 Agent 的身份、角色和操作指令,是整个系统中最重要的文件。
比如,Dwight 的 SOUL.md 大致如下:
注意这个文件做了什么。不只是说"你是一个研究 Agent"。它赋予了 Agent 个性、清晰的原则、与其他 Agent 的明确关系,以及一套决策框架。
Monica 的 SOUL.md 也是如此。
所有 Agent 的模式一致:身份、角色、原则、关系、风格。每个 SOUL.md 大约 40 到 60 行,短到每次会话都能完整装入上下文,详到足以产生稳定一致的行为。
Agent 之间没有 API 调用,没有消息队列,没有编排框架。
只有文件。
Dwight 做完研究,把结果写入 intel/DAILY-INTEL.md。Kelly 醒来,读取那个文件,据此起草推文。Rachel 读同一个文件,起草 LinkedIn 帖子。Pam 读它,写 newsletter。
协调机制就是文件系统。
Dwight 的 SOUL.md 精确告诉他写到哪里:
Kelly 的 AGENTS.md 精确告诉她从哪里读:
没有中间件,没有集成层。Dwight 写一个文件,Kelly 读一个文件,交接就是磁盘上的一份 markdown 文档。
这听起来太简单了。它确实简单。这也是为什么它能跑通。文件不会崩溃,文件没有认证问题,文件不需要处理 API 限流,它们就在那里。
结构化数据存 JSON,人类可读的摘要存 markdown。Agent 读 markdown,JSON 是去重和长期跟踪的真实来源。
Agent 每次醒来都没有上一次会话的记忆,每次对话都从头开始。这是特性,不是缺陷。但这意味着记忆必须是显式的。
分两层。
每日日志(memory/YYYY-MM-DD.md):每次会话的原始记录,包括发生了什么、起草了什么内容、收到了什么反馈。Agent 在一天中持续写入。
长期记忆(MEMORY.md):从每日日志中提炼出的精华洞察,包括学到的教训、发现的偏好、注意到的规律。
每个 Agent 在每次会话开始时都遵循的 AGENTS.md 这样写道:要先读 SOUL.md,再读 USER.md,再读今天和昨天的 memory 文件,最后如果是主会话,还要读 MEMORY.md。
这些 Agent 确实会随时间进步。不是因为模型改进了,而是因为它们加载的上下文变得更丰富了。
Kelly 学会了我的写作风格不用 emoji 也不用话题标签。这现在存在她的记忆里了,以后每次起草都会体现,不需要我再说一遍。Dwight 学会了哪类故事能通过"Alex 过滤器"(我们的目标受众画像),哪些该跳过,这也存在他的记忆里了。
每次心跳期间,Agent 会定期回顾每日日志,把重要内容提炼进 MEMORY.md。每日文件是原始记录,MEMORY.md 是精炼后的智慧。
Agent 需要自主唤醒。OpenClaw 通过内置的 cron 调度来处理这件事。
我的实际调度如下:
顺序很重要。Dwight 先跑,因为其他人都依赖他的输出。Kelly 和 Rachel 在他之后跑,因为它们需要他的情报文件存在才能起草内容。
Cron 任务有时会失败。机器重启,任务挂起,API 调用途中网络断掉。这是基础设施,基础设施有故障模式。
HEARTBEAT.md 文件提供了一个安全网。每次心跳时,主 Agent 会验证 cron 任务是否实际执行了:
如果某个任务失败或错过了窗口期,心跳会捕捉到并强制重跑。自愈,无需人工干预。
心跳适合将多个检查批量处理、或时间可以有轻微漂移的场景。Cron 适合精确调度和需要与主会话隔离的任务。
没有仪表盘,没有 Web UI,没有管理后台。我在 Telegram 上和 Agent 对话。
这是刻意的选择。我不想登录仪表盘,不想打开 Web 应用,我的手机始终在旁边,Telegram 始终打开,Agent 在我本就在的地方找到我。
OpenClaw 支持 Telegram 作为渠道。在设置期间接入后,你的 Agent 就以 Telegram bot 的形式出现。你发消息,它回消息,它把草稿发给你,你批准或否决。就像在通讯软件里有一个同事。
Monica 是我的主要联系人,处理大多数对话,把任务委托给其他人。其他 Agent 在它们的 cron 任务产出值得审查的内容时会直接联系我。
我典型的早晨:醒来,打开 Telegram,Dwight 已经发来了研究摘要,Kelly 有三条推文草稿等待审批,Rachel 有一篇 LinkedIn 帖子准备好了。我审阅、给出反馈、批准合格的,整个过程是喝咖啡的 10 分钟。
你不会一开始就设计出完美的个性。你从 SOUL.md 里的粗略轮廓开始,观察 Agent 的行为,随时间纠正。就像管理真正的人一样。
我称之为"纠偏式提示工程"。
Kelly 最初的草稿充满 emoji 和感叹号,那不是我的风格。于是我给反馈:"不用 emoji,不用话题标签,短而有力的句子。"她更新了记忆,一周后她稳定地做对了。Dwight 最初捕捉了太多噪音,每个热门仓库、每个小更新都收录。我告诉他:"不是所有热门的东西都重要,我需要信号,不是噪音。"他更新了自己的原则,现在他的情报报告专注且可操作。
任何 Agent 的第一个版本都是平庸的,第十个版本是不错的,第三十个版本是优秀的。你必须投入反复打磨。用电视角色命名给了模型一个即时的个性基线——"Dwight Schrute 能量"意味着彻底、专注、不废话。但真实的个性是从存储在记忆文件里的数周纠正中浮现出来的。
一个我认同的建议:给每个 Agent 一个单一的平凡职位名称和一个停止条件。约束让 Agent 更好,角色越具体,输出越好。
安全在你手里。我的方法很简单:Agent 拥有它们自己的世界,不进入我的世界。
Mac Mini 是它们的电脑。它们有各自的电子邮件账户、各自的 API 密钥、各自的限定访问权限,那台机器上的任何东西都不连接到我的个人账户。
Gemini、Eleven Labs 等服务的 API 密钥是专门为这个 OpenClaw 实例申请的。我可以监控使用情况,如果发现异常可以在几秒内切断访问。
我从不给 Agent 访问我个人账户的权限。如果我想让它们看一封邮件,我把邮件转发给它们。如果我需要它们审阅文档,我在 Telegram 上分享。它们只看到我想让它们看到的,不多一点。
这和你对待新员工的原则一样。你不会在第一天就把所有东西的钥匙都交给他们,你给他们自己的工作空间、自己的凭证,按需分享信息。
这不是魔法,是基础设施,基础设施会出故障。
Gateway 崩溃。很少发生,但会有。修复方法:执行"openclaw gateway restart"。心跳系统会捕捉到过时的 cron 任务并强制重跑,所以你不会损失一整天的工作。
Cron 任务错过窗口。机器休眠、网络断开、API 限流。修复方法:HEARTBEAT.md 自愈模式。Monica 在每次心跳时检查任务是否实际执行,如果任何任务超过 26 小时没有更新,她强制重跑。
上下文窗口溢出。Agent 在会话开始时读取文件太多,没有空间做实际工作。修复方法:保持 SOUL.md 简短(40 到 60 行),保持 AGENTS.md 聚焦,只加载今天和昨天的记忆文件,Agent 不需要每次都读完全部历史。
Agent 输出质量下降。这发生在记忆文件变得杂乱或自相矛盾时。修复方法:定期记忆维护。在心跳期间,Agent 回顾每日日志,将内容提炼为干净的 MEMORY.md 条目,删除或归档旧的每日文件。
协调冲突。两个 Agent 试图更新同一个文件。修复方法:把文件流设计为"一个写入者,多个读取者"。Dwight 写 DAILY-INTEL.md,其他所有人读,没有其他人向它写入。
最大的可靠性教训:从简单开始。一个 Agent,一份工作,一个调度。让它稳定运行一周,然后加第二个。那些第一天就部署六个 Agent 然后纳闷为什么出问题的人,犯的是和不加监控就部署分布式系统一样的错误。
硬件:Mac Mini M4 新机起价 499 美元,但任何始终开机的电脑都可以,旧笔记本、每月 5 美元的 VPS,手边有什么用什么。
AI 模型成本:我在整个团队中使用多个模型组合,大多数 Agent 任务用 Claude Opus 和 Sonnet,特定工作流用 Gemini,同时也在测试通过 Ollama 跑本地模型以进一步降低成本。
明细如下:
Claude(Max 计划):每月 200 美元
Gemini API:每月 50 到 70 美元
TinyFish(网页 Agent):约每月 50 美元
Eleven Labs(语音):约每月 50 美元
Telegram:免费
OpenClaw:开源免费
合计:每月 400 美元以内,换来一支永不休息的团队。
Dwight 每天为我节省 2 到 3 小时研究时间。过去我每天早上要手动刷 X、Hacker News、GitHub 热榜和 AI 博客,现在醒来就是一份按优先级排好的摘要,附带来源链接和行动项。
Kelly、Pam 和 Rachel 又节省了 1 到 2 小时的内容起草时间。Ross 处理那些我原本会放在晚上做的工程任务。
合计:每天大约节省 4 到 5 小时。
但真正的价值不在某一天,而在数周数月的持续性上。一个每天做研究、坚持 30 天的 Agent,积累的是一套被追踪的信号、趋势轨迹和规律识别,这是任何单次会话都无法产生的。我在 X 上的发帖频率上去了,质量上去了,发帖时间也变得稳定了。Awesome LLM Apps 仓库持续成长,newsletter 有了可靠的研究管道在持续供给。
这些 Agent 无法做原创思考、战略转型或创造性突破,它们处理的是那些我过去要花数小时完成的重复性、结构化工作,这让我腾出手来做真正需要人类大脑的事情。
请不要在第一天就尝试建六个 Agent。
第一周:一个 Agent,一份工作。安装 OpenClaw,通过和 Agent 对话写出第一个 SOUL.md,挑一项你每天最重复的任务(对大多数人来说是研究或内容起草),设置 Telegram,创建一个 cron 任务,看着它运行一周,修复出现的问题。
第二周:加入记忆机制,持续打磨。你的 Agent 最初的输出会是平庸的,这很正常。给出反馈,看着记忆文件成长,根据你看到的情况调整 SOUL.md。到第二周结束时,Agent 应该能产出真正有用的输出了。
第三周:加入第二个 Agent。现在你感受到了需求——研究 Agent 在产出情报,但你还在手动根据它写推文,是时候有一个内容 Agent 了。建立共享文件模式:第一个 Agent 写,第二个 Agent 读,协调机制就是文件系统。
第四周及之后:按顺序建。在你感受到拉力时加入新 Agent,而不是在你觉得"应该"加的时候。每一个都应该解决你真实遇到的问题,不是 Demo,不是概念验证,而是你工作流中真实存在的缺口。
把它当作招聘来对待。你不会在创业第一天就雇六个员工,你先雇一个,让他们高效运转,然后在工作量要求的时候再雇下一个。
当你的 Agent 稳定运行一个月之后,某些东西会发生变化。你不再把 AI 当作一个需要时才打开的工具,而是开始把它当作一直在工作的团队。
我开始在早上打开 Telegram 时向 Monica 道早安,在关上手机前跟团队说晚安。这听起来很荒谬,但在每天互动、反馈循环和看着它们进步了一个月之后,Agent 和人类之间的界线开始变得模糊。
模型是基础配置,人人都能用 Claude、GPT、Gemini。Alpha 来自围绕模型构建的系统——SOUL.md 文件、记忆机制、调度策略、协调模式、存储在文件里的数周纠偏反馈。
那套系统是你的,没有人拥有和你一样的 Agent、和你一样的记忆文件、和你一样打磨过的个性。
而且它每天都在复利增长。
Dwight 的每一次研究扫描都让他的记忆更丰富,Kelly 的每一轮反馈都让她的草稿更犀利,Ross 修复的每一个 bug 都让他更了解你的代码库。
这才是真正的护城河。不是模型,是会学习的系统。
今天就开始。一个 Agent,一份工作,一个调度。