6. Meta-Meta-Prompting: The Secret to Making AI Agents Work

6. Meta-Meta-Prompting: The Secret to Making AI Agents Work

大家一直问我,为什么我晚上还要熬夜 coding 到凌晨 2 点。我有一份正经工作,而且是份大工作——作为 Y Combinator 的 CEO,我们每年帮助数千名创业者实现梦想,打造真正有收入、快速增长的初创公司。

过去 5 个月,AI 让我重新变成了一个 Builder。去年年底,工具已经足够强大,我又开始动手造东西了。不是玩具项目,而是真正能复利的系统。我想用具体例子向你展示,当你不再把个人 AI 当成聊天窗口,而是当成操作系统来对待时,它到底是什么样子。我把这些东西开源、写成文章,就是希望你能和我一起加速前进。

这是系列文章的一部分:《Fat Skills, Fat Code, Thin Harness》介绍了核心架构;《Resolvers》讲了智能路由表;《The LOC Controversy》讨论了每个技术人员如何把自己放大 100 倍到 1000 倍;《Naked models are stupider》论证了模型只是引擎,不是整辆车;而《The skillify manifesto》则解释了为什么 LangChain 融资 1.6 亿美元,却只给了你一个深蹲架和哑铃,却没有健身计划——然后我把那套健身计划送给了你。

那本“读我”的书

上个月我在读 Pema Chödrön 的《When Things Fall Apart》。全书 162 页,22 章,讲的是佛教如何面对痛苦、无常和放下。一位朋友在我艰难时期推荐给我。

我让我的 AI 做了一次“Book Mirror”(书镜)。

具体来说:系统先提取了全书 22 章内容,然后为每一章启动一个子 Agent,同时做两件事——总结作者的想法,并把每个想法映射到我真实的生活中。不是那种泛泛的“对领导者适用”的空话,而是具体的映射。它知道我的家庭背景(移民父母,父亲来自香港和新加坡,母亲来自缅甸),知道我的职业环境(管理 YC、构建开源工具、指导数千名创始人),知道我最近在读什么、凌晨 2 点在想什么,以及我和治疗师正在处理的议题。

输出是一篇 3 万字的 Brain Page。每章都做成两栏:左边是 Pema 说了什么,右边是它如何映射到我正在经历的真实生活。“无常”那一章连上了我前一周和一位创始人聊天的具体对话;“恐惧”那一章映射到治疗师指出的我的行为模式;“放下”那一章引用了我某晚深夜写的关于今年找到的创作自由的笔记。

整个过程只花了大约 40 分钟。一位每小时 300 美元的治疗师读完这本书并应用到我的人生上,可能需要 40 个小时——因为他们没有我完整的职业上下文、阅读历史、会议笔记和创始人关系图谱全部加载并可交叉引用。

我已经用这个方法处理了 20 多本书:《Amplified》(Dion Lim)、《Bertrand Russell 自传》、《Designing Your Life》、《Drama of the Gifted Child》、《Finite and Infinite Games》、《Gift from the Sea》(Lindbergh)、《Siddhartha》(Hesse)、《Steppenwolf》(Hesse)、《The Art of Doing Science and Engineering》(Hamming)、《The Dream Machine》、《The Book on the Taboo Against Knowing Who You Are》(Alan Watts)、《What Do You Care What Other People Think》(Feynman)、《When Things Fall Apart》(Pema Chödrön)、《A Brief History of Everything》(Ken Wilber)等等。每一次都变得更丰富,因为我的 Brain 本身在不断丰富。第二面镜子知道第一面,第 20 面镜子知道前面 19 面。

Book-Mirror 是如何通过迭代变强的

我第一次做的 Book Mirror 很糟糕。版本 1 在我家庭事实上有三个错误:说我父母离婚了(其实没有),说我是在香港长大(其实出生在加拿大)。这些基础错误如果分享出去,会严重损害信任。

于是我加了一个强制的事实检查步骤。现在每个 Mirror 在输出前,都会先用 Brain 中的已知事实进行跨模态评估。Opus 4.7 1M 抓精度错误,GPT-5.5 抓缺失上下文,DeepSeek V4-Pro 抓泛化内容。

然后我升级到带 GBrain 工具使用的深度检索。最初版本合成能力强,但特异性弱。版本 3 会为每个段落做 Brain 搜索。右栏的每一条都引用了真实的 Brain 页面。当书里谈到处理艰难对话时,它不再只是泛泛总结原则,而是直接拉取我与具体创始人关于共同创始人冲突的会议笔记,或是我某周四和弟弟 James 闲聊时的想法,或是我 19 岁时和大学室友的 IM 聊天记录。简直不可思议。

这就是 skillification(在 GBrain 中用 /skillify 命令)的实际含义。我把第一次手动尝试提炼成可重复的模式,写了一个带触发器和边界情况的测试过的技能文件,从此所有后续 Book Mirror 都自动继承了每一次修复。

能创造技能的技能

这里就进入递归了,我觉得这是最大的洞见。

管理我生活的系统并不是一个单体。它是由一个个技能组装起来的,而这些技能本身又是由一个元技能创造的。

Skillify 是一个元技能,它能创造新技能。当我遇到一个即将重复的工作流时,我说“skillify this”,它就会分析刚刚发生的事,提炼可重复模式,写出一个带触发器和边界情况的测试过的技能文件,并注册到 Resolver 里。Book-Mirror 管道就是从第一次手动操作后被 skillify 出来的;Meeting-Prep 工作流也是在我发现每次会议前都在重复相同步骤后被 skillify 的。

技能是可组合的。Book-Mirror 会调用 brain-ops(存储)、enrich(丰富上下文)、cross-modal-eval(质量把关)和 pdf-generation(输出)。每个技能只专注一件事,它们链式组合成复杂工作流。我改进一个技能,所有使用它的工作流都会自动变好。不再有“提示词里忘了提这个边界情况”的问题——技能自己记得。

那场“自己准备好”的会议

Demis Hassabis 来 YC 做炉边谈话,Sebastian Mallaby 关于他的传记刚出版。

我让系统帮我准备。

不到两分钟,它就拉取了:Demis 的完整 Brain Page(几个月来从文章、播客转录和我自己的笔记中不断积累);他关于 AGI 时间线的公开观点(“50% 是 scaling,50% 是 innovation”,认为 AGI 还有 5-10 年);Mallaby 传记的重点;他公开的研究优先级(持续学习、世界模型、长期记忆);以及和我自己公开言论的交叉引用;还有三段演示脚本,准备在对话中展示 Brain 的多跳推理能力;以及基于我们世界观重合与分歧的对话钩子。

这已经不是更好的 Google 搜索了。这是在使用我积累的关于 Demis 的上下文、我自己的立场,以及对话的战略目标来做准备。它准备的不仅是事实,还有角度。

10 万页 Brain 是什么样子

我维护着一个结构化知识库,大约 10 万页。每一个我见过的人都有一个页面,包含时间线、当前状态(什么现在是真实的)、开放线程和评分。每一个会议都有转录、结构化摘要,以及我称之为“实体传播”的东西:会议结束后,系统会遍历提到的每一个人和公司,并用讨论内容更新他们的 Brain Page。每一本书都有逐章镜像。每一篇文章、播客和视频,只要我接触过,都会被摄入、打标签并交叉引用。

schema 很简单。每页顶部是“已编译真相”(当前最佳理解),下面是只追加的时间线(按时间顺序的事件),旁边是原始数据的侧边栏。可以把它想象成一本个人维基百科,每一页都由一个“当时在场、读了邮件、看了演讲、摄入了 PDF”的 AI 持续更新。

这里有一个复利的例子:我在办公室时间见到一位创始人。系统会创建或更新他的个人页、公司页,交叉引用会议笔记,检查我之前是否见过他(并调出上次讨论内容),检查他的申请数据,拉取最新指标,并判断我的投资组合里是否有相关公司或联系人。到我下一次和他见面时,系统已经准备好了一整套上下文包。

这就是文件柜和神经系统的区别。文件柜只是存储,神经系统会连接、标记变化,并把当下最相关的东西推送到你面前。

架构

它的工作原理是这样的。我认为这是构建个人 AI 的正确方式,所以我把整套东西全部开源,你也可以自己造。

Harness(外壳)很薄。OpenClaw 是运行时。它接收我的消息,判断该用哪个技能,然后分发。只有几千行路由逻辑。它对书、会议或创始人一无所知,它只负责路由。

技能很胖。现在已经有 100 多个了,每个都是一个独立的 Markdown 文件,针对一个具体任务给出详细指令。你已经看到上面的 book-mirror 和 meeting-prep。这里再列几个 GBrain 自带的技能:

  • meeting-ingestion:每次会议结束后,拉取转录,生成结构化摘要,然后遍历提到的每一个人和公司,用讨论内容更新他们的 Brain Page。会议页不是最终产品,实体传播回每个人和公司页才是真正价值。
  • enrich:输入一个人名,它从五个不同来源拉取信息,合并成单一 Brain Page,包含职业轨迹、联系方式、会议历史和关系上下文。每条主张都有引用来源。
  • media-ingest:处理视频、音频、PDF、截图、GitHub 仓库。转录、提取实体、归档到正确的 Brain 位置。我经常用它处理 YouTube 视频、播客和语音备忘录。
  • perplexity-research:Brain 增强的网页研究。通过 Perplexity 搜索网页,但在合成前先检查 Brain 已知内容,从而告诉你什么是真正新的、什么是你已经捕获的。 我还有几十个为自己工作定制的技能,以后可能会开源:email-triage(邮件分类)、investor-update-ingest(从邮件中检测投资组合更新并提取指标到公司页)、calendar-check(冲突检测和旅行不可行性检查),以及一整套我用于公民工作的新闻调查栈。每个技能都编码了新的人类助理可能需要几个月才能学会的操作知识。当有人问我怎么“提示”我的 AI 时,答案是:我不用提示。技能就是提示。

数据很胖。Brain 仓库里有 10 万页结构化知识。我接触过的每一个人、公司、会议、书、文章和想法,都被链接起来、可搜索,每天都在增长。

代码也很胖。喂养它的代码(转录脚本、OCR、社交媒体归档、日历同步、API 集成)也很重要,但真正复利价值在数据里。我每天运行 100 多个 cron 任务,检查所有我关注的东西:社交媒体、Slack、邮件……我的 OpenClaw / Hermes Agents 也在为我盯着。

模型是可互换的。我用 Opus 4.7 1M 做精度,GPT-5.5 做回忆和穷尽提取,DeepSeek V4-Pro 做创意和第三方视角,Groq + Llama 做速度。技能决定为哪个任务调用哪个模型。外壳不在乎。当有人问“哪个 AI 模型最好”时,答案是:问错了问题。模型只是引擎,其他一切才是车。

凌晨 2 点的 Builder 和复利系统

人们问我生产力的事。我不是这么想的。我想的是复利。

我参加的每一次会议都在丰富 Brain,我读的每一本书都在为下一本书丰富上下文,我构建的每一个技能都在让下一个工作流更快,我更新的每一个人页都在让下一次会议准备更敏锐。今天这个系统是两个月前的 10 倍,而两个月后它又会再 10 倍。

当我凌晨 2 点还在 coding(我经常这样,因为 AI 让我重新找回了造东西的乐趣)时,我不只是在写软件,我是在给一个每小时都在变好的系统添砖加瓦。100 个 cron 任务 24/7 运行,会议摄入自动执行,邮件分类每 10 分钟跑一次,知识图谱从每一次对话中自我丰富。系统每天处理转录,实时提取我当时没注意到的模式。

这不是写作工具,不是搜索引擎,不是聊天机器人。它是一个真正运转的第二大脑——不是比喻,而是一个拥有 10 万页、100+ 个技能、15 个 cron 任务,以及我过去一年里接触过的每一段职业关系、会议、书和想法的累积上下文的运行系统。

我把整个栈都开源了。GStack 是我用来构建它的编码技能框架(已获 87,000+ 星),我现在还在 OpenClaw / Hermes Agent 里把它当技能用(当 Agent 需要 coding 时)。里面还有一个很棒的可编程浏览器(有头和无头模式)。GBrain 是知识基础设施。OpenClaw 和 Hermes Agent 是外壳,你可以选,但我通常两者都用。数据仓库都在 GitHub 上。

我的论点很简单:未来属于那些构建复利 AI 系统的个人,而不是那些使用企业拥有、中心化 AI 工具的个人。这两者之间的差距,就像记日记和拥有一个神经系统之间的差距。

如何开始

如果你想构建这个系统:

  1. 选一个外壳:OpenClaw、Hermes Agent,或者用 Pi 从零开始自己造。保持它薄,外壳只是路由器。在家里的备用电脑上用 Tailscale 托管,或者用 Render / Railway 云端托管。
  2. 用 GBrain 启动一个 Brain。我受 Karpathy 的 LLM Wiki 启发,在 OpenClaw 里实现,并扩展成 GBrain。它是我测过最好的检索系统(LongMemEval 上 97.6% 召回率,击败 MemPalace,且检索循环中没有 LLM),自带 39 个可安装技能,包括本文描述的所有内容。一条命令安装。每个人的页面、会议、文章、想法都在一个 Git 仓库里。
  3. 做点有趣的事。不要先规划技能架构,先去做一件事。写一份报告,调研一个人,下载一季 NBA 比分并建一个体育投注预测模型,分析你的投资组合……随便你真正关心的事。用你的 Agent 去做,迭代直到变好,然后运行 Skillify(前面提到的元技能)把模式提取成可复用的技能。再运行 check_resolvable 验证新技能已经正确接入 Resolver。这个循环会把一次性工作变成复利基础设施。
  4. 持续使用并观察输出。技能一开始会平庸,这正是重点。用它,读它产出的东西,当哪里不对时,就运行 cross-modal eval:把输出扔给多个模型,让它们互相打分,看你关心的维度。这就是我当初抓到 Book-Mirror 事实错误的方法。修复被 bake 进技能,从此所有后续镜像都干净。六个月后,你就会拥有任何聊天机器人无法复制的东西——因为价值不在模型,而在你教给系统关于你具体生活、工作和判断力的东西。 我用这个系统做的第一件事很糟糕,第 100 件事我已经敢放心交给它处理我的日历、收件箱、会议准备和阅读清单。系统在学习,我也在学习。复利曲线是真实的。

Fat skills. Fat code. Thin harness. LLM 本身只是引擎。你可以自己造车。

我在这里描述的一切——所有技能、Book Mirror 管道、cross-modal eval 框架、skillify 循环、Resolver 架构,加上 30+ 个可安装的技能包——全部开源免费,就在 GitHub:github.com/garrytan/gbrain。去造吧。