Karpathy用「harness」彻底终结了RAG

张开发
2026/6/22 21:30:33 15 分钟阅读
Karpathy用「harness」彻底终结了RAG
假期的时候Karpathy 大神发了一个llm.wiki的想法。 这条推文火爆了。在LLM Agent时代分享具体代码或应用的意义正在变弱现在只需要分享想法然后把它交给 Claude、Grok 等 Agent它就可以根据你的需求自动搭建一个属于你自己的个人知识库。还有最近特别火的各种 personal skill 同事.skill、前任.skill、自己的skill甚至卡兹克把自己的创作skills都开源了。。。。整体看下来我觉得它们都在做一件事情把现实世界里原本只能“看”的东西编译成 AI 可以持续操作的东西。llm.wiki 在编译知识。创作 skill 编译方法论。persona skill 编译人格。全网的博主都在分享理论。今天我们分享一下如何能跑通这种知识的编译。llm.wiki这套理论虽然看起来就是又一次渐进式披露的实践。但是很多人觉着这不只是一个 AI 工具而更像是一种元框架meta-framework。它并不依赖某个具体模型或技术栈而是在尝试定义一种人类与 AI 协作管理知识的方式。随着模型不断迭代、框架持续演进让 LLM 帮助编译并维护一个持续生长的 Wiki 这一模式反而具备更长期的稳定性和适用性。所以llm.wiki在干什么过去大模型使用文档都是用RAG。问一个要综合五份文档的问题模型每次都要重新找、重新拼。没有积累。NotebookLM、ChatGPT 的文件上传其实都是这个模式。但是llm.wiki的模式是 你丢一份新材料进去模型不是索引它等着以后检索而是立刻读它、提炼它、把关键信息编入已有的 wiki。更新实体页、修订概念页、标注新旧数据的矛盾。一份材料可能触及十几个 wiki 页面。而且知识编译一次然后持续维护。不是每次都从头来。这个模式其实非常有意思不止可以用在建个人wiki场景还可以往很多场景拓展比如记忆。karpathy大佬举了一些场景case如下图也很实用。尤其是今天的ai发展的这么快。前脚龙虾后脚就hermes。上个月的harness可能这个月就要拆掉一些了。 这种知识的管理。不论是对个人还是对自己的agent系统都非常重要。正常情况下如果想打通这种自动wiki工作流很容易遇到各种奇形怪状的数据。但是llm.wiki 这些都假设数据是干净的markdown这还还挺不符合实际场景的。所以我找了一批更符合真实场景的数据但是也没有精挑细选。主要是Anthropic、OpenAI关于harness的博客。还有新模型mythos的博客、智谱glm5.1的博客、以及智谱的招股书本来准备下载财报的好像下错了不过这个500多页pdf也有很多复杂的图表。然后就可以开始按照llm wiki的要求3层架构构建了。把llm.wiki丢给agent会自动构建好目录结构。 我用的 cursor opus 4.6。raw 放原始材料wiki 放 AI 维护的知识中间层AGENTS.md 告诉 AI 这个 wiki 怎么组织。整体的一个壳子大概长下面这个样子。然后第一道坎就来了。如果你的实际数据不是规整的txt或者markdownai用pdfplumber转成的markdown就会变成这个样子。文字换行、缩进、表格、图片这些都没法保留甚至可能混乱。不管是简单的博客还是复杂的文档解析成这个样子其实对模型都特别不友好。还好我用的opus 4.6对这些东西会鲁棒一些如果用国产平替估计影响就比较大了。但是。正好我们最近有一些业务涉及到复杂的word格式文档处理订阅了合合信息 TextIn 的 API所以我顺手做了个对比。比如这是TextIn转写的博客结果图片和格式排版这些都有保留。TextIn对表格的表示用的是用的html形式的所以它可以表示更复杂的无线表、合并单元格这些。可以看下图。在招股书的解析里边图表的结果也非常的不错。最后还附上TextIn api的耗时参考。目前这套解析在我们现在内部的一个业务上跑的还不错。可以在这里测试TextIn的解析https://cc.co/16YSdj搞定预编译之后开始走 ingest 流程。这里有一个很蠢的坑模型喜欢偷懒一次性看一点文档然后ingest很多的文档。结果每份材料都是浅读生成的 wiki 页面跟目录没什么区别。信息密度极低。所以这里我优化了一下默认的AGENTS.md让它一份份处理超过的还要分段来处理。这个小优化会带来比较明显的数据处理质量的提升。img10 份材料全部 ingest 完之后结构是这样的大概的一个流程是解析-然后模型会按照AGENTS.md 梳理每份内容的要点文档要点示例如下然后会整理出实体、概念。 以下是二者的示例。都会有明确的跟其他文件的link关系。concept之间还会自动构建起对比comparisons示例最后从结果来看因为我已经用了最顶级的Opus4.6模型了所以不论是不是最好的解析方式。带来的wiki结构密度其实差异不大。但是信息密度差异比较大。用TextIn API解析的数据可以保留更多的原始信息让整个库的信息密度更高。所有有考虑搭建这种自动更新wiki的同学可以考虑尽量用最好的解析策略。接下来就可以看出来这种关联wiki的魅力了。比如Harness我放了4篇博客包含Ralph Wiggum的反对多Agent的博客以及OpenAI、Anthropic的相关博客。这样在Agent Harness概念页就出现了同时容纳了正反两方的观点还用表格对比了两种流派的差异。这种跨文档的交叉引用和矛盾标注RAG 是做不到的。RAG 能从单份文档里检索片段但它不会主动发现两个人其实在用不同方式解决同一个问题。但是通过这种模式构建的wiki 它就全都懂了。或者需要结合多个跨文档综合的问题。比如「智谱跟 Anthropic 的商业化策略有什么不同」。Agent就可以依据信息的链接跳转自动的去探索需要的信息找到最终的答案了。而传统的利用单文档的longcontext chatbot 或者 RAG其实很难做这些事情。但是wiki已经把他们编译好了。写在最后坦率的讲跑完整个流程之后我有一个很强的感受。llm.wiki 这个模式从理论上肯定是跑得通的。你在里面能看到 GraphRAG 的影子能看到 Skills 的影子能看到 Context Engineering 的影子。这些东西换了不同的名字但做的事情有很大的重叠。而在 Harness Engineering 爆火的今天llm.wiki 其实又是在强调过去那些手动维护知识库的包袱可以扔了。一整套编译工作交给模型就行。但一个东西没变。garbage in, garbage out。今天依然成立。解析仍然是很多项目真正的卡点。如果你现在还在被这个问题困扰可以试试 TextIn地址在这里https://cc.co/16YSdj学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章