在失败中学习,准确率飙升12%:EvoSkill让智能体自主进化

张开发
2026/6/9 19:51:12 15 分钟阅读
在失败中学习,准确率飙升12%:EvoSkill让智能体自主进化
给AI装上能从失败中总结经验的飞轮让它的特定任务处理准确率直接飙升12.1%甚至能把学到的本领跨界无损应用到全新的未知挑战中。Sentient和弗吉尼亚理工大学的研究人员提出了EvoSkill自动化Skill发现框架。该框架利用文本反馈机制让三个智能体分工协作在失败的尝试中不断分析出错原因自主发掘并完善可复用的结构化专属Skill让模型在不改变底层参数的前提下实现能力的持续飞跃。AI缺少的专业SkillAI编程助手例如克Claude Code、OpenHands以及Codex等已经成为解决多领域复杂任务的主流方案。通过将代码作为一种灵活的中间表达形式智能体能够调用复杂的抽象逻辑扮演通用问题求解器的角色。灵活性并不能直接转化为执行高度专业化任务所需的领域专长。开发人员目前普遍采用智能体Skill来强化系统的专业能力。智能体Skill通常包含结构化的工作流、操作指南以及辅助代码它们作为一个个独立的模块随时准备被主程序调用。在当前的工程实践中绝大多数Skill模块都依赖人工手动编写。人工编写过程不仅耗费大量的时间成本还需要开发者具备深厚的业务背景知识。伴随着目标应用场景数量的不断增加纯靠人工输入Skill的模式显得捉襟见肘极难实现大规模的高效扩展。学术界此前尝试过引入进化算法来解决人力瓶颈比如AlphaEvolve和GEPA框架。上述方法通过多轮自动化的迭代搜索对智能体的提示词或底层代码库进行优化。以往的路径多停留在底层制品的层面优化得到的提示词或零散代码与具体的任务和模型深度绑定根本无法形成跨场景复用的标准化组件。面对困境EvoSkill框架选择在更高的抽象维度上进行破局。系统不再死磕具体的提示词或是庞杂的代码库而是专注于自动发现和打磨那些结构化、可复用的智能体Skill文件夹。每一次迭代产生的新Skill都会经过严格的隔离验证只保留那些能够切实提升测试集表现的优秀产物。失败是进化的阶梯EvoSkill的核心运转逻辑是建立在从失败中汲取经验的基础之上的。整个框架采用文本反馈下降机制专门挑选那些当前智能体无法正确处理的难题进行深度剖析。系统预设底层的基座大语言模型保持冻结状态所有的进化动作都集中在Skill知识库的更新和迭代上。系统内部设立了三个职责明确的智能体角色它们紧密协作共同推动Skill库的繁荣。执行者智能体Executor Agent根据当前的程序设定在没有任何先验Skill的初始空白状态下开始尝试执行各项待办任务。提议者智能体Proposer Agent扮演着数据分析师的关键角色。它会仔细审查执行者留下的代码运行轨迹、推导出的预测答案并将其与真实的正确答案进行细致比对。由于事先掌握着真实的参考答案提议者能够像人类老师批改错题一样精准定位任务失败的根本原因。找到症结所在之后提议者会权衡利弊决定是去创造一个全新的Skill还是对现有的老旧Skill进行修改升级并最终给出一份高维度的文字版Skill提案。为了避免在同一个坑里跌倒两次提议者手里还握有一份累积的反馈历史记录里面详细记载了过往所有的提案细节、执行结果以及分数变动情况。丰富的历史上下文让提议者能够避开曾经走过的弯路让每一次提出的改进方案都更加有的放矢。Skill构建者智能体Skill-Builder Agent则是将纸面想法落地的资深工程师。它接收到提议者的提案后会将其转化为实实在在的Skill文件夹。一个标准配置的Skill文件夹包含触发程序的元数据、格式化的操作指南有时还会附带Python或TypeScript编写的辅助脚本文件。Skill构建者在初始阶段就预装了一套内部元Skill里面写满了关于如何编写高质量Skill组件的行业最佳实践规范。新Skill构建完成后会被立即挂载到候选程序上在独立的验证集里进行严格的考核。系统维持着一个帕累托最优的精英程序池。只有当新候选程序的得分超越池中垫底的成员时它才有资格跻身精英行列将表现最差的旧程序淘汰出局。整个进化流程依靠循环机制不断向前推进每一轮挑出部分出错的案例进行打磨经过多轮次的迭代淘汰留下来的都是经历过实战检验的优质Skill。亮眼的数据与跨界迁移研究团队挑选了两个极具挑战性的基准测试来检验EvoSkill的实际成色。OfficeQA一个基于美国财政部公报构建的复杂文档推理测试集。该语料库包含大约89000页的繁杂内容时间跨度长达五十年里面充斥着密密麻麻的表格、图表以及高度专业化的金融术语描述。解答一道题目平均需要跨越两份不同的超长公报在海量的数据中进行精准定位、数据提取和基础的定量计算。对于熟悉业务的普通人类而言完成同样一道题平均需要耗费50分钟的宝贵时间。在完全使用克Claude Code配合Opus 4.5模型的基准条件下系统在零容错率的精准匹配测试中获得了60.6%的准确率。引入EvoSkill框架并仅仅使用10%的数据集进行多轮训练后系统的准确率稳步攀升至65.8%。研究人员随后尝试了一种名为Skill合并的特殊配置策略。他们将多次独立运行所发现的独特Skill汇总到一起筛选出重合度高的最优版本最终形成了一个超级Skill库。在这个大一统的完整Skill库加持下系统跑出了67.9%的最佳成绩将准确率整整提升了7.3个百分点。仔细检查上述新生成的Skill库内容能发现很多极具针对性的专业规范。系统自主总结出了名为数据提取验证的专门Skill用来应对表格解析时容易出现的相邻单元格误读、指标选错以及时间颗粒度不匹配等常见低级错误。另一个新出现的定量分析方法论Skill则为复杂的财务风险计算、预测以及货币转换制定了严密的流程指导强制要求在进行任何数学计算前必须设立数据校验点有效规避了数据转换过程中的系统性崩坏。难度颇高的SealQA数据集与局限在固定长文档里的寻章摘句完全不同SealQA要求智能体在充满噪声、信息相互矛盾的开放网络环境中寻找真相。任务的核心难点在于制定严谨的搜索策略和验证繁杂的信息来源。EvoSkill在全新设定的考场中展现出了惊人的适应力将基准准确率从26.6%大幅拉升至38.7%实现了12.1%的绝对幅度增长。在众多被自动发掘出的Skill中搜索坚持协议显得格外亮眼。该协议强制要求智能体在给出最终答案前必须执行穷尽式的搜索验证策略具体包含扩展搜索词义、多信息源交叉验证以及完整性核对直击模型在目标任务中容易被干扰信息误导并过早放弃搜索的核心痛点。最能体现高级抽象价值的测试环节当属随后的零样本Skill迁移实验。研究人员原封不动地将SealQA中进化出来的搜索坚持协议Skill提取出来直接套用在了一个名为BrowseComp的全新网页浏览问答基准测试上。该测试专门针对那些需要大量事实依据且答案唯一的简短高难度问题。面对完全不同的问题类型和截然不同的难度特征直接搬来的外来Skill依然发挥了不可思议的奇效让BrowseComp的准确率从43.5%稳步提升至48.8%轻松取得了5.3%的涨幅。跨越任务边界的成功实践强有力地证明通过EvoSkill框架进化得到的模块化Skill并没有陷入对单一任务死记硬背的陷阱。它们敏锐地捕捉到了处理通用复杂问题时所需的底层逻辑能力并且能够像人类打工者的通用工作经验一样在完全陌生的全新岗位上继续发光发热。将优化重点从晦涩难懂的底层代码和提示词提升到高度结构化、可复用的Skill维度为AI的持续进化指明了一条充满无限可能的新航道。当智能体能够像人类一样将一次次失败转化为受用终身的模块化经验时AI进化的飞轮就启动了。参考资料https://arxiv.org/pdf/2603.02766https://github.com/sentient-agi/EvoSkill

更多文章