Agent学会自己「长」Skill了!从失败里长出经验,比人类写的更好用|ICML 2026

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Agent学会自己「长」Skill了!从失败里长出经验,比人类写的更好用|ICML 2026
8504点击    2026-05-19 10:00

过去一年,Agent学会了两件事:会用工具、会调用Skill。


但它始终不会一件事:从自己的错误里变强。


但这些Skill大多来自外部:人手写、社区贡献、工程团队维护、用户手动安装和配置。这带来了三个问题:


  • 第一,Skill增长依赖人类工程师。
  • 第二,Skill质量参差不齐。
  • 第三,Skill和Agent自身策略未必匹配。


现在,一篇ICML 2026接收论文提出了一个新的答案:EvolveR


Agent学会自己「长」Skill了!从失败里长出经验,比人类写的更好用|ICML 2026


它试图让Agent不再只是被动安装别人写好的Skill,而是能够从自己的成功和失败轨迹中,自动蒸馏出可复用的“经验”,并在后续任务中检索、使用和强化这些经验。


Agent学会自己「长」Skill了!从失败里长出经验,比人类写的更好用|ICML 2026

△EvolveR与现有Agent学习范式对比


换句话说,EvolveR关注的是Agent的下一步:


从“会用Skill”,走向“会从经验中长出Skill”。


EvolveR:把交互轨迹蒸馏成Agent自己的“认知Skill”


EvolveR的核心思想是:


Agent每次完成任务后,不应该只留下日志;它应该从日志中提炼出下次还能用的经验。


在EvolveR中,Agent会经历一个闭环生命周期:


  1. 在线交互:Agent面对任务,调用外部知识库和内部经验库,生成完整执行轨迹;
  2. 离线自蒸馏:Agent冻结参数,回看自己的成功和失败轨迹,总结出简洁的经验策略;
  3. 经验库维护:系统对新经验做语义去重、合并、动态评分,保留真正有用的经验;
  4. 策略进化:再用强化学习训练模型,让它学会在合适时机检索和应用这些经验。


这些经验并不是传统意义上的工具插件,更像是Agent的“认知Skill”。


比如:


  • 遇到比较类问题时,先分别收集两个对象的信息,再下结论;
  • 判断人物关系时,不要只凭角色名猜测演员,需要查证角色描述;
  • 如果搜索经验的结果不足,不要重复同一个查询词,而要改写查询角度。


这些经验不是外部教师灌进去的,而是Agent从自己的成败经历中总结出来的。


Agent学会自己「长」Skill了!从失败里长出经验,比人类写的更好用|ICML 2026

△EvolveR完整生命周期


可筛选、可评分、可进化的经验库


很多Agent记忆系统会直接保存原始轨迹或自然语言反思。


但EvolveR更强调经验的“维护”。


每条经验都会记录使用次数和成功次数,并根据历史表现计算一个动态分数,分值低于阈值的经验会被无情“剪枝”,语义重复的原则会被合并,确保 Agent 的大脑始终轻盈且高效。


这点在今天的Skill生态里尤其重要。


当Agent装了越来越多Skill、积累了越来越多记忆之后,真正的问题不再是“有没有经验”,而是:


  • 哪些经验真的有效?
  • 哪些经验过时了?
  • 哪些经验彼此重复?
  • 哪些经验会误导模型?


用强化学习让Agent学会“使用经验”


EvolveR与普通经验检索最大的区别在于:它不只是把经验放进上下文。


在线交互阶段,Agent可以通过动作主动检索经验库,再通过查询外部知识,最后给出答案。


随后,EvolveR使用GRPO强化学习对这些经验条件下的轨迹进行优化。


奖励函数不仅看最终答案是否正确,也看推理格式、经验检索、知识检索是否合理。如果只看最终答案对不对(稀疏奖励),Agent很难学会”如何善用经验”这种中间行为。


EvolveR设计了一套复合奖励函数,把”做事”和”会做事”区分开来打分:


Agent学会自己「长」Skill了!从失败里长出经验,比人类写的更好用|ICML 2026


结果奖励(Outcome Reward):最终答案和标准答案做精确匹配。格式奖励(Format Reward):


  • 思考步数奖励:鼓励Agent进行适度的推理,但不鼓励无脑堆长度,防止Agent陷入”无限反思”的死循环,强制它学会想够了就该动手。
  • 搜索多样性奖励:明确激励Agent同时调用内部经验和外部知识,而不是偏废其一。


因此,模型学到的不只是“答案是什么”,而是——


什么时候该查经验、查什么经验、如何把经验转化成有效行动。


这让EvolveR区别于传统RAG或简单Memory系统。RAG解决的是“缺知识”,EvolveR解决的是“缺经验”。


在多跳问答上超过Search-R1等强Agent基线


论文在7个复杂问答基准上验证了EvolveR,在Qwen2.5-3B和7B模型上,EvolveR都取得了最优平均表现。


相比CoT、RAG、SFT、Rejection Sampling以及Search-R1等方法,EvolveR整体表现更强,尤其在多跳推理和域外泛化任务上更稳定。


Agent学会自己「长」Skill了!从失败里长出经验,比人类写的更好用|ICML 2026


论文还发现了一个很关键的现象:当模型较小时,用外部教师模型(GPT-4o-mini)帮助总结经验效果更好;但当模型扩展到3B时,Agent自己总结出来的原则反而超过外部教师总结的原则。


这说明一个重要问题:


对Agent来说,最强的经验不一定来自最强教师,而可能来自与自身策略最匹配的“自我经验”。


作者将其解释为一种“认知对齐”:Agent自己蒸馏的原则,更符合自身能力边界和推理习惯,因此在实际任务中更容易被用好。


这个发现对当前Skill生态也有启发:未来的Agent Skill不一定都来自人类编写,可能会有一部分来自Agent自身的长期执行轨迹。


Agent学会自己「长」Skill了!从失败里长出经验,比人类写的更好用|ICML 2026


从“工具扩展”到“经验进化”


2026年的Agent浪潮已经证明:只要给大模型工具、权限和工作流,它就能完成越来越多真实任务。


但这也暴露了新的瓶颈:Agent的能力增长,不能永远依赖人类不断写Skill、装插件、修Prompt。


LangChain最近也指出,Agent持续学习并不只发生在模型权重层,还可以发生在harness和context层;而轨迹是这些学习流程的核心数据来源。


EvolveR给出了一个更自主的方向:让Agent把自己的成功和失败转化为可复用经验,再通过强化学习将“如何使用经验”内化到策略中。


从这个角度看,EvolveR不是一个普通的Agent记忆方法,而是面向后OpenClaw/Claude Code时代的一个问题:


当Agent拥有工具箱之后,它能不能开始自己积累经验?


EvolveR的答案是:可以。这可能是Agent从“会干活”走向“越干越会干”的关键一步。


作者介绍


本文来自于上海人工智能实验室KnowledgeXLab团队。


本文一作吴荣,是浙江大学与上海人工智能实验室联培博士,研究方向: 大模型智能体自进化,持续学习。


本文的通信作者为上海人工智能实验室的青年科学家石博天。


论文链接: https://arxiv.org/abs/2510.16079Github


仓库链接:https://github.com/KnowledgeXLab/EvolveR


文章来自于"量子位",作者 "EvolveR 团队"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

5
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

6
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

7
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0