把真实GitHub仓库转化为可执行终端轨迹!TerminalTraj入选ICML 2026

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
把真实GitHub仓库转化为可执行终端轨迹!TerminalTraj入选ICML 2026
6222点击    2026-06-15 13:51

被ICML 2026接收为Spotlight!


至知创新研究院、曼彻斯特大学、Multimodal Art Projection Research Community等共同提出TerminalTraj——


一个面向终端智能体的大规模轨迹生成管道(pipeline)


把真实GitHub仓库转化为可执行终端轨迹!TerminalTraj入选ICML 2026


TerminalTraj从真实GitHub仓库出发,自动构建Docker化的可执行环境(Dockerized execution environments),生成与环境对齐的终端相关的任务(terminal tasks) ,并通过可执行的检验代码(executable validation code) 验证Agent是否真正完成任务。


最终,TerminalTraj构建了32K Docker镜像,并生成50733条已经验证了的终端轨迹,覆盖八类常见编程语言和八个特定的终端领域


实验显示,使用TerminalTraj数据训练的Qwen2.5-Coder系列模型在TerminalBench 1.0和TerminalBench 2.0上获得稳定提升,并展现出更好的test-time scaling能力。


Terminal Agent缺的不是更多“文本数据”,而是能跑、能验的真实环境


CLI Agent正在从代码补全工具走向真实软件工程中的执行型智能体。


它们不仅要生成代码,还要在终端中安装依赖、运行测试、调试错误、修改配置、调用工具,并根据环境反馈持续修正行为。


当前很多Agent相关的数据构造方法可以生成大量任务描述和交互轨迹,但终端相关的任务有一个特殊难点:


任务是否完成,往往不能只靠文本判断


例如,一个终端Agent可能需要安装依赖、修改配置文件、启动web service、处理CSV/JSON/Parquet数据、编译 C/C++项目,或者在QEMU中完成系统启动。


这些任务的成功与否,取决于真实文件系统状态、依赖解析、命令执行结果和工具调用副作用。


也就是说,终端Agent的训练轨迹必须同时满足两个要求:


第一,可执行性(Executability)


任务必须处在一个真实可运行的环境中,Agent的操作需要能够被实际执行。


第二,可验证性(Verifiability)


Agent的最终结果必须能被可执行验证逻辑检查,而不是只依赖LLM judge或规则启发式判断。


没有Docker环境,任务很难真实执行;没有可执行的验证,轨迹也很难保证真的解决了问题。


这也使得CLI/Terminal任务的训练数据构造构造面临一个核心瓶颈:


大规模、高质量、可执行、可验证的终端环境(terminal environments) 在开源生态中仍然非常稀缺


这不仅限制了终端相关的Agent轨迹数据的构造,也限制了后续SFT、RL以及test-time scaling能力的提升。


为了解决这一问题,TerminalTraj应运而生。


TerminalTraj的核心目标,就是把大量真实开源仓库转化为可执行、可验证、可扩展的终端Agent训练数据


TerminalTraj:把真实GitHub仓库转化为可执行终端轨迹


TerminalTraj的pipeline主要包含三个阶段。


首先,TerminalTraj从GitHub大规模收集真实开源仓库,覆盖Python、C++、C、Java、JavaScript、PHP、HTML和Go八种常见编程语言。


与普通训练语料不同,TerminalTraj更关注包含Dockerfile、build scripts、Markdown文档和shell scripts的仓库,因为这些内容不仅是静态代码,更是构建可执行环境和生成terminal tasks的关键线索。


其次,TerminalTraj将仓库的选择转化为基于模型的质量评分问题。真实GitHub仓库非常嘈杂,很多项目不完整、不可运行,或者Docker环境构建失败率很高。


为此,TerminalTraj训练了一个ScoreModel,根据代码文件的完整性、可执行性和工程质量对仓库进行打分,从而筛选出更适合构建Docker环境的高质量项目。


最终,TerminalTraj构建出32325个Docker镜像。


最后,TerminalTraj基于这些Docker环境生成 环境对齐的终端任务和可执行的验证代码


这里的关键不只是让LLM生成一个任务描述,而是让任务与具体环境强绑定。


例如,任务可能要求Agent运行某个脚本、修复某个配置、生成指定输出文件、启动服务,或者处理特定输入数据。


Agent完成任务后,系统会在Docker环境中运行验证代码,检查最终文件、配置、输出或程序行为是否正确。


只有通过验证的轨迹,才会被保留下来作为训练数据。


这一步有效避免了一个常见问题:


Agent看起来完成了任务,但真实环境状态并没有被正确改变。


把真实GitHub仓库转化为可执行终端轨迹!TerminalTraj入选ICML 2026


从90万仓库到5万条verified trajectories


TerminalTraj的数据构建规模如下:


  • 收集899,741个GitHub仓库;
  • 收集2,010,113个代码文件;
  • 构建32,325个Docker镜像;
  • 生成超过1M个任务实例;
  • 最终保留50,733条验证通过的终端轨迹。


把真实GitHub仓库转化为可执行终端轨迹!TerminalTraj入选ICML 2026


这些verified trajectories不仅覆盖general programming tasks,也覆盖八类特定的终端领域(specialized terminal domains)


包括环境交互(Environment Interaction)、多模态(Multimodal)、安全(Security)、数据处理(Data Processing)、模型训练和评估(Model Training&Evaluation)、SQL数据库(SQL)、网页服务(Web Service)和QEMU相关的任务 (QEMU-related tasks)


这说明TerminalTraj并不是在生成简单的代码执行任务,而是在构建更接近真实terminal工作流的多样化训练数据。


真实终端任务往往涉及服务启动、端口检查、系统配置、数据处理、多模态输入、安全分析和模拟器操作等复杂场景。只有覆盖足够多样的Docker化的环境,模型才能学到更稳健的Agent行为。


实验:TerminalTraj显著提升TerminalBench表现


为了验证数据有效性,论文使用TerminalTraj数据对Qwen2.5-Coder系列模型进行多轮SFT微调,并在TerminalBench 1.0和TerminalBench 2.0上评估。


结果显示,TerminalTraj在7B、14B和32B三个规模上都带来稳定提升


  • Qwen2.5-Coder-7B基座在TB 1.0/TB 2.0上为6.25/0.00;TerminalTraj-7B提升到23.01/10.10。
  • Qwen2.5-Coder-14B基座为6.25/1.18;TerminalTraj-14B提升到28.91/19.10。
  • Qwen2.5-Coder-32B基座为5.00/4.49;TerminalTraj-32B提升到35.30/22.00。


也就是说,TerminalTraj让Qwen2.5-Coder基座在TB 1.0上获得超过20个点的绝对提升,在TB 2.0上获得超过10个点的绝对提升。


更重要的是,TerminalTraj-32B不仅超过了多个30B级别的开源模型,还达到了接近Qwen3-Coder-480B的表现。


这说明高质量基于可执行环境的轨迹(execution-grounded trajectories) 可以显著提升小规模模型的终端Agent能力。


把真实GitHub仓库转化为可执行终端轨迹!TerminalTraj入选ICML 2026


TerminalTraj不只是提升准确率,也改善test-time scaling


终端Agent在真实任务中经常依赖多次尝试和自我修正。


因此,除了单次成功率,test-time scaling也非常重要:


当采样数量增加时,模型是否能更有效地把额外推理计算转化为更高成功率?


论文在TerminalBench 1.0上评估pass@k,k从1增加到16。


结果显示,原始Qwen2.5-Coder基座的pass@k曲线较平,尤其是7B模型,即使增加采样次数,收益也有限。


这说明当模型缺少终端交互能力时,简单多采样并不能显著解决问题


相比之下,TerminalTraj系列模型展现出更强、更稳定的test-time scaling。


随着k从1增加到16,TerminalTraj模型的pass@k持续提升。


TerminalTraj-32B的pass@16达到约63%,并且在多数设置下超过了更大的Qwen3-Coder-480B


这说明TerminalTraj学到的不只是某些固定任务的解法,而是更通用的终端问题解决行为:


观察环境、执行命令、解释反馈、自我修正,并在多次尝试中找到可行路径。


把真实GitHub仓库转化为可执行终端轨迹!TerminalTraj入选ICML 2026


为什么executable verification很重要?


一个自然问题是:


为什么一定要用代码验证?能不能让LLM judge判断轨迹是否成功?


论文比较了两种轨迹筛选方式:


  • LLM-verified:让GPT-5.1判断轨迹是否成功;
  • Code-verified:只保留通过可执行验证代码(executable validation code)的轨迹。


结果显示,在1K、2K、4K和8K不同训练规模下,使用Code-verified轨迹训练的模型都稳定优于LLM-verified轨迹。


尤其在数据规模较小时,code-based verification的优势更加明显。


这说明终端轨迹的质量不能只靠“看起来合理”。


很多终端任务的成功标准隐藏在环境状态里,例如某个文件是否真的生成、某个服务是否真的启动、某个配置是否真的生效。


只有执行验证代码,才能过滤掉“表面成功但实际失败”的轨迹。


对于终端Agent训练来说,基于代码的验证本身就是数据质量的核心组成部分。


把真实GitHub仓库转化为可执行终端轨迹!TerminalTraj入选ICML 2026


此外,团队进一步持续扩展 Code-verified轨迹的数据规模,并观察到即使训练数据增加到全集规模时,模型性能依然保持稳定提升。


这表明TerminalTraj构造的数据不仅具有较高质量,还具备良好的扩展潜力,能够持续为终端Agent能力提升提供有效监督信号。


把真实GitHub仓库转化为可执行终端轨迹!TerminalTraj入选ICML 2026


规模不是唯一关键,可执行的环境更重要


与现有规模接近的数据集Nex-N1相比,TerminalTraj使用更少的轨迹和更弱的基座模型,却带来了更大的TerminalBench提升。


在TB 1.0和TB 2.0上,TerminalTraj相比基座的提升幅度分别达到Nex-N1对应提升的1.7倍和1.3倍


把真实GitHub仓库转化为可执行终端轨迹!TerminalTraj入选ICML 2026


这说明终端Agent数据构造的关键不只是“生成更多轨迹”,而是轨迹是否来自真实可执行环境,是否经过可执行验证,是否覆盖多样化工具与环境依赖。


同样,SETA证明了多样化Docker化的环境可以改善test-time scaling,但其环境规模有限。


TerminalTraj将这一方向扩展到32K Docker化的环境,并通过自动化管道生成大规模环境对齐的轨迹,从而进一步释放模型的test-time scaling潜力。


把真实GitHub仓库转化为可执行终端轨迹!TerminalTraj入选ICML 2026


小结一下


TerminalTraj的意义不只是构建了一个更大的终端轨迹数据集,而是提出了一条面向生产级CLI Agent训练的可扩展路径。


随着Claude Code、Codex等CLI Agent逐渐进入真实开发、调试、部署和运维流程,模型需要具备的不再只是代码生成能力,而是在真实终端环境中执行命令、理解反馈、修复错误并完成任务的终端问题解决得能力。


TerminalTraj表明,提升终端Agent能力的关键,不只是让模型读取更多代码文本,而是让模型进入真实可执行环境,在任务中尝试、失败、修正,并从可验证的交互轨迹中学习


通过32K Docker化的环境和50,733条code-verified轨迹,TerminalTraj为这一方向提供了大规模、可执行、可验证的数据基础。


更重要的是,它揭示了终端Agent训练的核心瓶颈正在从“有没有足够多的代码”转向“有没有足够真实、可执行、可验证的环境与轨迹”


论文由吴思为、李一之、宋宇阳共同一作完成,通讯作者为Bryan Dai和林成华。


项目由曼彻斯特大学、IQuest Research、Multimodal Art Projection Research Community、四川大学和北京航空航天大学联合完成。


arXiv论文: http://arxiv.org/abs/2602.01244

GitHub开源代码: https://github.com/multimodal-art-projection/TerminalTraj


注:至知创新研究院(IQuest Research)立足人工智能前沿,是由深厚产业智慧驱动的新型科研组织,核心破解尖端研究与规模化产业落地的产学研难题。


IQuest以原创性底层算法与下一代AI架构攻坚为基石,聚焦前沿技术突破、高复杂度场景落地、全球产学研生态协同三大核心目标。


IQuest以产业一线核心瓶颈锚定研究方向,为顶尖科研人才提供纯粹的探索环境。同时,IQuest深耕AI+科学计算、前沿科技等核心垂直领域,以卓越的学术能力与极致的工程精神,深耕技术本源,释放 AI 全维度深层价值。


文章来自于"量子位",作者 "TerminalTraj团队"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner