重构跨域RL框架！理论驱动「双重对齐」让跨域迁移「质变」

8613点击 2026-04-03 09:25

论文标题：Efficient Cross-Domain Offline Reinforcement Learning with Dynamics- and Value-Aligned Data Filtering
文章链接：https://arxiv.org/pdf/2512.02435

在现实世界中通过强化学习训练智能体，往往需要大量在线试错与环境探索，这不仅成本高昂，还可能带来显著安全风险：机器人可能因试错而损坏，自动驾驶的在线探索可能危及行车安全，而持续采集交互数据本身也代价巨大。因此，离线强化学习（offline RL）通过直接利用历史静态数据进行策略学习，规避了持续在线交互需求，为在高成本、高风险场景中应用强化学习提供了更可行的路径，成为推动强化学习走向真实世界的关键方向。

然而，当目标环境数据稀缺时（例如，新部署的机器人仅拥有少量演示数据），仅凭目标域数据难以支撑高性能策略的学习。这一困境催生了跨域离线强化学习（Cross-Domain Offline RL）这一范式 —— 它致力于借助源域（如动力学存在差异但数据丰富的仿真环境）中的知识，弥补目标域数据不足，为数据匮乏的目标域注入学习动能，促进目标域完成策略学习。

虽然跨领域离线强化学习的出发点很好，但源域与目标域之间往往存在动力学偏移（Dynamics Misalignment），即状态转移动力学规律不一致。在这种情况下，直接合并源域和目标域数据进行训练会引发严重的分布外动力学（OOD Dynamics）问题：模型学习到的转移规律难以在目标域成立，因而性能往往会迅速退化，最终令训练崩溃。目前解决这一问题的主流范式是动力学对齐驱动的数据过滤：首先通过对比学习或最优传输等方式度量源域样本和目标域的动力学偏移程度，然后过滤掉部分动力学明显不一致的源域数据，只保留那些动力学行为更接近目标域的样本参与训练。

然而，这一范式在逻辑上依赖于一个极强的隐藏假设：动力学相似性足以刻画源域数据的可迁移性，只要源域样本在转移动力学上与目标域的 “足够接近”，源域数据便一定值得保留并用于训练。但这一假设忽略了源域数据的另一项关键属性 —— 数据质量。在现实问题中，源域不仅仅与目标域存在动力学偏移，更重要的是源域数据所含学习信号也未必同等有效，进而影响其对目标域策略学习的实际贡献。如果一组源域数据在动力学上与目标域完全一致，却是从环境中随机收集的低质量数据，它对学习目标域策略的贡献真的大吗？

研究动机：动力学对齐真的充分吗？

重构跨域RL框架！理论驱动「双重对齐」让跨域迁移「质变」

为了探究上述问题，作者们设计了一个启发性实验：在 Hopper 机器人控制任务中，源域数据由两种类别构成：动力学对齐，但低质量的随机样本；以及存在动力学偏差，但高质量的专家样本。按照现有的 IGDF 等方法，由于专家样本存在动力学偏差，它们会被立刻过滤掉，最终只会保留随机样本进行策略训练。然而，随机样本对策略性能的提升是相当有限的，这导致最终策略仅仅收敛到次优性能。这表明，低质量源域数据提供的有效信息较少，进而削弱其对目标域策略学习的贡献。

针对现有方法所存在的问题，论文首先从理论层面定位了其根源所在：现有跨域离线强化学习的主流分析框架与其真正的学习目标并不匹配。这一错位直接导致现有方法只聚焦于动力学对齐，系统性忽视了源域数据质量。为此，论文进一步重构理论框架，通过直接推导目标域策略学习的次优性差距（sub-optimality gap）上界，从理论上明确：高效的跨域离线强化学习必须兼顾动力学偏移与价值偏差。在该理论结论驱动下，论文提出 DVDF 方法：设计统一的数据过滤框架同时实现源域样本的动力学对齐与价值对齐，选择 “既像又值” 的源域数据用于训练。DVDF 可作为插件（plug-in）模块无缝集成到现有的方法中（如 IGDF、OTDF 等），并带来稳定的性能提升。

理论重构：修正跨域离线强化学习的优化目标

重构跨域RL框架！理论驱动「双重对齐」让跨域迁移「质变」

动力学和价值双对齐的数据过滤框架

重构跨域RL框架！理论驱动「双重对齐」让跨域迁移「质变」

实验验证

1. 动力学偏移场景下的性能对比

论文中设计了多个动力学偏移场景以验证 DVDF 的有效性。论文通过在四种机器人控制任务中（halfcheetah, hopper, walker2d, ant）引入两种动力学偏移：关节偏移（kinematic shifts）和形体偏移（morphology shifts）以构建源域环境，并在相应环境中收集不同质量的离线数据以构建源域数据集。同时，论文直接从标准的 D4RL 数据集中进行采样以构建目标域数据集。下表展示了在动态偏移场景下 DVDF 和多个基线方法的标准化得分（Normalized Score）对比。可以看出，DVDF 在绝大多数数据集中的性能都优于基线方法，这是因为 DVDF 利用了源域数据集中的数据质量的信息，能够筛选出更具有价值的高质量样本。

具体而言，在关节偏移场景下，DVDF 与多个基线方法的标准化得分对比。DVDF 为基础算法 IGDF 和 OTDF 带来了显著的性能提升：DVDF-IGDF 在 20 个任务中的 16 个上超越了原 IGDF 方法，总分从 1001.6 提升至 1164.7，增幅达 16.3%；DVDF-OTDF 则在 15 个任务上超越了原 OTDF 方法，总分从 986.5 提升至 1172.3，增幅达 18.8%。在形体偏移这一设定下，DVDF 依然保持了显著的性能优势。DVDF-IGDF 在 20 个任务中的 16 个上超越了原 IGDF 方法，总分从 1039.0 提升至 1198.7，增幅达 15.4%；DVDF-OTDF 则在 14 个任务上超越了原 OTDF 方法，总分从 1042.1 提升至 1156.3，增幅达 11.0%。

重构跨域RL框架！理论驱动「双重对齐」让跨域迁移「质变」

2. 消融实验

在消融实验部分，论文主要分析了分别使用 SQL 和 IQL 算法进行优势函数预训练对策略性能和优势估计偏差的影响。如下图所示，相比于 IQL 算法，使用 SQL 算法进行优势函数预训练能够得到更高的策略性能以及更低的优势估计误差。

重构跨域RL框架！理论驱动「双重对齐」让跨域迁移「质变」

3. 参数敏感性实验

论文中探究了两个主要的超参数：对齐平衡系数以及数据选择比例对策略最终性能的影响。如下图所示，对于不同的数据集，最优的超参数各不相同。然而，论文中发现设置以及在大部分数据集上都能取得不错的性能，由此避免了繁重的超参数微调步骤。

重构跨域RL框架！理论驱动「双重对齐」让跨域迁移「质变」

总结

本论文聚焦于动力学偏移下的跨域离线强化学习，通过实验和理论层面的探究，证明了动力学和价值双重对齐对于跨域离线强化学习至关重要。基于这一发现，论文提出全新的跨域离线强化学习框架 DVDF。通过在源域上预训练优势函数来度量样本价值，并与动力学对齐相结合，DVDF 能够识别并筛选出对策略学习有价值源域样本。在多种场景下的实验结果表明，DVDF 都展示了比基线算法更高的性能，充分验证了其有效性。

文章来自于"机器之心"，作者 "乔钟健、杨瑞、吕加飞、白辰甲、李秀、高思阳、邱爽"。

关键词: AI , 模型训练 , 人工智能 , DVDF

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner