AI资讯新闻榜单内容搜索-强化学习

强化学习没作用？人大DelTA精准识别关键token，推理正确率大幅上升

做大模型RL微调，你是不是也踩过这些坑？

来自主题: AI技术研报

9811 点击 2026-07-03 09:49

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本

近年来，强化学习在游戏智能体、具身智能、大语言模型等领域取得了显著进展。然而，在真实世界中，强化学习仍面临一个核心难题：高质量样本的获取不仅成本高昂，还可能带来多种风险。因此，样本增强成为缓解强化学习中样本获取成本高、风险大等问题的重要途径之一。

来自主题: AI技术研报

9707 点击 2026-07-02 14:31

独家｜姚颂三度创业，Striding AI获近亿美元融资入局物理智能

公司由姚颂联合正大集团、清华青年学者于超共同发起，定位为物理智能系统公司，通过世界动作模型（WAM）与强化学习技术，推动机器人在真实商业与工业场景中落地，最终成为一个可信赖的机器人服务提供商。目前已完成近亿美元天使轮系列融资，投资方包括正大集团、华勤技术、九安医疗等多家上市企业，多位国内与国际知名企业家，以及多家一线投资机构。

来自主题: AI资讯

8240 点击 2026-06-24 21:41

真机强化学习如何保证安全性？清华团队提出安全探索均衡机制

近日清华大学于IEEE TPAMI发表论文，探讨了真机强化学习的安全性保障问题，提出了一套「安全探索均衡」新型机制，揭示了安全探索的理论最大边界，并攻克了其收敛性证明难题。

来自主题: AI技术研报

6745 点击 2026-06-24 16:03

快手开源GoLongRL：23K样本、9大任务类型，长上下文RL荒的时代结束了

本研究由快手科技语言大模型团队完成，核心作者吕民轩、梅铁桦、杜坦隆等。快手科技与中国科学院大学联合提出 GoLongRL，一套完全开源的长上下文强化学习后训练方案，包含 23K 样本 RLVR 数据集

来自主题: AI技术研报

7600 点击 2026-06-20 10:21

腾讯混元最新开源：一套RL框架打通多个模态，庞天宇团队新作

大语言模型的RL技术已日趋成熟，多模态生成模型的强化学习训练却仍在“各自为战”——图像扩散模型一套流程、视频生成另一套标准、VLM和LLM又有不同的技术栈。

来自主题: AI技术研报

7216 点击 2026-06-18 11:25

ICML 2026 | Agentic强化学习训练的信息自锁问题

随着大语言模型逐步从「单轮问答」走向「真实环境中的持续交互」，LLM agents 正在被用于越来越复杂的 agentic applications：deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。

来自主题: AI技术研报

6055 点击 2026-06-17 14:05