强化学习没作用?人大DelTA精准识别关键token,推理正确率大幅上升
强化学习没作用?人大DelTA精准识别关键token,推理正确率大幅上升做大模型RL微调,你是不是也踩过这些坑?
搜索
做大模型RL微调,你是不是也踩过这些坑?
具身智能正在进入数据 scaling 时代。Vision-Language-Action(VLA)模型让机器人可以从大规模示教数据(demonstrations)中学习更通用的操作策略。但对机器人 VLA 训练来说,数据并不总是越多越好:低质量数据可能会拖累模型性能,而每一条 demonstration 都意味着昂贵的人力采集、机器人运行,以及云端存储和训练成本。
最近这段时间,国内外模型更新得很快。
最近几个月,一个名为“Owl Alpha”的神秘模型持续霸榜OpenRouter。它调用量长期位居全球前三,在Hermes、Claude Code和OpenClaw几大Agent模型中分别位列第一、第二和第三,不少开发者将其称为今年最令人意外的一匹“黑马”。
VAST 本月再次完成超 10 亿元人民币 A3 战略轮融资。一个月之前,这家公司刚刚披露完成约 2 亿美元融资,并正式披露世界模型项目 Project Eden。连续融资当然是一个重要信号。但这一轮更值得关注的,不只是金额,还有投资方的构成。
Base44 是一家 vibe-coding 平台,一年前被 Wix 以 8000 万美元收购。当时,这家公司成立还不到六个月,团队只有 8 个人。如今,Base44 开始推出自己的 AI 模型,帮助用户通过自然语言创建应用。
当 Agent 从演示视频中的炫技片段开始走进真实工作流与生产环境,下一阶段的「何去何从」成为业界关注的焦点。
当大模型应用进入深水区,决定一个 Agent 体验上限的,早已不只是 "答得对不对", 而是 "能不能持续记住同一个人"。
近年来,强化学习在游戏智能体、具身智能、大语言模型等领域取得了显著进展。然而,在真实世界中,强化学习仍面临一个核心难题:高质量样本的获取不仅成本高昂,还可能带来多种风险。因此,样本增强成为缓解强化学习中样本获取成本高、风险大等问题的重要途径之一。
Anthropic官宣Fable 5全球上线,安全测试中,亲手为8款模型,包括一款中国模型「盖章印证」。