TRM思考奖励模型上线,大模型推理质量终于能量化了 | ICML‘26 Oral
TRM思考奖励模型上线,大模型推理质量终于能量化了 | ICML‘26 Oral大模型推理能力越来越强,但答案对了,思考过程就一定好吗?
搜索
大模型推理能力越来越强,但答案对了,思考过程就一定好吗?
当大模型公司还在竞争更长的上下文窗口、更强的推理能力和更复杂的 Agent 工作流时,一家名为 Engram 的新公司选择押注另一个问题:AI 能不能像人一样,持续从每天接触到的资料、对话和经验中学习?
今天,字节跳动旗下AI应用豆包正式推出专业版以及对应收费方案。豆包专业版基于最新的豆包2.1系列大模型,将提供更高的生产力场景使用额度,以及接入豆包2.1 Pro模型的全新“办公任务”模式。免费用户可以体验接入豆包2.1 Turbo模型的办公任务模式。
6月17日,X 上 OpenAI Codex 团队负责人 Tibo(@thsottiaux)发了一条推文,提醒大家 Codex App、CLI 和 SDK 现在可以接任何开源模型,不只限于 OpenAI 自己的模型。
依赖于有限机器人数据和大量人类数据,也能让 VLA 模型更稳健吗?
硬氪获悉,雪梦未来(SnowOrigin)团队获得龚虹嘉、陆奇及海外机构投资。这支北大背景团队以sEMG(表面肌电)运动神经信号解码技术为切入点,通过神经腕带、第一视角采集设备以及自研NMH(Neural Math Hybrid)AI解码模型,构建新一代面向具身智能的人类操控数据采集方案。
不用训练,不改权重,只动词表就能给大模型“消毒”?
火山引擎今天上线了全新的语音模型—— 豆包音频生成模型 1.0(Seed-Audio 1.0)。
「Mythos几小时攻破NSA」在英文社交媒体传疯了,近日,写出这句话的作者亲自站出来为它降温。
Google DeepMind在6月份对外分享了DiffusionGemma的技术报告,明确指向了一条与现有主流完全不同的演进道路。当大家都在绞尽脑汁让大模型逐词吐字的速度变快时,谷歌干脆把生成顺序改了。