上海AI Lab新研究:SFT能泛化,只要满足这三个条件
上海AI Lab新研究:SFT能泛化,只要满足这三个条件随着大模型后训练(Post-training)技术的发展,强化学习(RL)在提升模型推理能力方面的表现备受瞩目。
搜索
随着大模型后训练(Post-training)技术的发展,强化学习(RL)在提升模型推理能力方面的表现备受瞩目。
AI再也不是“回合制”了。Thinking Machines Lab(以下简称TML)发布首个模型,让实时交互能力成为模型原生能力。联合创始人翁荔出镜演示。
以 DeepSeek-R1、OpenAI GPT Thinking 为代表的大型推理模型,通过长达数千 token 的「思维链」在各类复杂推理任务中展现出卓越的性能。然而,这些模型普遍存在一个核心问题,即过度思考(overthinking) :
「一个人现在可以跑出一家30人公司才能完成的收入。」然后他说:这句话在2022年不成立。在2024年中段某个时间点,变成了真的。而且差距每个季度都在扩大。不是因为这个说法多新鲜——AI能提效这件事大家都听说过了。是因为他不只是说「理论上可以」,他是说他自己做到了,然后顺手把操作手册拿出来给你看。
布雷特·泰勒创立的 AI 初创公司 Sierra 正在完成一轮由 Tiger Global 和 GV 领投的 9.5 亿美元融资,该公司周一宣布 ,其投后估值已突破 150 亿美元。这笔融资使 Sierra 可动用的资金超过 10 亿美元——该公司表示将利用这笔资金成为 AI 驱动客户体验的"全球标准"。
近日,由香港科技大学 MMLab 及合作团队完成的研究工作「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」被计算机图形学顶级会议 SIGGRAPH 2026 正式接收。
四个月后,Uber 的 CTO Praveen Neppalli Naga 向管理层汇报了一个令人尴尬的情况:公司为 2026 年全年准备的 AI 工具预算,已经在今年的前四个月,全部花完了。Uber 内部的数据是这样的:95% 的工程师每个月都在用 AI 编程工具。
近年来,大模型能力提升的焦点正在从「训练时扩展」转向「推理时扩展」。从 Best-of-N、Self-Consistency 到更复杂的搜索与验证框架,Test-Time Scaling 已经成为提升大模型复杂推理能力的重要范式。
Claw-Eval-Live提出「活的」benchmark概念,通过信号采集与任务筛选,确保评测内容紧跟企业实际痛点,而非固定不变的题库。评测不仅关注结果,还追踪执行过程,从数据调用到状态变更,全面验证Agent的真实能力。
DeepMind 刚上任的 AGI 经济学总监 Alex Imas 曾担忧 AI 导致失业和需求坍缩,如今提出一个谨慎乐观判断,AI 会压低可复制劳动价格,也会推高护理、教育、医疗、服务等关系型劳动的价值。