训练奖励太稀疏?港中文联合美团给Agent加上「过程分」
训练奖励太稀疏?港中文联合美团给Agent加上「过程分」在很多大模型和 Agent 的训练里,最常见的一种做法就是只看结果:最后答案对了就给奖励,错了就当 0 分。 在单轮问答里,这样「只看结果」还勉强能用;可一旦换成 Agent 这种要多轮对话、搜索、刷
搜索
在很多大模型和 Agent 的训练里,最常见的一种做法就是只看结果:最后答案对了就给奖励,错了就当 0 分。 在单轮问答里,这样「只看结果」还勉强能用;可一旦换成 Agent 这种要多轮对话、搜索、刷
近日,美团推出全新多模态统一大模型方案 STAR(STacked AutoRegressive Scheme for Unified Multimodal Learning),凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计,实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。
清华校友创业,美团腾讯持股。
美团也重磅更新自家模型 ——LongCat-Flash-Thinking-2601。这是一款强大高效的大规模推理模型,拥有 5600 亿个参数,基于创新的 MoE 架构构建。该模型引入了强大的重思考模式(Heavy Thinking Mode),能够同时启动 8 路思考并最终总结出一个更全面、更可靠的结论。目前重思考模式已在 LongCat AI 平台正式上线,人人均可体验。
唯“快”不破的美团闪购,这次搞了一波AIGC技术流营销。先说结论,从已经公开的视频来看,他们算是终于回答了一个近几年被反复提起、却很少被真正解决的问题——在当下这个时代,品牌方到底该怎么用AIGC。
256K文本预加载提速超50%,还解锁了1M上下文窗口。
2026年开年之际,具身智能赛道迎来了首个重磅融资事件,自变量机器人宣布完成十亿元A++轮融资。本轮融资由字节跳动、红杉中国、深创投、北京信息产业发展基金、锡创投、南山战新投等顶级投资机构及多元地方平台联合投资。据悉,这也是深创投AI基金成立以来的第一笔投资。
Founder Park 独家获悉,AI 硬件创业公司 Looki 已完成超 2000 万美元 A 轮融资,本轮融资由蚂蚁集团领投,美团龙珠、华登、中关村资本跟投,老股东 BAI 资本连续两轮超额追投,阿尔法公社、同歌创投持续加码。
在文生图(Text-to-Image)和视频生成领域,以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。
正如奥特曼执意打造硬件,试图打破手机屏束缚,要让 AI 感受物理世界;Looki 的诞生也源于同样的渴望:补齐大模型「感官智能」的最后拼图,将现实场景实时转化为上下文,驱动人机交互从「被动问答」进化为「主动共鸣」。