让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器
让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑的思考者」。
搜索
当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑的思考者」。
10 月 27 日,国产「好模型」阵营又迎来一位新成员,MiniMax 发布了全新大版本模型 M2,延续了 M1 时代的开源策略。它不仅在 Coding 与 Agent 能力等方面继承了 M1 的优势,更在成本效率、智能水平、响应延迟这 3项关键指标上,同时迈出了一大步。
数据集蒸馏是一种用少量合成数据替代全量数据训练模型的技术,能让模型高效又节能。WMDD和GUARD两项研究分别解决了如何保留原始数据特性并提升模型对抗扰动能力的问题,使模型在少量数据上训练时既准确又可靠。
真正推动AI革命的,不是天才,而是懒人?那做的少、却赚得多的人,正在成为AI时代的赢家。当机器替我们写、画、想甚至设定目标,人类的勤奋成了旧时代的美德。别害怕AI取代你——先问问自己,还想亲自动手吗?
在一篇论文中,研究人员测试了 11 种 LLM 如何回应超过 11500 条寻求建议的查询,其中许多查询描述了不当行为或伤害。结果发现 LLM 附和用户行为的频率比人类高出 50%,即便用户的提问涉及操纵、欺骗或其他人际伤害等情境,模型仍倾向于给予肯定回应。
出品 / 新浪科技(ID:techsina) 作者 / 郑峻 Meta AI业务大地震!新主管上任三个月后,挥起裁员大刀,基础研究部门遭受重创,连明星大牛研究员都不幸失业。扎克伯格这是急功近利,自毁长
我已经设置了不要给我发疑问句
2025 年 10 月 22 日,AI 基础设施公司 Fal.ai宣布完成新一轮 2.5 亿美元融资。据悉,凯鹏华盈与红杉资本领投此轮,公司估值超40亿美元。
如何让一个并不巨大的开源大模型,在面对需要多步检索与复杂逻辑整合的问题时,依然像 “冷静的研究员” 那样先拆解、再查证、后归纳,最后给出可核实的结论?
这些刷屏的AI图片,你刷到了没?就是那种——和自己专属emoji合影的黏土风照片,画风长这样:本来以为是NanoBanana整的新玩法,结果点开评论区一看:嗐,原来是美图自家的AI Agent——叫RoboNeo~