突破Agent长程推理效率瓶颈!MIT&新加坡国立联合推出强化学习新训练方法
突破Agent长程推理效率瓶颈!MIT&新加坡国立联合推出强化学习新训练方法AI Agent正在被要求处理越来越多复杂的任务。 但当它要不停地查资料、跳页面、筛选信息时,显存狂飙、算力吃紧的问题就来了。
AI Agent正在被要求处理越来越多复杂的任务。 但当它要不停地查资料、跳页面、筛选信息时,显存狂飙、算力吃紧的问题就来了。
要让视频生成模型真正成为模拟真实物理世界的「世界模型」,必须具备长时间生成并保留场景记忆的能力。然而,交互式长视频生成一直面临一个致命短板:缺乏稳定的场景记忆。镜头稍作移动再转回,眼前景物就可能「换了个世界」。
昨晚睡不着,我把四份最新AI纪要摊床上,越看越像四盘菜:Kimi那盘是精算师凉面,DeepSeek端上战略家佛跳墙,ChatGPT递来脱口秀炸酱面,Gemini则摆好外交官寿司。
大模型与多模态之间的关系,可以理解为大模型就像是人脑中的‘前额叶’,主要负责高级认知功能,但只有前额叶的大脑是无法处理复杂任务的,这就需要多个不同模型之间互相协调,从单纯的“前额叶”走向“完整的大脑”,从而处理更加复杂的现实任务。
就在刚刚,全球首个手机通用Agent,来了!
RoboNeo 拿下百万 MAU 后,美图财报依旧强势。7 月中旬,美图上线了面向影像领域的 AI Agent RoboNeo,并靠“emoji 小人”的社媒风潮获取了第一批用户,上线一个月左右的时间,已拿下 100W 左右的 MAU。美图又以极快的速度,推火了一款新产品。在 AI 时代,聚焦影像的美图,有点乘风起的意味,如其昨天发布的半年报。
近年来,扩散大语言模型(Diffusion Large Language Models, dLLMs)正迅速崭露头角,成为文本生成领域的一股新势力。与传统自回归(Autoregressive, AR)模型从左到右逐字生成不同,dLLM 依托迭代去噪的生成机制,不仅能够一次性生成多个 token,还能在对话、推理、创作等任务中展现出独特的优势。
虽然大模型的优越表现令人瞩目,但动辄高昂的使用成本也让不少用户望而却步。 为平衡性能与成本,上海人工智能实验室科研团队基于前期技术积累,开源推出了Avengers-Pro多模型调度路由方案。
智谱今天,终于发了AutoGLM2.0。 想一想,AutoGLM1.0的版本,距离我第一次首发写他们,已经过去快10个月了。
京东云于今年 7 月正式开源了JoyAgent‑JDGenie,这是业内首个“完整产品级”通用多智能体系统——覆盖前端/后端/智能体框架/执行引擎以及众多子 Agent(如报告、代码、PPT 智能体);在权威 GAIA 基准测试中取得 75.15% 整体准确率,,显著超越 OWL、OpenManus 等同类开源产品。