机器人感知大升级!轻量化注入几何先验,成功率提升31%
机器人感知大升级!轻量化注入几何先验,成功率提升31%VLA模型通常建立在预训练视觉语言模型(VLM)之上,仅基于2D图像-文本数据训练,缺乏真实世界操作所需的3D空间理解能力。
搜索
VLA模型通常建立在预训练视觉语言模型(VLM)之上,仅基于2D图像-文本数据训练,缺乏真实世界操作所需的3D空间理解能力。
在三维重建不断走向工程化的今天,前馈式3D Gaussian Splatting(Feed-Forward 3DGS)正火速走向产业化。 然而,现有的前馈3DGS方法主要采用“像素对齐”(pixel-aligned)策略——即将每个2D像素单独映射到一个或多个3D高斯上。
百度杀入 AI 视频生成赛道后,就一直加班加点卷个不停。 7 月初,百度第一次正式官宣蒸汽机 1.0 模型,以极致指令遵循能力惊艳亮相;8 月底,百度又发布全球首个中文音视频一体化模型百度蒸汽机 2.0,实现生成视频中人物口型、表情、动作的毫秒级同步。
2025 年 9 月 26 日,在华东师范大学数据学科建设十二周年纪念活动上,华东师范大学与奇点智能研究院正式揭牌共建“华东师范大学—奇点智能研究院开源创新与变革联合实验室”(以下简称“联合实验室”)。
最近,千寻智能的研究人员注意到,基于模仿学习的视觉运动策略中也存在类似现象,并在论文《Do You Need Proprioceptive States in Visuomotor Policies?》中对此进行了深入探讨。
当机器人成为各大科技展会最受瞩目的焦点,当具身智能论坛场场爆满、一票难求,我们不难发现:这个领域正在经历前所未有的关注热潮。
黄仁勋的2小时重磅访谈于本周发布!本次对谈信息密度格外高,黄仁勋集中表达了对英伟达近期包括对OpenAI的千亿美元投资、投资英特尔等一系列大动作的原因,对英伟达的产业角色的定位,对AI产业的发展前的前瞻,以及AI对世界经济格局的彻底重构。
作者:张小珺 2024年12月底,正在休假的汤道生,在腾讯集团总办层提出了一个建议。 过去一年,他一直在思考一个问题:AI Chatbot市场正从技术底层研究,转向前线产品用户的争夺,腾讯元宝该如何拿
AI博士就业市场呈现两极分化:顶尖人才获百万年薪,但多数普通博士面临困境。他们因论文成果不足、研究方向非热门、缺乏人脉推荐、与企业需求脱节等因素,在求职中屡屡碰壁。学术评审混乱、论文内卷、产学脱节及对行业快速迭代的焦虑,进一步加剧了普通AI博士的就业压力。
最近,X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想,开发出了 TinyWorlds,一个仅 300 万参数的世界模型,能够实时生成可玩的像素风格环境,包括 Pong、Sonic、Zelda 和 Doom。