化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升
化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升近年来视觉语⾔基础模型(Vision Language Models, VLMs)在多模态理解和⾼层次常识推理上⼤放异彩,如何将其应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题。这⼀⽬标的实现受两⼤关键挑战制约:
近年来视觉语⾔基础模型(Vision Language Models, VLMs)在多模态理解和⾼层次常识推理上⼤放异彩,如何将其应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题。这⼀⽬标的实现受两⼤关键挑战制约:
人类仅剩2-3年时间了!Anthropic首席执行官Dario Amodei独家采访,一口气爆料一连串AI重磅消息,并在最后给出了对于职场年轻人的建议。
AI具备的能力,本质上来自算法和训练大模型所用的数据,数据的数量和质量会对大模型起到决定性作用。此前OpenAI工作人员表示,因没有足够多的高质量数据,Orion项目(即GPT-5)进展缓慢。不得已之下,OpenAI招募了许多数学家、物理学家、程序员原创数据,用于训练大模型。
名称:认知边界拓宽器 Cognition Boundary Expander
近年来,视觉大模型(Large Vision Language Models, LVLMs)领域经历了迅猛的发展,这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而,随着 LVLMs 复杂性和能力的增长,「幻觉现象」的挑战也日益凸显。
据 The Information 报道,总部位于旧金山的 AI 软件测试公司 Ranger 在 12 月获得了由General Catalyst领投的 650 万美元种子轮融资,以及在 2023 年 11 月获得的由XYZ领投的 240 万美元前种子轮融资。
据 The Information 报道,红杉美国计划加大对 Harvey 的投资,该公司利用人工智能为律师自动化工作,距离首次投资该初创公司不到两年。原因可能与其收入增长有关。
本文介绍了一篇由浙江大学章国锋教授和商汤科技研究团队联合撰写的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。
蛋白质是生物体中非常重要的功能性分子,它们的形成过程经过了数十亿年的自然选择和进化。在这一过程中,蛋白质的序列和结构经过无数次随机突变,并通过生物系统的选择机制进行筛选,最终形成那些具有特定生物学功能的蛋白质。
随着语言大模型的成功,视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速,但在长上下文场景下表现却不尽如人意,这一问题严重制约了多模态模型在实际应用中的潜力。