质量无损,算力砍半!达摩院开源视觉生成新架构,出道即SOTA|ICLR 2025
质量无损,算力砍半!达摩院开源视觉生成新架构,出道即SOTA|ICLR 2025算力砍半,视觉生成任务依然SOTA!
搜索
算力砍半,视觉生成任务依然SOTA!
非常荣幸受邀前往 Las Vegas 参加 Google Cloud Next 大会!之前对 Google 的了解不够深入,参与这次大会之后才发现 Google 在 AI 上的投入和布局相当全面。总的来说,Google 想做的事情就不只是“卷模型”,而是把整个生态系统都搭起来——从开发、部署,到协作和落地,一个都不落下。
谷歌DeepMind与HHMI Janelia研究所的科学家们,用AI打造了一个栩栩如生的虚拟果蝇模型。这个模型不仅能精准模拟果蝇的飞行与行走,还通过深度强化学习模仿真实果蝇的行为。
在4月23日的爱奇艺世界大会上,爱奇艺基础架构与智能分发事业群总裁刘文峰现场演示了一番,“大家用手机横屏播放视频时,一般会在屏幕右边上下划调音量,左边上下划调亮度。现在我们在屏幕两侧各15%左右的区域,手指上下划动,就可以自如跳转精彩情节点。”
最近,北京大学陈宝权教授带领团队在三维形状生成和三维数据对齐方面取得新的突破。在三维数据生成方面,团队提出了3D自回归模型新范式,有望打破3D扩散模型在三维生成方面的垄断地位。
复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案,在一个框架内兼顾了图文理解与图像生成任务,并在多个权威评测中取得了领先的性能表现。
当城市天气预报有望精确到街镇,每条马路都可能拥有“独家预报”——这并非科幻场景,而是上海“扶摇”气象大模型带来的突破。
今天,美国具身智能公司 Physical Intelligence 推出了一个基于 π0 的视觉-语言-动作(VLA)模型 π0.5,其利用异构任务的协同训练来实现广泛的泛化,可以在全新的家中执行各种任务。
RL + LLM 升级之路的四层阶梯。
近年来,具身智能领域发展迅猛,使机器人在复杂任务中拥有接近人类水平的双手操作能力,不仅具有重要的研究与应用价值,也是迈向通用人工智能的关键一步。