AI资讯新闻榜单内容搜索-多模态

阿里首个世界模型：快乐…生蚝

就在刚刚，成立恰满一个月的阿里ATH（Alibaba Token Hub）事业群，发布全球首个主动式实时交互的世界模型产品。名也挺有趣的，叫HappyOyster（快乐生蚝）。HappyOyster搭载原生多模态架构，背后是支持多模态输入与音视频联合生成的流式生成世界模型，核心主打漫游（Wander）、导演（Direct）、创造（Create）、分享（Share）。

来自主题: AI资讯

8570 点击 2026-04-17 15:24

智象未来完成超5亿元新一轮融资，全力打造下一代原生全模态世界模型｜AlphaFamily

近日，国内多模态生成式人工智能公司智象未来（HiDream.ai）宣布完成超5亿元新一轮融资。本轮融资由东方富海、安徽省投资集团旗下的省产业投资公司、峰华资本等新股东联合投资，同时合肥产投、兴泰集团、合肥高投、安徽省人工智能母基金等老股东持续加注。

来自主题: AI资讯

8038 点击 2026-04-16 13:01

刚刚，腾讯最新世界模型开源！一句话造出3D世界，兼容游戏引擎

今日，腾讯正式发布并开源混元3D世界模型2.0（HY-World 2.0）。作为一款多模态的世界模型，HY-World 2.0支持文字、图片和视频等形式输入，可自动生成、重建并模拟完整的3D世界。

来自主题: AI资讯

9105 点击 2026-04-16 11:14

上海交大DENG Lab提出「LatentUM」：Unified Model的真正「战场」在视觉推理与世界模型

过去一段时间，生成理解统一模型（Unified Model）经常被理解成一种「既能看懂图、又能生成图」的多模态通用系统。

来自主题: AI技术研报

8693 点击 2026-04-14 08:42

OpenClaw的风刮到了多模态生成，6B小模型超越Nano Banana 2！

近日，上海人工智能实验室联合南京大学、香港中文大学及上海交通大学，将OpenClaw的成功应用于多模态生成领域。他们提出GEMS（Agent-Native Multimodal Generation with Memory and Skills），激发小模型潜力，甚至让6B小模型在部分任务超越了Nano Banana 2。

来自主题: AI技术研报

8532 点击 2026-04-11 10:36

多模态幻觉的病因「高熵节点」找到了！全基准幻觉率下降

多模态大推理模型的幻觉，很多时候并非「没看见」，而是在最不确定的推理阶段想偏了。最新研究发现，模型在生成because、however、wait等transition words时，往往处于高熵关键节点，更容易脱离图像证据、转向语言脑补。LEAD在高熵阶段不急于输出单一离散token，而是先在潜在语义空间保留多种候选推理方向，并通过视觉锚点持续拉回图像证据，显著缓解幻觉。

来自主题: AI技术研报

9556 点击 2026-04-11 09:37