AI资讯新闻榜单内容搜索-模型

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

刚刚，谷歌发布了首个原生多模态（Multimodal）嵌入模型——Gemini Embedding 2。这次模型最大的变化在于：把文本、图像、视频、音频和文档，全部映射进同一个统一的嵌入空间。

来自主题: AI资讯

7243 点击 2026-03-11 16:59

2026 年伊始，AI 的进化逻辑正从「单一工具赋能」转向「场景深度共生」，当大模型在各领域持续突破，前沿科研与新材料研发领域，正迎来一场由 Agentic AI 驱动的效率革命。

来自主题: AI资讯

7113 点击 2026-03-11 16:58

好家伙！龙虾老吃家还得看中国。

来自主题: AI资讯

6206 点击 2026-03-11 16:30

一段几十秒的音视频，上万Token，一半以上是冗余——Omni-LLM的计算浪费，比想象中更严重。

来自主题: AI技术研报

8885 点击 2026-03-11 15:06

近年来，大规模视频扩散模型在视频生成领域取得了显著进展。然而，采样效率低下仍然是这类模型的核心瓶颈。

来自主题: AI技术研报

9541 点击 2026-03-11 15:05

当前，大语言模型（LLMs）和视觉语言模型（VLMs）在语义领域的成功未能直接迁移至物理机器人，归根结底在于其互联网原生的基因。

来自主题: AI技术研报

6763 点击 2026-03-11 15:04

对比学习已成为表征学习中的一种强大范式，能够在不依赖标签的情况下有效利用无标注数据。

来自主题: AI技术研报

7659 点击 2026-03-11 15:03

大家是否有这样的感觉？给定几张场景中拍摄的图片，往往能够在脑海中想象出这个场景的三维布局，然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示，限制了图像中隐含几何结构的表达能力。

来自主题: AI技术研报

9095 点击 2026-03-11 09:25

扩散模型终于学会“看题下菜碟”了！

来自主题: AI技术研报

8540 点击 2026-03-11 09:24

用强化学习微调扩散模型，还有更好的办法吗？

来自主题: AI技术研报

8242 点击 2026-03-11 09:23