AI资讯新闻榜单内容搜索-2

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

刚刚，谷歌发布了首个原生多模态（Multimodal）嵌入模型——Gemini Embedding 2。这次模型最大的变化在于：把文本、图像、视频、音频和文档，全部映射进同一个统一的嵌入空间。

来自主题: AI资讯

6765 点击 2026-03-11 16:59

2026 年伊始，AI 的进化逻辑正从「单一工具赋能」转向「场景深度共生」，当大模型在各领域持续突破，前沿科研与新材料研发领域，正迎来一场由 Agentic AI 驱动的效率革命。

来自主题: AI资讯

6396 点击 2026-03-11 16:58

进入到 2026 年，人工智能领域被一只「龙虾」（OpenClaw）硬控了。这种具备高主动性、强活人感的私人 AI 助理成为了新一代人机交互的标杆。

来自主题: AI资讯

6799 点击 2026-03-11 16:31

ber，装龙虾这才几天啊，怎么就直接二倍速到卸载了？？？

来自主题: AI资讯

8289 点击 2026-03-11 16:28

杭州萧山设立5000万元开源智能体专项基金。

来自主题: AI监管政策

7078 点击 2026-03-11 16:25

一段几十秒的音视频，上万Token，一半以上是冗余——Omni-LLM的计算浪费，比想象中更严重。

来自主题: AI技术研报

8212 点击 2026-03-11 15:06

具身智能的胜负手，可能并不在机器人本身。

来自主题: AI资讯

9341 点击 2026-03-11 15:05

让AI像Kaggle顶尖选手一样设计算法，需要几步？

来自主题: AI技术研报

7986 点击 2026-03-11 10:02

大家是否有这样的感觉？给定几张场景中拍摄的图片，往往能够在脑海中想象出这个场景的三维布局，然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示，限制了图像中隐含几何结构的表达能力。

来自主题: AI技术研报

8512 点击 2026-03-11 09:25

用强化学习微调扩散模型，还有更好的办法吗？

来自主题: AI技术研报

7558 点击 2026-03-11 09:23