AI资讯新闻榜单内容搜索-模型训练

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 模型训练

视觉latent reasoning为什么不稳？这篇论文从特征空间找到了关键缺口

视觉latent reasoning为什么不稳？这篇论文从特征空间找到了关键缺口

视觉latent reasoning为什么不稳？这篇论文从特征空间找到了关键缺口

导读：视觉 latent reasoning 希望让多模态模型在内部生成连续 latent token，用这些中间表示补充多模态理解和推理任务中缺失的视觉证据。但问题在于，模型生成出来的 latent token 可能并不落在它原本熟悉的视觉输入空间里；如果模型无法稳定读取这些 token，它们就很难成为有效的中间视觉证据。

来自主题: AI技术研报

5753 点击 2026-06-16 13:56

给音视频生成打草稿！复旦&腾讯提出Baton：首创语义蓝图指引，实现音画逻辑精准同步

给音视频生成打草稿！复旦&腾讯提出Baton：首创语义蓝图指引，实现音画逻辑精准同步

给音视频生成打草稿！复旦&腾讯提出Baton：首创语义蓝图指引，实现音画逻辑精准同步

当用户给出一句简单提示词时，当前的音视频生成模型往往已经能够生成具有不错质量的视听内容。然而，一旦提示词变得复杂，问题便开始暴露出来。

来自主题: AI技术研报

10064 点击 2026-06-16 09:54

1080条提示词、7款模型大比拼：视频生成离「好看、好用又准确」还差多少？

1080条提示词、7款模型大比拼：视频生成离「好看、好用又准确」还差多少？

1080条提示词、7款模型大比拼：视频生成离「好看、好用又准确」还差多少？

当视频生成模型走出娱乐创作的舒适区，进入科学、医疗、教育等知识密集场景，它们是否还能生成事实准确、清晰可用的视频？

来自主题: AI技术研报

9828 点击 2026-06-16 09:53

ICLR 2026｜美图提出位置编码场 PE-Field ，让 DiT 感知和控制 3D 空间

ICLR 2026｜美图提出位置编码场 PE-Field ，让 DiT 感知和控制 3D 空间

ICLR 2026｜美图提出位置编码场 PE-Field ，让 DiT 感知和控制 3D 空间

PE-Field将传统的2D位置编码扩展为结构化的3D场，使DiT能够更加直接地在3D空间中处理几何信息。

来自主题: AI技术研报

6441 点击 2026-06-16 09:52

Agent终于长出了身体：Jiuwen Symbiosis背后的思考与实践

Agent终于长出了身体：Jiuwen Symbiosis背后的思考与实践

Agent终于长出了身体：Jiuwen Symbiosis背后的思考与实践

如果你在三年前问AI圈：未来最强的AI长什么样？

来自主题: AI技术研报

9449 点击 2026-06-15 14:21

代码定位太慢？蚂蚁ACL2026新作：FuseSearch-4B让模型自己学会「该搜多少」

代码定位太慢？蚂蚁ACL2026新作：FuseSearch-4B让模型自己学会「该搜多少」

代码定位太慢？蚂蚁ACL2026新作：FuseSearch-4B让模型自己学会「该搜多少」

新智元报道【新智元导读】FuseSearch：学习型自适应并行执行 —— 一个40亿参数的模型，凭什么在代码定位上干过了商用闭源大模型？答案只有四个字：搜得更聪明。在AI编程狂飙突进的今天，一个尴

来自主题: AI技术研报

6212 点击 2026-06-15 14:20

把真实GitHub仓库转化为可执行终端轨迹！TerminalTraj入选ICML 2026

把真实GitHub仓库转化为可执行终端轨迹！TerminalTraj入选ICML 2026

把真实GitHub仓库转化为可执行终端轨迹！TerminalTraj入选ICML 2026

被ICML 2026接收为Spotlight！

来自主题: AI技术研报

6725 点击 2026-06-15 13:51

0.6B VLM重塑AI修图推理流程，支持手机端侧部署，vivo+浙大出品

0.6B VLM重塑AI修图推理流程，支持手机端侧部署，vivo+浙大出品

0.6B VLM重塑AI修图推理流程，支持手机端侧部署，vivo+浙大出品

如今手机拍照已成日常，后期修图是提升照片质感的关键。

来自主题: AI技术研报

9476 点击 2026-06-15 09:21

BudgetMem：给Runtime Agent Memory装上「预算路由器」，让记忆系统学会按需分配运行成本

BudgetMem：给Runtime Agent Memory装上「预算路由器」，让记忆系统学会按需分配运行成本

BudgetMem：给Runtime Agent Memory装上「预算路由器」，让记忆系统学会按需分配运行成本

当 LLM Agent 处理长期对话、多轮交互和复杂文档时，Memory 已经成为不可或缺的核心模块。它帮助智能体保存历史、检索信息、维持个性化上下文，并支撑跨时间的推理能力。

来自主题: AI技术研报

8540 点击 2026-06-15 09:20

华为SpaceMind登顶空间智能权威榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录

华为SpaceMind登顶空间智能权威榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录

华为SpaceMind登顶空间智能权威榜：纯RGB视觉语言模型拿下70.6分，刷新李飞飞榜单记录

大模型已经能流畅对话、看图识物，但一个更底层的问题始终没被真正解决——它们是否「理解」了我们所处的三维世界？

来自主题: AI技术研报

5878 点击 2026-06-15 09:19

上一页当前第9页,共418页下一页