AI资讯新闻榜单内容搜索-模型训练

从“一句成片”到“长轨推演”：探究多模态智能体在长视频编辑中的应用

近年来，大语言模型（LLMs）在长篇视觉叙事中展现出卓越潜力，生产方式正迅速从单一模型生成转向面向生产的智能体系统。但长视频剪辑仍然是一个极难控制的长期任务。模型有时会在缺乏素材依据的情况下强行生成，甚至在面对明显断档的转场或人物不一致时依然“盲目拼接”。

来自主题: AI技术研报

9851 点击 2026-06-21 10:41

AI接管数字世界！华为Claw-Anything：面向跨设备、跨时间、跨服务的Claw评测与数据引擎

我们相信，常驻型 (always-on) AI 助理的下一次飞跃，不在于把某一个模型单点调得更聪明，而在于扩展智能体的上下文 (Scaling Agent Context)—— 不断拓宽助理能够持续 "感知 — 推理 — 执行" 的范围，作为生活连接器连接用户的信息孤岛，直到它能接管用户的整个数字世界。

来自主题: AI技术研报

8093 点击 2026-06-21 10:34

沿着何恺明团队「漂移模型」再走一步：奖励只需排名，单步文生图偏好优化提速3.51倍

来自西湖大学和香港中文大学（深圳）的团队沿着这一思路提出 Drifting Preference Optimization（DrPO），把漂移场用于单步文生图模型的偏好后训练。在 DrPO 中，奖励只负责对候选图像排序，不参与反向传播。具体而言，针对同一个文本提示词，当前模型生成一组候选图像。高分样本在特征空间中产生吸引，低分样本产生排斥，并结合参考模型约束给出模型的更新方向。

来自主题: AI技术研报

7638 点击 2026-06-21 10:33

CameraSquad：精准运镜，多视角一致——视频世界模型的空间智能新范式

如今，CameraSquad 的出现，让这种多视角一致的视频生成与 3D 世界状态构建成为现实。近日，中国科学院大学高林研究员团队联合卡迪夫大学、香港科技大学和快手可灵团队，提出了一种面向多轨迹并行生成的相机可控视频生成方法 CameraSquad [1]，相关论文已被 ACM SIGGRAPH 2026 录用。

来自主题: AI技术研报

7714 点击 2026-06-21 10:32

ICML 2026｜从「鉴伪」到「修复」，AI图像取证进入闭环时代

对于 AI 生成图像中可能存在的不自然伪影，我们是否不仅能够将其定位和解释，还能进一步对其进行修复，使图像恢复为更加真实、自然的视觉外观？围绕这一问题，来自北京大学等机构的研究者提出了 GenShield：一个统一的自回归框架，将 AI 生成图像检测与图像伪影修复结合到同一个闭环中，实现从 “诊断” 到 “修复” 的一体化建模。

来自主题: AI技术研报

7722 点击 2026-06-21 10:31

GRPO过时了吗？

很多人认为这个数字不是随便挑的：美国政府向 Anthropic 下发出口管制指令、切断 Fable 5 与 Mythos 5 境外访问权限的那一刻，正是美国东部时间下午 5 点 21 分。「5 点 21」这个数字上的重复，被多家媒体解读为一次刻意设计的呼应。智谱选择在这个节点站出来，相当于当着全世界开发者的面说了一句话：你们担心的「模型随时可能被收回」，开源这边没有这个问题。

来自主题: AI资讯

8537 点击 2026-06-21 10:31

LLM终于学会推公式了！博世x清华推出FunctionEvolve：LLM-SRBench提升3.6倍，AI-Feynman满分

来自博世中央研究院与清华大学的研究人员提出 FunctionEvolve 框架，在两大基准测试上大幅刷新了这项任务的结果。在 LLM-SRBench 的 129 个合成科学方程任务上，FunctionEvolve 最终给出的公式在 55.8% 的任务上与真实公式等价（SA@1 = 72/129），是此前最好结果的 3.6 倍；

来自主题: AI技术研报

7538 点击 2026-06-20 10:24