AI资讯新闻榜单内容搜索-智能体

满分的「差」，Qwen与复旦等揭示编程智能体奖励设计的结构性困境

设想这样一幕：你让一个编码智能体修复某个 bug，并用一组单元测试作为「做对了没有」的判据。

来自主题: AI技术研报

9511 点击 2026-07-03 09:50

最近这段时间，国内外模型更新得很快。

来自主题: AI产品测评

8437 点击 2026-07-03 09:48

在历史长河中，技术的发展很少是一路线性往前走的，很多关键变化发生在「连接」被打通的那一刻。

来自主题: AI技术研报

7738 点击 2026-07-02 15:00

当大模型应用进入深水区，决定一个 Agent 体验上限的，早已不只是 "答得对不对", 而是 "能不能持续记住同一个人"。

来自主题: AI技术研报

5790 点击 2026-07-02 14:31

近年来，强化学习在游戏智能体、具身智能、大语言模型等领域取得了显著进展。然而，在真实世界中，强化学习仍面临一个核心难题：高质量样本的获取不仅成本高昂，还可能带来多种风险。因此，样本增强成为缓解强化学习中样本获取成本高、风险大等问题的重要途径之一。

来自主题: AI技术研报

9699 点击 2026-07-02 14:31

6月30日晚，AI龙头Anthropic推出了专为科学研究打造的新产品Claude Science，这是一款类似于编程工具Claude Code的AI工作台。简单来说，Claude Science是一套专门为科研需求打造的多智能体架构，能自动生成多个子代理并分配他们进行科研任务。

来自主题: AI资讯

9158 点击 2026-07-01 19:49

6 月 23 日，Anthropic 发布了一个叫 Claude Tag 的东西。

来自主题: AI资讯

6951 点击 2026-07-01 16:22

去年夏天，MBZUAI 校长、CMU 教授邢波一篇《世界模型批评》吸引了研究社区广泛关注，他从科幻经典《沙丘》里「完美模拟现实」的想象出发，逐一拆解了当下几大世界模型流派的硬伤，提出了一套新架构，也由此引出了他与 Yann LeCun 之间一场关于「世界模型到底该怎么造」的公开辩论。

来自主题: AI技术研报

6773 点击 2026-07-01 15:43

AgentSociety²是清华大学团队推出的社会科学研究新工具，通过AI智能体模拟社会行为，帮助研究者构建实验环境，直接运行社会假设。它让AI同时扮演研究助手和实验参与者角色，使复杂社会问题能被构造、运行和分析，提升研究效率与可复现性。

来自主题: AI技术研报

6360 点击 2026-07-01 09:52

这一次，联网的不再是电脑，而是一群会干活的Agent。

来自主题: AI资讯

6969 点击 2026-06-30 16:06