AI资讯新闻榜单内容搜索-智能体

SWE-bench满分，0个bug修复：伯克利造了个专门作弊的AI

伯克利团队归纳出7种反复出现的模式：智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。

来自主题: AI技术研报

9215 点击 2026-04-19 13:40

今天，来自ZJU-REAL的团队带来了ClawGUI，一个覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期的开源框架。不是三个独立工具的简单拼接，而是一条打通的流水线：用ClawGUI-RL训练，用ClawGUI-Eval评测，用OpenClaw-GUI部署，端到端验证。

来自主题: AI技术研报

8210 点击 2026-04-19 13:33

2026 年初这几个月，随着 OpenClaw 的爆火，AI 领域也正式步入了 Harness 时代。在这股浪潮中，MiniMax 凭借其敏锐的技术嗅觉，成为了这场变革中的一大核心焦点。

来自主题: AI技术研报

6982 点击 2026-04-17 10:06

Agent 的持续学习和自我进化是最近行业内的讨论热点。

来自主题: AI技术研报

8811 点击 2026-04-17 09:11

我和周围朋友都特别爱玩《星露谷物语》。

来自主题: AI技术研报

9050 点击 2026-04-16 16:30

“教育AI已经到了必须从通用走向垂直的阶段。”

来自主题: AI资讯

5887 点击 2026-04-16 13:01

一个在 AI 社区广泛流传的架构思路，正在让大量团队走弯路。

来自主题: AI技术研报

6104 点击 2026-04-16 12:30

随着新一代主动执行型 Agent（如 OpenClaw、Hermes Agent 等）的爆发，AI 正经历从「被动工具」向「具备自我演化（Self-Evolving）能力的智能体」的范式跃迁。然而，受限于上下文窗口极限与记忆缺失，现有 Agent 难以在复杂任务中实现经验的复用与自我进化。

来自主题: AI技术研报

7905 点击 2026-04-15 10:07

你的浏览器，从今天起进化成免费智能体。谷歌Chrome推出Gemini Skills，一键生成可复用的技能。

来自主题: AI资讯

10505 点击 2026-04-15 09:42

多智能体赛道爆发，Harness成为破局关键，资本加速布局。

来自主题: AI资讯

6220 点击 2026-04-14 15:48