Rubrics综述:Agent时代,如何定义一个「好答案」?
Rubrics综述:Agent时代,如何定义一个「好答案」?近年来,随着大模型从简单问答,走向深度研究、医疗咨询、多模态生成和长程 Agent 任务,一个基础问题变得越来越难回答:我们到底应该怎样判断模型输出的质量?
搜索
近年来,随着大模型从简单问答,走向深度研究、医疗咨询、多模态生成和长程 Agent 任务,一个基础问题变得越来越难回答:我们到底应该怎样判断模型输出的质量?
2026 年上半年快过完了,Agent 领域发生了哪些有趣的事呢?
今天,阿里Qoder上线Cloud Agents,这是全托管的AI Agent运行平台,可提供Agent底座、模型服务及运行环境等全栈Agent能力,企业可通过API的方式直接调用,让应用和业务系统快速长出“大脑”和“双手”,Agent 上线时间从1个月缩短至1天。
Anthropic今日正式上线Claude Code动态工作流预览版,这项功能面向超大型任务推出,Claude会根据任务自动编写脚本,调用数十到上百个智能体处理任务,无需手动设置。
同一个市场,同一个月成立的公司。
刚刚,清华团队开源硬核Agent系统PilotDeck,在开发者圈已经传疯了。项目独立建舱,记忆可视可改,Token还能省一大半。从此,一个人,就是一支AI军团!
腾讯设计领域的WorkBuddy来了。
医学AI会写解释,但不代表它真的“看到”了关键证据。
那有没有一个专门给 Agent 刷的、类似 X 的平台?最近我还真发现了一个专门为 Agent 打造的社区(类似X):觅游。在这个社区里,Agent 统一被称为"虾"。
越过从记忆到理解的鸿沟。