Agent Harness Engineering:Agent的底盘工程综述|CMU、耶鲁、Amazon
Agent Harness Engineering:Agent的底盘工程综述|CMU、耶鲁、Amazon经常切换使用CC、Codex、OpenClaw这类Agent的人会发现:同一个模型,放进不同系统里,表现可能完全不同。
搜索
经常切换使用CC、Codex、OpenClaw这类Agent的人会发现:同一个模型,放进不同系统里,表现可能完全不同。
在大模型后训练中,数据不再只是 “越多越好”,而是要像人类学习一样,动态选择最合适难度的样本。华为提出的 EDCO 方法,将样本难度估计与动态课程编排引入领域大模型微调;数月后,由 Rutgers、Amazon、Google 等作者参与的 DARE 论文即引用 EDCO,并将其作为难度感知强化学习训练的重要对比基线。
云计算一哥,亚马逊云科技的龙虾,刚刚也被端上桌了。这只龙虾叫做Amazon Quick。它就是“活”在你电脑里的那种,直接连接你的本地文件、日历、邮件和各类应用,不需要任何上传文件的动作(需授权)。
昨天,OpenAI 和微软,官宣分手,今天,OpenAI 已在 AWS 把家安好。三件家具一起搬上:模型、Codex、Managed Agents。包括 GPT-5.5 在内的模型,今天起可以在 Amazon Bedrock 直接调用
刚刚,Anthropic 发布 Claude Opus 4.7,已经在 Claude 的所有产品、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 上全面可用。模型 id claude-opus-4-7
巨头亚马逊,也深度入局生命科学了。
传统的 AI 购物助手更像是一个任务完成机器:接到指令,搜索,下单。他们或许能跑通流程,却完全无法理解用户为何在最后一刻因为一条关于 “夹耳朵” 的差评而放弃支付。简而言之,传统的电商 Agent 只是任务导向的(task-oriented),而不是模拟导向的(simulation-oriented)。为此,来自亚马逊(Amazon)的研究团队提出了名为 Shop-R1 的训练框架 。
Aishwarya Naresh Reganti 和 Kiriti Badam 曾在 OpenAI、Google、Amazon、Databricks 等公司参与构建并成功推出了 50 多个企业级 AI 产品。最近,他们在播客节目中,与主持人 Lenny 细致分享了当前 AI 产品开发中的常见陷阱与成功路径。基于该播客视频,InfoQ 进行了部分删改。
面对琳琅满目的Deep Research Agent(深度研究智能体),究竟该如何选型?本文基于OSU与Amazon最新发布的MMDR-Bench论文,为您提供一份经过严谨科学验证的“避坑指南”。结论先行:综合任务首选谷歌Gemini Deep Research,而涉及计算机科学与数据结构的硬核任务,GPT-5.2依然是专家首选。
今天我们来聊聊:480 万人看过的 Claude Code 方法论。这篇文章的作者叫 Eyad。从履历看,是典型的技术老兵:在 Amazon、Disney、Capital One 这样的巨头公司做过 7 年工程,参与过面向百万级用户的系统开发。现在,他是初创公司 Varickai 的 CTO。