花了1000倍的token,效果可能却没有更好:AI Agent的“隐性账单”长什么样
花了1000倍的token,效果可能却没有更好:AI Agent的“隐性账单”长什么样如今的 AI Agent 正在大规模落地,其中应用最广且最受关注的当数 Claude Code,Codex,Cursor 这类 coding agent。过去的一年里,这类 coding agent 产品迭代迅速,在一年内将在 swe-bench- verified 的准确率提高到了 78%+。
搜索
如今的 AI Agent 正在大规模落地,其中应用最广且最受关注的当数 Claude Code,Codex,Cursor 这类 coding agent。过去的一年里,这类 coding agent 产品迭代迅速,在一年内将在 swe-bench- verified 的准确率提高到了 78%+。
近日,Meta AI 与香港中文大学颠覆性提出了一种全新的视觉推理范式 ATLAS,不用外部工具,不显式生成中间图像,没有视觉监督信号,只用一个离散 word,首次颠覆性地代替 Agentic 和 Latent Visual Reasoning。
就在今天,Agentic AI工程师发现:博士80小时的科研任务,Codex不到2小时就跑完了,效率差达到了40倍!其实按照旧标准,AGI早已存在了,只是全行业都在移动球门。
Andrej Karpathy(OpenAI 联合创始人、前特斯拉 AI 负责人、现 Eureka Labs 创始人)在 AI Ascent 2026 上与红杉合伙人 Stephanie Zhan 对话,谈论自他提出 "vibe coding" 一年以来的变化。他解释了为什么作为程序员他从未感到如此落后,为什么 agentic engineering 是在 vibe coding 之上
黄仁勋说Agent将创造100万亿美元。易鑫用Model+Harness的硬核组合,把这一预言提前落地汽车金融,效率革命已悄然拉开帷幕。
Agentic Coding 评测里 V4-Pro 已经到当前开源最佳水平。DeepSeek 公司内部已经把 V4 作为默认编码模型,反馈是优于 Sonnet 4.5,交付质量接近 Opus 4.6 的非思考模式,和 Opus 4.6 的思考模式还有差距。这次还专门为 Claude Code、OpenClaw、OpenCode、CodeBuddy
业内少有的算法、架构、工程落地全栈型技术专家。
美国当地时间4月16日,ThinkingAI(原ThinkingData / 数数科技)在硅谷计算机历史博物馆举办全球发布会。这是ThinkingData更名为ThinkingAI的首次亮相,同时也是ThinkingAI首次在海外举办发布会。ThingkingAI联合创始人韩盼介绍,“Data”到“AI”的变化,代表我们从“帮企业⽤好数据”到“帮企业⽤好AI”的定位跃迁。
全球最强编程模型,中国造。
小红书AI平台团队刚刚开源了Relax——一个为全模态数据、Agentic工作流和大规模异步训练协同设计的现代RL训练引擎!实测全异步Off-Policy模式相比共卡On-Policy吞吐提升76%,相比veRL的全异步实现提升20%!