让大模型“边看边改”,视觉分割准确率直接上涨9% | ICML 2026
让大模型“边看边改”,视觉分割准确率直接上涨9% | ICML 2026智能体时代,如何让视觉分割更准确?
搜索
智能体时代,如何让视觉分割更准确?
多模态Agent最容易制造的一种错觉是:它看过图片,所以它记住了图片。
Telegram 创始人 Pavel Durov 宣布:Bot 现在可以直接和其他 Bot 对话。更关键的定义是——自主 Agent 从此拥有了一个「人类可旁观」的原生通信层。Bot API 10.0 早在 5 月 8 日就已落地,Durov 用一条帖子把它重新定义为 AI 基础设施,13 万人围观,2300 人点赞。
刚刚,蚂蚁集团旗下支付宝亮出AI支付“全家桶”:全球首个Token Pay服务、AI钱包产品,连同此前已落地的AI付与AI收,正式构成一套覆盖授权、支付、结算、管理、安全的全栈AI原生支付体系。
Ashpreet 现在是 Agno 的创始人,以前在 Airbnb、Facebook 做过工程。Scout 是 Agno 新推出的开源项目,定位是「上下文智能体」——一个能在 Slack、Google Drive、Linear 里自由穿梭、替你把碎片化知识拼起来的 AI Agent。
最近,GPT-5.6泄露了!150万Token+神级极简UI,下月紧急上线,奥特曼的「超级智能体」要掀翻整个硅谷?6月AI大战,已经提前爆发了。
前脚OpenAI刚把Erdős 80年猜想推翻,数学家们的惊呼声还没落地。紧接着,Google DeepMind发布了一个全新AI数学智能体——AlphaProof Nexus。它一出手,就干掉了9道悬而未决几十年的Erdős开放问题。其中最古老的那个,悬了整整56年!
你有没有认真想过,"AI辅助创作"这件事,正在悄悄分裂成两个完全不同的世界?一个世界里,AI是你的助手,你问它,它答你,你满意了就用,不满意就继续改。另一个世界里,AI是你的团队,你给它一个目标,它自己分工、自己协作、自己推进,到时间了直接交付成果给你。
旧金山开发者Affaan Mustafa把Claude Code打磨成38个专业智能体、156项技能的超级系统,开源后短短时间冲上GitHub 15万星!
本周的 I/O 大会上,谷歌推出了智能体(Agent)时代的全新搜索体验,号称 25 年来对自家搜索引擎的首次重大更新。就在大家满怀期待都开始大用特用的时候,却发现了一系列 bug。