四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了
四大顶级AI对决《文明VI》!Claude「核平」法国,结果还是输了就在最近,英国前首相府数据科学家Liam Wilkinson,花一个周末搭了76个MCP工具,把Claude、GPT、Gemini等四个顶尖模型扔进了《文明VI》。结果,23场对局打完,其中一个AI造了核弹炸了法国——然后输了。
搜索
就在最近,英国前首相府数据科学家Liam Wilkinson,花一个周末搭了76个MCP工具,把Claude、GPT、Gemini等四个顶尖模型扔进了《文明VI》。结果,23场对局打完,其中一个AI造了核弹炸了法国——然后输了。
为了想清楚 Agent 时代怎么发社交平台,我做了 ArcSocial 。ArcSocial 不是为了让 AI 替我写文章,而是为了把人的判断、Agent 的协作和平台发布流程组织成可追溯、可维护的工作区。
这款 AI 邮箱客户端 2025 年 4 月才正式上线,总生命周期不过 17 个月。Notion 给出的理由很直接,随着 Agent 能力变得更强,越来越多用户将邮件工作流交给 Agent 处理。"如今,超过一半的 Notion Mail 用户在不打开收件箱的情况下管理邮件。因此,我们决定全面转向由 Agent 来管理你的收件箱。"
15 个来自火山引擎 V-START 加速器的项目,横跨具身智能、AI 陪伴硬件、Agent 工具、内容生成、AI 教育等赛道。都在各自的场景里,把模型能力变成了用户愿意持续使用甚至付费的产品体验,要么扎进了模型短期内替代不了的物理世界,要么在垂直场景里把 Agent 做到了用户真正愿意持续用的程度,要么用 AI 重构了一个原本就有刚需的消费品类。
大家都会以为,AI 会重构电商,甚至会完成自身的闭环交易,取代传统电商。但事实看起来却不是这样,ChatGPT 上线的 checkout 功能并没有获得预期的成功,Shopify、Amazon 这些电商平台依旧活得很好。
2025 年 12 月,OpenAI 联合多家实验室发布了一份湿实验室报告。报告给出了一个令人振奋的核心结论:GPT-5 通过多轮迭代,自主优化了一个分子克隆方案,效率提升了 79 倍。它提出了一种此前从未被报道过的酶组合——RecA 重组酶与噬菌体 T4 的 gp32 蛋白协同作用,让 DNA 末端配对效率大幅跃升。
看《堡垒之夜》的游戏录像,也能训练AI?没错,一家靠着海量游戏录像训练AI的公司General Intuition,刚刚完成3.2亿美元(约合人民币21.77亿元)融资。General Intuition公开披露的融资总额已达4.54亿美元,估值23亿美元。
Agent从来不是不会用浏览器,只是浪费太多时间在探索——BrowserBC把人类轨迹蒸馏成可复用Skill来完成Behavior Cloning,用户点一遍,Agent照着就能跑通。Einsia AI旗下Navers Lab发布的开源项目BrowserBC给出的答案,是一条三步范式:录制→转写成Skill→交付执行。
有网友发梗图表示震惊,怎么会有用户一天能运行 Agent 71 个小时。也就是说,在 OpenAI 内部,工作场景里的 AI 使用,几乎已经切到了 Codex 上。Codex 这份报告将衡量 AI 应用深度的指标,定位在我们交出去的任务有多重、agent 替人类跑了多久、用户是不是在同时盯着好几条工作线。
阿里云正式宣布,Apache Flink 3.0全面进入Agentic Streaming For AI时代,并推出全模态数据流处理能力。这是业界第一次,把视频、音频、图像、文本这四类数据,统一放进同一条流式pipeline里调度,让AI能够实时感知、实时理解、实时回应。