Claude 通过率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想
Claude 通过率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想想象一个真实的工作日:项目经理要更新项目状态,财务人员要整理客户账单,医疗管理员要核对预约和保险信息。
搜索
想象一个真实的工作日:项目经理要更新项目状态,财务人员要整理客户账单,医疗管理员要核对预约和保险信息。
下一代创作软件比的不是模型能力,而是谁能把完整的创作流程跑通。 能让 Agent 从接到目标开始,一路协作推进到交付成品的系统,才是真正的竞争力。 OmniWork 是我们最近看到的明确在朝这个方向走的产品。它给自己的定位是「The Agent OS for Creative Work」,面向创作工作的 Agent 操作系统。
亚马逊给员工的AI工具装了计量器,官方说不考核,经理盯着排行榜不放。Meta内部榜单30天烧掉60万亿token,扎克伯格没进前250。然而Jellyfish数据打脸:刷10倍token,产出只多了1倍。谁在为这场荒诞游戏推波助澜?
大家好,我是袋鼠帝。 不知道大家有没有发现,随着AI的发展,token这个东西居然还变得越来越贵了。
灰度一个月,这个数字让我们有点坐不住——它说明大家对"让AI用我的知识替我干活"这件事,等不及了。好消息是,从今天起,所有人打开 ima,都可以直接使用copilot。同时,ima知识号也开始能发布 Skill 了,知识广场从“内容平台”延伸为“能力平台”。
感谢 120 个生鸡蛋,它向全世界证明了,AI 还无法「开除人类」。
520当天,王力宏发布了新单曲《Come What May》,同时上线了被称做“全球首支可交互AI音乐电影”的同名MV。
“Claude 可能比你更擅长从你这里提取出你想要和需要的东西,而不是由你向 Claude 详细指定。”
智象未来正式发布基于新一代原生全模态模型架构 Unified Transformer(UiT)打造的图像大模型 HiDream-O1-Image-Pro。这一超2千亿参数的原生全模态图像大模型,不仅在多个基准测试中刷新 SOTA 纪录,也标志着智象未来正向图像、视频、文本、音频等多模态统一建模的“原生全模态”阶段迈进。
2024 年 11 月,AI 生成的网络文章数量正式超过人类。Merriam-Webster 把「slop」选为 2025 年度词汇。当机器开始替人类说话,人类会不会忘记怎么思考?更麻烦的是,当人类停止书写,AI 用来学习的燃料也将一并耗尽。一场关于语言和思维的连环危机,正以多数人未曾警觉的速度展开。