刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分
刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分SWE-Bench上能拿72%的模型,换张考卷直接归零!Meta联合斯坦福、哈佛放出ProgramBench,200个项目从零手写,9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网,就有模型在36%的任务里跑去GitHub扒源码。
搜索
SWE-Bench上能拿72%的模型,换张考卷直接归零!Meta联合斯坦福、哈佛放出ProgramBench,200个项目从零手写,9大顶级模型完整通过率0%。最强的Claude Opus 4.7平均通过率也才51.2%。更离谱的是一联网,就有模型在36%的任务里跑去GitHub扒源码。
今天,马斯克官宣解散xAI并入SpaceX。同时,他把全球最强超算Colossus 1,全部租给OpenAI死对头Claude。一边在法庭要罢免奥特曼,一边给对手送算力,老马这波釜底抽薪绝了。
太魔幻了,特朗普开始做API中转站了,还有七折的 Claude 可以用。甚至还有机会参加懂王的私人派对。前两天还在跟朋友感慨,连孙雨晨都低调下场搞中转站了,AI API 这门生意是真的下沉到水深火热了。
陶哲轩+AI再上大分!
Anthropic宣布与SpaceX达成合作协议,将大幅提升算力储备。受此影响,Claude Code和Claude API的使用限制即日起全面上调。第一,Claude Code的5小时频率限制翻倍,适用于Pro、Max、Team以及按席位计费的Enterprise方案。
懂王开始做 API 中转站了,还七折的 Claude 的 API。买多了,还抽送懂王的私人晚宴名额!项目叫 WorldClaw,可以理解为 OpenRouter 的懂王版,在这里,需要用懂王的加密货币 WLFI 结算,聚合了 300 多个 AI 模型,声称比官方定价低 30%
2026年5月4日,testingcatalog在Anthropic的Web/Mobile客户端里挖出隐藏功能Orbit。5月6日,Code with Claude大会在旧金山开幕。Orbit不等你开口就从Gmail、Slack、GitHub里替你干活了。
1000亿美元砸向AWS算力,5座核电站级别的能耗,营收狂飙至300亿——Anthropic和亚马逊刚刚签下了AI史上最疯狂的「军火合同」。
4 月 9 日,Anthropic 在 X 上宣布 Claude Managed Agents 上线。同一天,一位 ID 叫 @jiayuan_jy 的中国创业者也发了一条推,“We created the open source version of Claude Managed Agents. Introducing Multica.”
感谢鲸鱼兄弟开源。