
Anthropic今夜「双连发」!
就在刚刚,Claude Fable 5和Claude Mythos 5同时上线。
那个被Anthropic藏了两个月、说「太危险不能公开」的Mythos级模型,第一次交到了所有人手上。

从Opus 4.7到4.8用了43天,4.8到Fable 5只用了11天
Fable这个名字来自拉丁语fabula,和希腊语mythos同源。
同一个故事,同一个底座。公开版叫寓言,完整版叫神话。
软件工程、知识工作、视觉、科学研究、长上下文,在几乎所有benchmark上,Fable 5都是第一。
而且,任务越长、越复杂,拉开的差距就越大。

用Every CEO Dan Shipper的话来说,这简直就是一头「性能怪兽」!

Fable 5和Mythos 5的分数几乎一模一样,差距通常在1到3个百分点以内。
它们最大的区别在于,前者内置了「安全分类器」,后者完全没有限制。
一旦触发了网安任务的查询,Fable 5直接会被「降级」到Opus 4.8回复。

Fable 5在所有安全任务中,拿下0分,就是最好的说明
定价方面,Fable 5和Opus 4.8 Fast Mode基本一致,输入10美元/百万token,输出50美元/百万token。
虽然是Opus标准版的两倍,但不到Mythos Preview的一半,也只有GPT-5.5 Pro的六分之一。
Pro、Max和Team订阅用户在6月22日前可以免费体验,但之后就要花credits了。API今天即可使用,开发者调claude-fable-5就行。

Claude 5「双模」首秀
编程全球第一
Fable 5上线后,𝕏上的画风已经变了。
在刚加入Anthropic的Karpathy看来,这是一次配得上「大版本号」升级的跨越式进步。
工作软件正在变得像自来水一样随取随用,你可以随手索取任何东西,解释器、可视化工具、仪表盘、一次性定制应用。
末尾,他还引了一句「黑客帝国」的台词:「解放你的思想」。

经历过Claude每一次发布的研究员Alex Albert表示,这是第一个让他觉得「不像工具,像伙伴」的模型。

Claude Code负责人Felix Rieseberg直接下了一个判断,「第三个AI时代」在今天正式开启!
随之而来的,是一场史诗级的质变——我们将不再只是给AI派发「任务」,而是正式向它们赋予「职责」。

这几句话背后真正的分量,恐怕许多人尚未真正领悟。
光说无凭,在各大基准测试、内/外部严苛评估中,Claude 5早已展现出「碾压级」统治力。

碾压,不是一点半点
在人类最后考试(HLE)上,Mythos 5不用工具,实力赶超Preview版本。
相较于GPT-5.5、Gemini 3.1 Pro,Mythos 5更是断层式领先。

然后,再来看看Claude「最拿手」的智能体编程任务。
SWE-Bench Pro,衡量真实世界Agent编程能力的核心榜单,也是所有前沿模型卷得最凶的赛道。
Fable 5拿下80.3%。
作为参照,11天前刚发的Opus 4.8是69.2%,GPT-5.5是58.6%,Gemini 3.1 Pro是54.2%。
Fable 5比Opus 4.8高出11个百分点,比GPT-5.5高出21.7个百分点。
上代王者刚坐稳11天的王座,被自家新模型一脚踹翻。

FrontierCode Diamond,Cognition做的专测Agent代码质量的榜单,Fable 5拿了29.3%,GPT-5.5是5.7%。五倍差距。
而且Fable 5在中等算力档位就到顶了。不需要拉满思考,随便想想就是第一。


Stripe拿到Fable 5早期权限后干了一件大事。
在一个5000万行的Ruby代码库里,做了一次全局代码迁移。这种级别的工作,正常情况下需要一整个团队花两个多月。
Fable 5只用了一天。一天,5000万行,整个团队都看傻了。
Physical Superintelligence CEO测完之后也大受震撼。
在前沿物理研究任务上,Fable 5不仅只消耗了GPT-5.5三分之一的推理token,而且只用了36小时就跑到了GPT-5.5花四天才到的位置。

Fable 5编曲造物,强到可怕
Anthropic的每一个测试,都在展示同一件事——Fable 5能长时间自主工作,而且产出质量高到离谱。
它自主玩Factorio,工程师们的圣经级工厂建设游戏。
画面上密密麻麻的传送带飞速运转,机械臂在火炉和组装机之间疯狂挥舞。AI自己规划资源流向、建设自动化生产线,在一个每秒都在消耗资源的混沌环境里从零搭出秩序。

它在浏览器里设计了一个完整的3D可打印模型。
先是几行代码,然后一个带UI面板、工具栏的3D CAD编辑器在屏幕上被凭空渲染出来。
接着Fable 5切换身份,在搭建的编辑器里旋转视角、拉伸网格、倒角边缘,把一个抽象概念塑造成可以送去3D打印的实体模型。

它还推演了太阳系行星运动,从物理第一性原理出发自己推导轨道方程,然后用推导结果预测日食。

最魔幻的一个,暗色画布顶端打着「FIFTH SYMPHONY FABLE」的标题,贝多芬第五交响曲的EDM混音响起,高精度粒子流体在画面中心炸开。
低音轰鸣时涌起深紫色星云,小提琴扬起时冰蓝色流体如极光般撕裂黑暗,每一次流体碰撞和扩散都踩在节拍上。

这首混音曲本身,也是Fable 5用代码生成的。
一个从没「听」过音乐的AI,用代码写了一首贝多芬混音,再用代码写了一段跟着节拍跳舞的流体模拟。
另外,让Fable 5玩「杀戮尖塔」游戏时,配上持久化的文件记忆后,性能提升是Opus 4.8的3倍,到达游戏最终关卡的频率也是3倍。
记忆让Fable 5变强的幅度,远超同样的记忆对上一代模型的效果。
模型在「从自己的经验中学习」这件事上,已经跨到了另一个台阶。
不用一行代码,裸眼通关「宝可梦」
不仅如此,Fable 5在「视觉能力」上也取得了巨大的进步,程度不亚于编程。
之前的Claude模型玩宝可梦火红版,需要一整套复杂的辅助工具才能推进,地图导航、游戏状态解析、额外的工具接口,全都得喂进去,还经常卡关。
Fable 5只用了一个极简的视觉接口。

没有地图,没有导航辅助,没有任何额外的游戏状态信息。
就靠看屏幕截图,从头到尾打通了整个宝可梦火红。
Anthropic放出了一段完整的延时摄影视频记录了全过程。AI看着像素画面做决策、踩草丛遇敌、选技能打道馆、穿迷宫,一路推到通关。

这意味,Fable 5能从科学期刊里复杂的图表中提取精确数值,能仅凭几张截图把一个Web应用的源代码完整重建出来。
模型对视觉信息的理解深度到了一个新的层级,不再是「能看图说话」,而是「看懂了,然后能动手」。

AI当科学家
Science级成果一周搞定
如果说编程和视觉还在「提效」的范畴里,Fable 5和Mythos 5在生命科学领域做的事情,已经开始让人重新想「AI能做什么」这个问题了。
在蛋白质设计任务中,Mythos 5实现全自动研发。
从选靶点、跑设计到失败自纠错一气呵成,14个疾病靶点成功斩获9个强候选方案,精准覆盖免疫、神经退行性及肌肉疾病。

最炸裂的,是基因组学。
Mythos 5花了一周多时间,几乎没人管,自己搜集了138个物种、几百万个细胞的数据,自己设计并训练了一个机器学习模型。
训练出来的东西,甚至超越了近期发在Science上的同类研究。
体量小100倍,性能反超。Anthropic打算过几个月把结果发出来。

拒绝「蒸馏」,换脑Opus 4.8
由此,不难理解,为何Anthropic为Fable 5加了一层「安全分类器」。
尤其是,碰到网络安全、生物化学或模型蒸馏相关的请求时,系统自动把回答交给Opus 4.8处理。

越狱抵抗力对比图(400轮红队测试)
有不少开发者吐槽,一些简单任务,也会触发Fable 5「红线」,直接降级。


值得注意的是,想要「蒸馏」Fable 5,可没那么简单。
不同于网安任务,触发此类问题后,Fable 5不会通知,直接通过提示词修改、控制向量和PEET等方法,直接限制模型的能力。
Anthropic预估,大概约0.03%的流量会受到波及。

王座之战,「神话」开场
GPT-5.5发布才一个半月,能看到Fable 5尾灯的项目就剩两个。
Blueprint-Bench 2差2.4个百分点,Terminal-Bench上GPT-5.5凭Codex CLI拿了83.4%,是整张表里最近的一项。
往下,全是单方面屠杀。

而Anthropic在出拳的同时,还藏了一层意思在名字里。
Mythos,是文明解释自身命运的神圣叙事。Fable,是人类最古老的道德教化。
古希腊哲学的诞生,曾被视为Logos对Mythos的一次胜利,人类学会了用理性解释世界。

如今一家公司站在ASI的门槛上,把最强的模型命名为「神话」与「寓言」。
机器征服Logos的速度,所有人都看到了。
接下来的问题是,意义的制造和善恶的判断,还能不能留在人类手里。
参考资料:
https://www.anthropic.com/news/claude-fable-5-mythos-5
https://x.com/claudeai/status/2064394146916229443
https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf
文章来自于微信公众号 “新智元”,作者 “新智元”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0