低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超
9567点击    2026-06-15 15:12

这年头,AI圈最不缺的就是“得不到的白月光”。


就在大家一边对着Claude Fable 5望洋兴叹,一边盘算着高昂的调用成本时,有人已经悄悄把这桌“满汉全席”给掀了。


怎么掀的?一手精妙的“拼图游戏”。


AI网关OrcaRouter最近上线了一套可编程路由策略Routing DSL,多个模型同时答题,自动仲裁出最优解。


几个你现在就能调用的“常规模型”,给它来个组合编排,跑出来的综合胜率,直接掀翻了Fable 5的单体基准线。


Opus 4.8打不过Fable 5,GPT-5.5也单挑不过,但这两个拼一组,结果就反超了。


哪怕是不混编,同一个Opus 4.8自己跟自己组队,综合得分也能从58.5%拉到约65.5%,追平Fable 5。


换成几个更便宜的模型组队(Gemini+Kimi+DeepSeek),也只差Fable 5一个点,成本却低上一大截


我们直接看数据。


反直觉的结果:组合>任何单兵


一组测试(注:以下为示意性数据,用于说明趋势,非官方跑分),100道任务里评分了93道


组合面板(多模型并行+仲裁)的得分,普遍高于它的每一个成员模型:


低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超


低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超


这里划下重点:


  • 任意一个“组合面板”,都打过了它自己的每一个成员。Opus 4.8 + GPT-5.5(约67.5%)同时高于Opus单跑(约58.5%)和GPT-5.5单跑(约60%),拉开7~9个点;
  • 多个组合追平、甚至超过了Fable 5单跑(约65.5%);
  • 连“自我组合”(Opus×2,约65.5%)都能追平Fable 5;一组便宜模型(Gemini 3 Flash+Kimi K2.6+DeepSeek V4 Pro,约64.5%)也几乎贴脸——成本却低一大截


再把DSL按难度智能分流跑成完整端点,差距更为直观(同为示意数据)


低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超


很明显,赢的不是“更强的模型”,而是“更聪明的编排方式”


为什么“人多力量大”对模型也适用


道理和让三个工程师同时做题、再挑出最好的答案一样。


不同模型的知识盲区和犯错方式并不相同:


各自独立作答,错误是分散、不重叠的;


再用“裁判”或“投票”把对的挑出来,整体正确率自然会被抬上去。


模型间的分歧其实是信号


OrcaRouter做的,就是从这些分歧里挑出最优解,拼成满血输出。


怎么做到的:用最简单的配置,解最复杂的调度


OrcaRouter把这套编排逻辑交给你自己写。


规则用YAML,条件用Google的CEL表达式(安全沙箱、只读、微秒级求值),自上而下匹配,第一条命中即生效。


整条请求的处理路径是这样的:


低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超


按难度路由,长这样:


rules:

id: hard

when: difficulty > 0.8# 难题 → 上顶配

use: { model: "anthropic/claude-opus-4-8", reasoning_effort: "high" }

id: easy

when: difficulty < 0.3# 简单请求 → 走便宜模型

use: { model: "google/gemini-3-flash" }

default:

delegate: balanced


“满血复活”的关键一招,是parallel(并行扇出)+ arbiter(仲裁)


use:

parallel: # 2~5 个模型并行作答

- { model: "anthropic/claude-opus-4-8" }

- { model: "openai/gpt-5.5" }

- { model: "google/gemini-3.1-pro" }

arbiter:

strategy: best_of_n # 让一个"裁判模型"挑最优

model: "anthropic/claude-sonnet-4-6"


四种仲裁策略,对应四种“怎么定胜负”


低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超


担心组合也翻车?


再加一层置信度级联兜底:当响应触发patch_invalid(补丁打不上)、self_doubt(模型自我怀疑)等信号,自动改投更强的模型重试。


更省、更稳:用拓扑换智能


并行扇出意味着“每条腿都计费”,但账要这么算:


你只在难的那一小撮请求上才扇出,简单请求照样走便宜模型;


而一组便宜模型拼出的面板就能逼近Fable 5——用拓扑结构买智能,而不是用更高的单价买智能。


低成本复刻Fable 5的路子找到了:OrcaRouter多模型组队,性能反超


上手极简


入口在控制台:routing → create router → routing strategy → DSL。


配套自带lint校验、dry-run试跑、影子模式(只评估不生效,先看 A/B 差异和成本变化)、灰度放量(0~100%滑杆)和回滚审计——


改路由这种高危操作,被包了一层安全网,可以先零风险跑起来再放量。


需要说明的一点是:


按难度/任务的智能路由现已上线;


“多模型并行扇出+仲裁”的运行时目前处于灰度/预览阶段(计费链路逐步验证中),可先写好规则、用影子模式观察,开放后一键生效。


现在就去试


文档:docs.orcarouter.ai/routing/routing-dsl

网站:www.orcarouter.ai (控制台routing→create router→routing strategy→DSL)


结语


当整个圈子都在为了下一个未知数倾注赌注时,一种更具确定性的工程范式正在悄然成型。


协作大于单兵,网络优于孤岛。


几个现成模型组合起来就能赢最强单体,胜负手已经不只是“你调用了谁”,“你怎么编排”的权重正在变大。


模型还会继续卷下去,下一个更强的迟早会来。


但当编排本身就能拉出几个点的性能增量,“怎么用”这件事,也许该和“用哪个”放在同一个优先级了。


(注:本文图表均为示意性数据,仅用于说明趋势,非官方跑分;多模型融合运行时目前处于灰度/预览阶段。)


文章来自于"量子位",作者 "允中"。

AITNT-国内领先的一站式人工智能新闻资讯网站