雷军:3倍价格10倍速度!小米万亿参数模型MiMo-V2.5-Pro-UltraSpeed模式实现1000 tokens/s狂飙,只需8张GPU

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
雷军:3倍价格10倍速度!小米万亿参数模型MiMo-V2.5-Pro-UltraSpeed模式实现1000 tokens/s狂飙,只需8张GPU
8804点击    2026-06-09 15:32

雷军:3倍价格10倍速度!小米万亿参数模型1000 tokens/s狂飙,只需8张GPU


13秒搞定原本6分钟的编程任务。


智东西6月9日报道,今日,小米MiMo团队推理系统团队TileRT联合宣布,Xiaomi MiMo-V2.5-Pro的UltraSpeed模式已实现万亿参数(1T)旗舰模型输出速度首次突破1000 tokens/s。


雷军:3倍价格10倍速度!小米万亿参数模型1000 tokens/s狂飙,只需8张GPU


▲雷军发文宣布MiMo-V2.5-Pro-UltraSpeed新进展(图源:新浪微博)


1000 tokens/s是什么概念?从下面这个例子我们能有直观的感受。以复杂可视化大屏生成任务为例,UltraSpeed版仅需13秒完成,标准版耗时6分15秒,同等效果下最高提速28倍


雷军:3倍价格10倍速度!小米万亿参数模型MiMo-V2.5-Pro-UltraSpeed模式实现1000 tokens/s狂飙,只需8张GPU


提示词:生成一个AI服务运营总览大屏,深色科技风(深色底 + 蓝青主色 + 红色异常);顶部KPI卡片(在线服务数 / 今日总调用量 / 整体成功率 / 平均latency),左中实时调用趋势折线图(1min粒度,3s刷新)+ 并发用户数 sparkline,右中型分布环形图+接口成功率TOP5进度条,底部异常告警列表(脉冲红点)+ 资源水位(CPU/GPU/ 内存);点击趋势图展开60min明细浮层;纯HTML+CSS+JS单文件,Canvas绘图,KPI超大数字发光动画。


背后,团队仅用一个标准的8卡通用GPU节点,便让1T模型突破了1000 tokens/s的输出速度。涉及技术包含FP4量化、DFlash高效推测解码,搭配TileRT定制编译内核,通过软硬件协同充分释放算力等。


TileRT是一家聚焦AI推理系统的独立技术团队,其主营业务是高性能推理引擎。此前5月22日,该团队与智谱联合进行系统级优化,使得GLM-5.1高速版API输出速度达400 tokens/s,创下彼时公开大模型商用API推理速度纪录。


今日,Xiaomi MiMo-V2.5-Pro-UltraSpeed的API同步上线。该API采用限时体验价,定价为MiMo-V2.5-Pro的3倍,同时提供约10倍的输出速度提升。该模式仅支持API体验,暂不支持Token Plan。


此前5月27日,小米刚刚宣布了MiMo-V2.5系列API价格永久下调。按照MiMo-V2.5-Pro的每百万tokens输入(缓存命中)0.025元、输入(未命中缓存)3元、输出6元的定价,MiMo-V2.5-Pro-UltraSpeed的定价应为每百万tokens输入(缓存命中)0.075元、输入(未命中缓存)9元、输出18元


本次体验采取申请制,6月9日至6月23日限时开放。通过审核的用户可获得两周限时免费的Chat体验。


团队已开源MiMo-V2.5-Pro-FP4-DFlash checkpoint至HuggingFace,包含FP4量化权重与DFlash模型参数。MiMo-V2.5极致推理支持在后续将推出。


申请入口:


https://platform.xiaomimimo.com/ultraspeed


Chat体验入口:


https://ultraspeed.xiaomimimo.com


Hugging Face地址:


https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash


每秒千token推理:


10秒做贪吃蛇、1分钟复刻 macOS


万亿参数尺度上突破1000 tps意味着什么?小米公告中称,这有望带来以下AI应用模式的底层改变:


速度转化为智能:在相同等待时间内,模型可并行运行数十条推理路径(Best-of-N/Tree Search),后台自动验证纠错,用速度换取思考深度和推理质量


解放Coding Agent生产力:极速推理下,开发者无需长时间等待代码生成,大幅提升编码效率。


进入实时决策闭环:毫秒级的“思考-响应”循环使万亿模型可以接入高频量化交易信号生成、瞬时反欺诈风控拦截、智能竞价及实时交互对话等对时间极度敏感的场景。


医疗场景的价值:在手术辅助、医疗影像分析等场景中,速度的提升可帮助AI更快完成病灶分析与风险预判,为医生争取更多处置时间。


如下图所示,仅需10秒,Xiaomi MiMo-V2.5-Pro-UltraSpeed可生成一个贪吃蛇小游戏。


雷军:3倍价格10倍速度!小米万亿参数模型1000 tokens/s狂飙,只需8张GPU


仅需1分钟,Xiaomi MiMo-V2.5-Pro-UltraSpeed就能复刻一个macOS系统。


雷军:3倍价格10倍速度!小米万亿参数模型MiMo-V2.5-Pro-UltraSpeed模式实现1000 tokens/s狂飙,只需8张GPU


不走专用芯片路线


模型+系统双向优化


通用8卡GPU跑出极速推理


与业界Cerebras晶圆级集成或Groq纯片上SRAM定制芯片等专用硬件路线不同,小米和双方TileRT系统团队选择在通用GPU上实现这一速度。


在模型侧,他们针对通用硬件的带宽瓶颈,进行了FP4量化,大幅缩减模型体积并减少访存开销;同时引入基于块级Masked并行预测的高效推测解码DFlash,大幅提升单次验证的Token接受长度。


在系统侧,TileRT适配算法的动态特性,为全新的量化和推测解码流程量身定制专项优化的编译引擎与计算核


1、FP4量化:大幅瘦身不丢精度


在万亿参数尺度上,传统8比特甚至16比特推理会带来巨大的显存占用和内存带宽压力。团队采用了业界较为通用的MXFP4量化方案。


针对MiMo-V2.5-Pro的MoE(Mixture of Experts)架构特性,他们只对MoE Expert进行参数FP4量化,其他模块保留原有精度。通过FP4量化感知训练(QAT),在大幅缩减模型体积、榨干硬件带宽的同时,模型整体能力与原模型基本持平。


雷军:3倍价格10倍速度!小米万亿参数模型MiMo-V2.5-Pro-UltraSpeed模式实现1000 tokens/s狂飙,只需8张GPU


▲FP4 vs FP8模型对比


2、DFlash投机解码:单次验证一口气确认多段文本


传统投机解码依赖小型Draft模型猜测后续tokens,再由大模型验证,瓶颈在于Draft模型质量与计算开销难以兼得。团队采用了DFlash块级Masked并行预测方法:Draft模型在一次前向中同时填出一整块Mask位置,解除Draft自回归的串行约束。


针对MiMo-V2.5-Pro的万亿MoE与长上下文场景,团队进行了定制优化:


(1)Draft模型采用滑动窗口注意力(SWA),与MiMo-V2系列自身设计对齐,单次预测算力从随上下文线性增长变为常数级。


(2)训练时Mask信号采样下沉到GPU本地分片,单步产出数万级独立训练信号,对齐MiMo-V2系列模型长上下文能力的同时避免跨设备通信开销。


效果上,其并行预测推测解码在多个Agent和Coding高价值场景实现了显著的接受长度提升,意味着大模型每次验证都能“一口气”确认更多内容;此外,他们将Mask 块大小限制为8以降低验证开销、提高并发水平,使得高接受长度直接转换为高推理吞吐。


雷军:3倍价格10倍速度!小米万亿参数模型MiMo-V2.5-Pro-UltraSpeed模式实现1000 tokens/s狂飙,只需8张GPU


▲DFlash在不同场景下的接受长度


团队在Coding场景中平均接受长度达到6.30,部分样本最高7.14,每轮验证8个Draft token中可接受6-7个。同时,在语义更发散、不确定性更高的通用对话场景中,当前的接受率仍不高,团队正在持续优化。


3、TileRT超低延迟推理系统:打通算子壁垒,软硬件协同破千Token吞吐


在1000 tokens/s的超高频运行状态下,传统推理系统的算子边界成为瓶颈。为了消灭算子边界带来的执行间隙,TileRT引入了新的执行模型:


(1)常驻内核引擎:摒弃逐算子启动模式,让计算流水线常驻在GPU内部持续流转,实现数据搬运与计算的极致重叠。


(2)异构流水线协作:在Tile级别将通信、搬运和张量计算进行更精细的物理拆解,不同Warp(线程束)精密协作。


(3)微秒级软硬件收敛:TileRT与MiMo团队深度协同,针对FP4混合量化与DFlash投机解码量身定制编译引擎与计算核,让执行压力最终在硬件边界内平稳闭环。


官方表示,1000 tokens/s的诞生,是高水平系统基础设施与极致算法模型向着彼此深度收敛、共同演化的结果。


结语:10倍提速


万亿模型的“实时梦”更近了


小米MiMo与TileRT在通用GPU上实现1T模型千tps级输出,验证了软硬件协同设计路径的可行性。相比依赖专用芯片的方案,这一思路有望降低实时AI推理的硬件门槛,使更多场景能以可接受的成本获得近实时响应能力。


不过,当前高接受率仍主要集中在Coding等结构化任务,通用对话场景尚存优化空间。同时,推理资源的紧张与申请制开放也反映出大规模商用仍需时间。1000 tokens/s的技术突破值得关注,同时距离普惠应用还有一段路要走。



文章来自于微信公众号 "智东西",作者 "智东西"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0