国产AI算力平台的并行加速技术
1.对标业界主流GPU直接通信架构NVIDIA GPUDirect RDMA,实现跨品牌的自主GPU之间实现同等通信效果,与未使用此技术前能力对比通信效果提升30%。 2.单品牌多机多卡GPU点对点直接通信,与未使用此技术前能力对比通信效果提升20%;单机多卡GPU点对点直接通信,与未使用此技术前能力对比通信效果提升10%。 3.支持华为等至少3种不同厂商的国产xPU芯片,集群规模支持256张国产xPU卡以上,在2TB数据集,13B参数大模型训练场景下,国产xPU资源利用率不低于60%。 4.支持跨品牌GPU断点续训,以2TB数据集,13B参数大模型训练场景为基准,支持训练过程中的故障监测并在30分钟内恢复训练任务。