近日,中国移动研究院“芯合”算力原生平台面向 DeepSeek模型推理展开性能优化,可实现DeepSeek R1蒸馏版在华为硬件上,低并发场景下首字时延(TTFT)降低10%、吞吐量提升11%,高并发场景下首字时延降低96%、吞吐量提升186%。
随着国产算力逐步完成对DeepSeek的运行支持,模型的高性能低成本推理已成为各行业关注的重点。高效的推理优化能够降低计算资源消耗、提升吞吐量,从而有效控制成本,同时推动AI技术的普及与深化。目前,DeepSeek的推理优化以及主流开源推理引擎SGLang、vLLM的实现均依赖英伟达等硬件特性及专用工具实现,相关优化方法较难在国产算力上复现使用,提升大模型国产算力运行性能面临一定瓶颈。
针对这一问题,中国移动研究院充分发挥“芯合”算力原生平台(后文简称“平台”)跨架构能力优势,面向DeepSeek国产化高效运行实施深度优化。平台首先完成算法与架构适配优化,通过统一的XPU编译和自适应执行系统,实现核心算法(如Radix Attention、FlashMLA)的跨架构迁移,并在国产AI芯片上高效复用。其次,平台实现计算效率与资源利用率提升,借助多策略数据共享、并行执行机制、动态指令调度优化以及统一共享内存技术,重构多级动态分页模型,显存利用率提升10%~20%,支持超长上下文推理,同时保持低延迟。最后,平台实现成本与部署效率优化,适配国产硬件并保持优异性能同时,结合DeepSeek一键部署工具,显著降低部署及运行成本。
测试显示,基于“芯合”平台在华为硬件上运行DeepSeek R1蒸馏版,可实现低并发场景下首字时延(TTFT)降低10%、吞吐量提升11%,高并发场景下首字时延降低96%、吞吐量提升186%。
下一步,“芯合”团队计划进一步扩展对更多国产芯片的支持,并通过开源协作推动跨架构技术的普及,为AI领域提供更具兼容性和性能优势的全“芯”计算解决方案。
“芯合”算力原生基础平台是中国移动针对AI应用与底层硬件深度绑定、难以跨架构部署迁移等问题所自研的跨架构使能软件系统,当前已具备统一编程套件、源源转换工具、跨架构编译器、自适应运行时、高性能计算库、大模型一键部署工具六大功能组件,支持泛AI应用在英伟达、intel、华为、瀚博、天数智芯、海光6家智算芯片间的一键式跨芯流转迁移,以及DeepSeek多规格模型跨架构一键部署及灵活配置。
本文来源:中国移动研究院