“先进存力AI推理工作组”成立,共同推进AI普惠千行百业

2025/08/27 责任编辑:admin 访问:1019

近日,在2025中国算力大会上,中国信息通信研究院联合华为数据存储、科大讯飞、浪潮、曙光、沐曦、清微智能、中国移动、中国电信、中国联通等企业,共同成立“先进存力AI推理工作组”(下简称“工作组”),标志着我国AI推理领域进入“存算协同、生态共建”的新阶段。华为数据存储产品线战略与业务发展部总裁王旭东受邀参与工作组成立仪式。

聚焦四大方向推动AI推理产业落地

工作组凝聚产业界多方力量,成员覆盖芯片、模型、存储与行业应用等厂商及用户,聚焦AI推理领域的理论研究、实践探索与生态建设,推动AI推理应用、AI推理框架、先进存力与智能算力的协同发展,促进AI普惠应用。

1756286455578197.jpg

在工信部指导下,工作组将围绕四大核心任务展开工作:一是开展AI推理优化理论研究,夯实技术基础;二是推进创新技术推广,加速先进方案落地;三是主导或参与相关标准制定,规范产业发展;四是深化用户实践与试点建设,同时强化产业生态构建,推动配套政策布局落地,为AI推理产业提供“从技术到应用”的全链条支撑。

Token经济时代来临推理成本与体验成产业痛点

当前,AI产业正迎来关键结构性转变——AI算力消耗从训练环节向推理环节倾斜。值得注意的是,无论是训练还是推理,均是以“Token数”作为核心衡量指标,这标志着“Token经济时代”已正式到来。

据行业数据显示,中国每日Token消耗量已突破30万亿。在此背景下,如何抢占Token时代先机,以更经济、更高效的方式开展推理运算,进而产生更多Token,成为产业界亟需应对的核心议题。

传统AI推理架构中,由于显存容量有限,推理过程中产生的数据往往无法持久化保存,导致后续推理仍需执行大量重复计算。此外,长序列输入、多轮对话等应用场景也进一步增加推理成本,影响用户体验。而随着Agentic AI(智能体AI)的持续演进,这一问题预计将更加突出,亟需系统性解决方案予以破解。在此背景下,“先进存力AI推理工作组”应运而生,旨在推动产业实现关键技术破局,为AI长久发展提供支撑。

华为UCM方案全流程系统优化将开源贡献给产业界

作为工作组核心成员之一,华为近期发布的UCM推理记忆缓存管理器,成为解决推理成本与体验难题的关键方案。

该方案以KV Cache(键值缓存)为核心,是一款融合多类型缓存加速算法工具的推理加速套件,可通过分级管理推理过程中的KV Cache“记忆数据”,有效扩大推理上下文窗口,最终实现“高吞吐、低时延”的推理体验,显著降低单Token的推理成本。

1756286401459922.png

与传统方案相比,华为UCM技术实现了从“单点算力模组优化”到“系统级优化”的跨越,是业内首个全流程、全场景且具备可演进能力的系统性推理优化方案。更值得关注的是,华为UCM技术计划于今年9月正式开源。

未来,工作组将通过整合产业链上下游资源,构建“中国自主、强大且开放”的AI推理生态,形成我国在AI推理领域的核心竞争力,最终AI普惠千行百业。

本文来源:华为

扩展阅读

  • 扫码关注微信公众号