联通研究院基于国产化算力完成DeepSeek-R1私有化部署

2025/02/27 责任编辑:Hanson 访问:1099

联通研究院成功实现DeepSeek-R1 671B满血版模型的私有化部署。

近日,联通研究院下一代互联网研究部与广东联通协作,基于广东联通算网基地的华为昇腾服务器B910算力资源,成功实现了DeepSeek-R1 671B满血版模型的私有化部署。

高效技术整合:打通国产化适配与场景落地的“最后一公里”

部署工作由联通研究院联合广东联通研发人员独立完成。为适配不同用户在不同成本投入和性能收益之间的权衡取舍,此次部署试验了16位全精度(BF16)和8位量化精度(W8A8)两种版本的部署模式。BF16版本适合于精确性要求高的推理任务;W8A8版本采用SmoothQuant优化算法和校准数据集减小量化误差,在降低一半算力资源消耗的条件下有效提升了推理速度,可广泛适用于各类对于精确性要求不是特别高的推理任务。

快速产品响应:第一时间推出周边适配产品

为了满足一线客户的产品化和市场化需求,联通研究院第一时间在自主品牌“CubeAI智立方”平台中开辟了“DeepSeek专区”,开发了专门服务于DeepSeek的周边适配组件和产品,实现了大模型中继、多来源模型接入、多版本模型管理、可视化推理控制台、API模型调用等功能,可为用户提供认证鉴权、安全隔离、Tokens计量、访问统计和自主一键式模型部署等服务。

图片

此外,联通研究院还研发了大模型推理性能指标监控系统,可对接适配多种推理框架,支持对大模型推理服务的token吞吐量、推理成功率、请求token数量、首token时延、端到端时延等多种指标的采集、处理和展示。通过对指标数据的分析,有效帮助开发和运维人员对模型推理服务进行优化,降本增效。

针对用户在DeepSeek私有化部署和使用过程中可能涌现的各类新的需求,联通研究院将继续依托高效的技术团队和敏捷的研发流程,第一时间将前沿技术转化为实际应用,为“AI+”国家战略贡献联通智慧和联通力量。

本文来源:中国联通研究院

扩展阅读

  • 扫码关注微信公众号