联通研究院基于国产化算力完成DeepSeek-R1私有化部署

2025/02/27 责任编辑：Hanson 访问：1099

联通研究院成功实现DeepSeek-R1 671B满血版模型的私有化部署。

近日，联通研究院下一代互联网研究部与广东联通协作，基于广东联通算网基地的华为昇腾服务器B910算力资源，成功实现了DeepSeek-R1 671B满血版模型的私有化部署。

高效技术整合：打通国产化适配与场景落地的“最后一公里”

部署工作由联通研究院联合广东联通研发人员独立完成。为适配不同用户在不同成本投入和性能收益之间的权衡取舍，此次部署试验了16位全精度（BF16）和8位量化精度（W8A8）两种版本的部署模式。BF16版本适合于精确性要求高的推理任务；W8A8版本采用SmoothQuant优化算法和校准数据集减小量化误差，在降低一半算力资源消耗的条件下有效提升了推理速度，可广泛适用于各类对于精确性要求不是特别高的推理任务。

快速产品响应：第一时间推出周边适配产品

为了满足一线客户的产品化和市场化需求，联通研究院第一时间在自主品牌“CubeAI智立方”平台中开辟了“DeepSeek专区”，开发了专门服务于DeepSeek的周边适配组件和产品，实现了大模型中继、多来源模型接入、多版本模型管理、可视化推理控制台、API模型调用等功能，可为用户提供认证鉴权、安全隔离、Tokens计量、访问统计和自主一键式模型部署等服务。

图片

此外，联通研究院还研发了大模型推理性能指标监控系统，可对接适配多种推理框架，支持对大模型推理服务的token吞吐量、推理成功率、请求token数量、首token时延、端到端时延等多种指标的采集、处理和展示。通过对指标数据的分析，有效帮助开发和运维人员对模型推理服务进行优化，降本增效。

针对用户在DeepSeek私有化部署和使用过程中可能涌现的各类新的需求，联通研究院将继续依托高效的技术团队和敏捷的研发流程，第一时间将前沿技术转化为实际应用，为“AI+”国家战略贡献联通智慧和联通力量。

本文来源：中国联通研究院

中国联通