中国移动实现智算万卡池稳定运行新突破

2025/10/14 责任编辑:Hanson 访问:1031

近期,中国移动实现智算万卡池在长周期训练场景下持续稳定运行,训练稳定性达到行业领先水平,有效解决了超大规模算力集群调度、高可靠通信保障、故障智能诊断与快速自愈等业界难题。

随着人工智能技术的爆发式发展,大模型参数规模从百亿级向万亿级跃升,对智算基础设施的算力密度、稳定性和协同效率提出了前所未有的挑战。针对万卡级规模协同训练场景,全球普遍面临智算集群稳定性问题。中国移动依托哈尔滨数据中心智算集群,主导研发全调度以太网(GSE)技术体系,打造慢卡慢网络风险识别、断点续训、AI运维智能体等新技术,攻克了超大规模智算基础设施运行的关键技术难题。在协同管理机制上,中国移动以“五个一”卓越运维体系为指导,通过多轮流程优化攻坚,将故障处理流程大幅压缩,实现客户需求“一点响应”的端到端闭环。 

在关键技术突破层面,团队重点攻关三大核心难题。一是创新慢卡慢网络风险识别技术,实现典型场景故障全部感知、提升诊断准确率;二是研发断点续训机制,实现故障节点自动隔离后训练状态的分钟级回滚,硬件故障导致的断训量下降50%;三是引入AI运维智能体,通过多层架构日志分析系统实现分钟级故障定界,覆盖25类软硬件故障解决方案,将故障处理时长从数天级降至分钟级。训练任务使用一万余张NPU板卡,全程保持集群可用率、服务可用率达到三个九的超高稳定性,其中NPU故障占比、光链路故障率大幅降低,充分验证了技术方案的有效性。 

在卓越运维能力方面,中国移动在黑龙江、广东打造了智算运维样板间,首创训推一体的智算统一运维体系,率先构建了覆盖应用、模型、算力全栈的智能运维能力,业界领先探索应用-模型-算力的最佳实践与黄金运维指标体系,依托AI技术实现分钟级智算业务故障智能处置修复和能效算效双优,支撑党政、金融、教育等十大行业优势卡位,赋能智能制造、生态保护、智慧政务、隐私保护等社会关键领域,支撑外部客户数百场智算样板间参观展示、近百次顶层规划和解决方案设计,创造超10亿元直接经济效益。

中国移动智算万卡池长稳训练时长的大幅度提升,标志着我国在超大规模智算集群管控领域已具备领先水平,为全球超大规模智算集群的训练与运维提供了可借鉴方案。长稳运行能力直接将大模型训练周期缩短近三分之一,资源利用率近100%,为AI技术工业化量产奠定基础。稳定的智算底座可支撑自动驾驶、生物医药、新材料研发等前沿领域的突破,加速科技创新与产业升级。

未来,中国移动将大力推动算力基础设施从“通算为主”向“云智算”转变,支撑多样化、个性化、极致化计算需求,构筑新一代智能算力服务体系,从支撑大模型研发到赋能实体经济,以领先的智算基础设施为我国人工智能产业加速升级提供坚实可靠的算力底座。

本文来源:人民邮电报

扩展阅读

  • 扫码关注微信公众号