近日,GitCode 网站上更新了一份题为《昇腾 AI 算力集群基础设施高可用技术系列报告》的文件。报告显示,华为团队通过构建极致可靠性的 CloudMatrix 超节点,有效降低了故障概率。在训练业务方面,实现分钟级 RTO(恢复时间目标);在高频 HBM 场景下,故障恢复时间缩短至 30 秒级,成功将万卡级训练集群可用度提升至 95% 以上。

此外,该文件还涵盖硬件管理、故障感知与诊断、超节点系统等相关创新内容,带来了诸多显著成果:万卡集群可用度达到 98%,集群训推最快实现秒级快速恢复,集群线性度超过 95%,并建立起包含千种故障模式的数据库,实现分钟级故障诊断。值得注意的是,98% 的万卡集群可用度在目前已公开的数据中处于领先水平。

AI 算力集群稳定性至关重要

万卡集群是由超过一万张加速卡(如 GPU、TPU 或专用 AI 芯片)组成的高性能计算系统,主要用于加速人工智能模型的训练和推理过程。随着 AI 大模型参数体量不断攀升,万卡集群已逐渐成为行业标配,甚至可以说是最低配置。

这一趋势推动了算力规模的快速增长。根据 IDC 的报告,2024 年全球智能算力规模达 725.3EFLOPS(FP16),同比激增 74.1%。预计到 2025 年,中国智能算力规模将突破 1037.3EFLOPS,相比 2023 年实现翻倍增长。

然而,万卡集群在实际应用中面临着三大显著挑战:其一,稳定性直接影响 “算力利用率”,在大规模训练过程中,节点故障可能导致梯度同步中断、模型参数回滚,甚至需要重新启动训练任务;其二,动态实时推理系统任务呈现两极分化的特点,推理阶段硬件需同时满足高吞吐与低延迟的要求,并且在不同场景下都要有稳定表现;其三,实现复杂万卡集群的长期稳定运行难度巨大,万卡集群包含数万颗芯片、数十万条光链路、数千台交换机,仅光模块故障率就会随着规模扩大呈指数增长,传统单机冗余方案在万卡规模下因 “故障定位难、恢复时间长” 而失效。

在这些显性挑战背后,还隐藏着其他问题。例如,在长稳运行方面,除了硬件设备的稳定性,还需考虑软件调度的 “蝴蝶效应”。在超大规模训练中,单个节点的 HBM 内存错误可能引发梯度同步失败,进而破坏整个集群的参数一致性,若调度系统无法快速隔离故障节点,可能引发 “级联失效”;同时,网络拓扑的脆弱性也不容忽视,万卡集群通常采用 Fat-Tree 或 3D Torus 拓扑,核心交换机负载极高,一旦发生拥塞或链路闪断,会导致全局通信延迟大幅上升。

可用性(Availability)与稳定性一样,也是衡量超大规模集群性能的核心指标,它是稳定性的量化体现,指集群在规定时间内正常运行、满足计算需求的比例,通常以百分比表示。据测算,万卡集群的可用性每提升 1%,相当于每年节省数千万算力成本,这也是头部 AI 企业将可用性视为 “算力投资回报率” 核心指标的原因。

提升万卡集群可用性

如前文所述,万卡级集群的稳定性和可用性已不再仅仅是技术指标,而是决定 AI 产业竞争力的关键要素。华为团队通过构建极致可靠性的 CloudMatrix 超节点,大幅降低故障概率,实现训练业务分钟级 RTO 以及高频 HBM 场景 30 秒级故障恢复。

为解决万卡级别 AI 集群平均每天会出现一次甚至多次故障的问题,华为团队提出基于系统工程的硬件故障管理技术,建立起集群全系统可靠性分析模型。CloudMatrix 384 超节点计算柜和总线设备柜关键部件均采用冗余设计:在计算柜方面,整柜电源模块冗余,风扇采用 N+1 冗余,并配备 2N 和 N+R 等供电系统;总线设备柜的交换机采用双电源供电设计,风扇同样采用 N+1 冗余设计。此外,还引入了 NPU HBM 多级 RAS 技术以及光模块本体高可靠技术,使 CloudMatrix 超节点具备万卡集群连续数天无故障运行的硬件高可靠能力,系统可用度超过 95%。

wKgZPGhL-O-AJep8AAIybs8R8b8670.png
CloudMatrix 超节点,图源:华为技术报告

针对万卡集群规模大、故障频发,软硬技术栈复杂,涉及数据多、传播快、依赖复杂等问题,华为团队提出大规模集群在线故障感知与诊断技术。该方案提供全栈监控,FlowScope 利用自研可编程设备实现准 TB 级流量预处理,能够在域内快速定位故障。目前该技术已在华为云产品技术栈落地,支持网络故障 3 分钟感知、5 分钟定界,网络故障诊断准确率达 95%。

wKgZPGhL-PiAYTqxAAMLovPpLAs521.png
网络域故障定位,图源:华为技术报告

为打造紧耦合服务器模式,华为团队提出极致可靠性的 CloudMatrix 超节点系统技术。单个超节点由 48 台服务器组成,每台服务器包含 4 颗 CPU 及 8 颗 NPU。每台服务器的接口数量为:管存 / VPC 平面 2200GE;参数面 8400GE;超节点平面 56×400G HCCS。一个机柜最大支持 4 个 8 卡节点,管存面 / 参数面交换机以及超节点 L2 层交换机外置,支持灵活组网。该超节点的设计目标是实现光模块闪断的故障率容忍度超过 99%;将高频的 HBM 多比特 ECC 故障恢复时间缩短至 1 分钟,使因 HBM 故障造成的用户算力损失下降 5%。通过 “系统层容错”“业务层容错” 以及后续 “运维层容错” 方案,成功实现了这一目标。

wKgZO2hL-QOABPofAAKjfJl-JB4792.png
CloudMatrix 超节点系统技术,图源:华为技术报告

为做到千亿稀疏模型训练线性度优化,华为团队提出 4 项关键技术,包括拓扑感知的协同编排技术 TACO、网络级网存算融合技术 NSF、拓扑感知的层次化集合通信技术 NB、无侵入通信跨层测量与诊断技术 AICT。实验及理论分析结果显示,Pangu Ultra 135B 稠密、Pangu Ultra MoE 718B 稀疏模型训练线性度超过 95%。具体来看,训练 Pangu Ultra 135B 稠密模型时,4K 卡 Atlas 800T A2 集群相比 256 卡基线,线性度为 96%;训练 Pangu Ultra MoE 718B 稀疏模型时,8K 卡 A2 集群相比 512 卡基线,线性度为 95.05%;4K 卡 CloudMatrix 集群相比 256 卡基线,线性度为 96.48%。

wKgZPGhL-Q2ADe0cAAKZp2-Qpbk404.png
线性度问题分析,图源:华为技术报告

针对大 EP 推理架构的可靠性难题,华为团队提出千亿 MOE 分布式推理分钟级恢复技术,通过基于请求切流实例间恢复、基于实例 / Pod 重调度与进程原地恢复的实例内有感恢复、基于 token 级重试和减卡容错的实例内无损恢复的三级容错方案,从芯片驱动层、框架层、平台层协同发力,构筑端到端可靠性体系。面向未来,华为团队还将持续研发减卡弹性恢复技术和基于快照进程的进程初始化加速技术。

wKgZO2hL-RaAMIVNAANrFY199uY985.png
千亿 MOE 分布式推理分钟级恢复技术,图源:华为技术报告

结语

在 AI 算力集群迈向万卡规模的产业变革进程中,华为昇腾凭借 CloudMatrix 超节点技术体系,通过硬件冗余设计、全栈故障感知、系统层容错等创新举措,将万卡集群可用度提升至行业领先的 95% 以上,实现高频 HBM 故障 30 秒级恢复、训练线性度超 95% 的突破,切实解决了大规模算力集群稳定性与可用性的核心难题。这不仅为 AI 大模型训练与推理构建了坚实的算力底座,更以 “每提升 1% 可用度节省数千万成本” 的实际效益,重新定义了算力投资回报率的行业标准。

文章来自:电子发烧友

Loading

作者 yinhua

发表回复