随着大语言模型(LLM)参数规模突破万亿级,传统数据中心网络架构(如NVL、TPUv4、SiP-Ring)逐渐暴露出瓶颈。

传统方案依赖昂贵的交换机(如NVIDIA的NVLink Switch)或光学电路(如TPUv4的OCS),其成本随集群规模呈指数级增长。例如,NVLink Switch单台成本高达数万美元,且仅支持单节点级扩展(如DGX H100集群最多8-GPU互联)。TPUv4虽采用光学环形网络,但其OCS交换机需定制化光纤布线,限制了跨Pod级扩展能力。

由于拓扑限制,单个GPU故障可能引发级联失效。以SiP-Ring为例,其静态环形拓扑要求所有节点严格同步,若某一节点故障,整个TP组需重新初始化,导致GPU浪费率高达37%(TP-64场景)。NVL架构中,单节点故障甚至会中断全局通信,迫使作业暂停重试。

跨ToR(Top of Rack)通信也成为网络架构的性能瓶颈。研究显示,GPT-3训练任务中35%的通信流量为跨机架传输,导致网络拥塞,带宽利用率不足40%。传统Fat-Tree拓扑虽支持高带宽,但其树状结构易在核心层形成热点,限制了大规模并行效率。

为了解决这些问题,最近,曦智科技联合北京大学、阶跃星辰的研究团队提出了一种以光交换(OCS)模组为中心的高带宽域架构InfiniteHBD。InfinitePOD通过无交换机架构设计 、动态拓扑编排算法和光通信技术优化 ,系统性解决了现有的问题。

InfinitePOD采用分布式节点直连网络,每个GPU节点配备QSFP-DD OCSTrx光模块(51.2Tbps带宽),通过预定义光纤链路实现跨ToR的3跳内直连。可以省去专用交换机,仅使用标准化光模块,单节点互连成本下降60%。

同时物理层支持任意规模集群互联,实验验证可扩展至65536 GPU,远超NVL(16384 GPU)和TPUv4(单Pod级)。在拓扑灵活性上,通过软件动态配置通信组,支持K-Hop Ring(环形)和K-Hop Line(线性)等拓扑,适配TP、DP、PP等不同并行策略。

InfinitePOD采用了两阶段部署机制,首先是物理层预定义,在部署阶段规划节点间3跳光纤连接,形成Rail-Optimized拓扑,减少跨机架流量;在运行时动态编排,基于图切割算法(Graph Partitioning)和贪心策略,实时调整通信组拓扑。

容错机制上,当GPU故障时,编排算法自动重构通信路径,仅隔离故障节点而不影响全局。实验表明,在TP-64场景下,GPU浪费率从NVL的24%降至11%,作业中断概率降低72%。

在光通信技术上,InfinitePOD采用QSFP-DD OCSTrx光模块,光模块基于曦智科技硅光子技术的分布式光交换dOCS,将基于马赫曾德(MZI,Mach-Zehnder Interferometer)交换矩阵的光交换芯片集成到商用QSFP-DD 800Gbps光电转换模组中,大幅简化了器件结构的同时,有效提升了器件集成度,从而降低了成本和功耗,显著提升了InfiniteHBD的性价比和系统可扩展性。

同时采用Rail-Optimized拓扑,针对机架间通信优化,通过3跳内光纤直连实现流量局部化 ,AllReduce带宽利用率提升至77.26%,接近理论极限。

InfinitePOD的核心价值在于将光通信技术与分布式架构深度融合 ,通过“硬件简化+软件智能”的设计理念,重新定义了高带宽数据中心网络。尽管当前方案仍需解决长距离光信号衰减和模块功耗问题,但其开创性的设计已为下一代数据中心网络指明方向——去中心化、软硬协同、极致扩展 。

文章来自:电子发烧友

Loading

作者 yinhua

发表回复