欢迎user

近日,中国电信广东公司携手紫光股份旗下新华三集团,在广东电信局点率先完成基于DDC架构的智算网络方案落地测试。结果显示,DDC架构(Diversified Dynamic-Connectivity,多元动态联接)在异构算力兼容性、无损传输性能和组网稳定性方面表现出色,能灵活适配主流GPU品牌的AI加速卡,实现多架构、多类型算力节点的高效互联。相比传统RoCE方案,有效带宽平均提升24.54%–41.37%,最高可接近100%,显著增强了智算网络的吞吐与稳定性。本次测试为DDC架构首次在运营商网络环境中完成端到端验证,标志着广东电信在算力互联与AI网络融合领域的创新实践上取得了阶段性成果,更为业界大规模智算中心网络架构的演进方向提供了更优方案。

随着AI大模型和智算中心的快速扩张,智算网络流量特征已不同于传统数据中心网络,对高速率、负载均衡、拥塞控制和运维管理提出更高要求。传统RoCE和InfiniBand(IB)方案虽曾广泛应用,但在部分大规模AI集群中逐渐显现局限,如RoCE在负载均衡和端网协同上需要进行复杂调优工作,IB方案架构封闭、技术演进受限。
多维验证:DDC架构的组网性能、开放兼容与无损传输能力全面领先
作为国内领先的通信运营商,广东电信创新部署新华三DDC架构智算网络方案并完成实测,验证了其在实际AI训练场景中的高性能、强兼容和低时延优势,为未来大规模智算中心建设提供可靠依据。测试中,双方合作构建典型的两层“Spine–Leaf”架构,由H3C S12500AI NCF交换机担任Spine节点,NCP交换机担任Leaf节点,分别接入8台和16台GPU服务器进行测试。

图示:8台GPU服务器环境DDC测试组网图

图示:16台GPU服务器环境DDC测试组网图
测试数据显示,DDC架构在All-to-All 和 All-Reduce 通信测试中整体性能明显优于传统 RoCE。随着消息规模增大,DDC 吞吐量稳步提升并持续保持高位,而传统RoCE 在中大消息段表现出明显下降和波动,性能差距逐渐拉大。DDC吞吐量相较传统RoCE最大提升约100%,充分验证其在大规模AI训练场景下的高带宽利用率与稳定性。结果表明,DDC架构在应对高并发、全互联通信负载时具备更优的流量调度与拥塞控制能力,为智算中心构建高性能、可扩展训练网络提供了有力支撑。

图示: DDC vs. RoCE - All Reduce 8机测试结果

图示: DDC vs. RoCE - All-to-All 8机测试结果

图示: DDC vs. RoCE - All Reduce 16机测试结果

图示: DDC vs. RoCE - All-to-All 16机测试结果
此外,本次测试还针对DDC架构的开放性、可靠性及可扩展性进行了多维度验证。结果显示,DDC在异构GPU环境下可兼容多品牌、多架构AI加速卡,实现最优转发性能;依托Credit和VOQ机制,在高负载下仍保持流量平稳、链路零丢包,并通过等长信元实现天然流量均衡;在设备、链路及版本升级等场景中,微秒级业务收敛保障了高可靠性,同时支持动态扩容,可平滑演进至最大7万卡超大规模集群。
未来,广东电信将继续携手新华三集团,深化在智算网络领域的协同创新,推动DDC架构在全国智算中心加速落地,为运营商构建高性能、可持续演进的算力互联底座提供坚实支撑,助力我国算力网络体系迈向更加开放、智能、高效的新阶段。

