_2574879_30005_0.jpg)
大模型时代GPU互联技术与智算网络:发展脉络与未来走向
在人工智能领域,模型的规模和复杂性正迅速增长,参数数量的激增尤为显著。OpenAI的GPT-3以其1750亿个参数的庞大规模,标志着自回归语言模型的一个新里程碑,其参数量是之前任何非稀疏语言模型的十倍以上。然而,GPT-3的记录很快就被其继任者GPT-4所超越。GPT-4在120层的架构中包含了1.8万亿参数,其规模是GPT-3的十倍以上。在开源领域,大模型的竞争同样激烈。2024年3月,马斯克旗下的xAI公司开源了拥有3140亿参数的大模型Grok-1。紧接着,2024年7月,Meta开源的Llama 3.1模型进一步扩展到4050亿参数。此外,DeepSeek-V3模型也加入了这一竞争,其参数量高达6710亿,并于2024年12月26日宣布上线并同步开源。
多GPU互联:大模型时代的必然选择
这些庞大的模型需要处理和学习海量数据,以实现更准确的预测和更复杂的任务处理能力,这对GPU的计算能力提出了前所未有的要求。显然,单块 GPU 远远无法满足需求,必须将多块 GPU 紧密连接,大规模的 GPU 互联能够确保这些数据高效、准确地传输,减少数据等待时间,提高训练效率。此外,这种互联增强了计算的并行性,每块 GPU 可以负责模型的一部分计算任务,通过GPU之间的互联网络,它们能够同步计算进度、共享中间结果,如同一个紧密协作的超级计算机。
这种并行计算的模式充分发挥了 GPU 的强大浮点运算能力,满足了模型训练中的复杂计算需求,让超大参数量的大模型训练成为现实。具体来说,随着大模型的蓬勃发展,模型规模的扩大被认为是提升机器学习性能的关键因素,大模型训练需要处理的数据量已经远超单台服务器GPU的计算能力,必须通过多种并行处理方式将任务分散到多个GPU上,Scale-up和Scale-out应运而生。
智算中心的GPU互联:从Scale-up到Scale-out
在智算中心的网络架构中,以NVIDIA最新的DGX B200为例,目前其Scale-up架构基于NVLINK私有技术实现,解决机内GPU之间的互联问题。DGX B200的Scale-out网络可以基于NVIDIA专有的InfiniBand(IB)网络或者开放的以太网络(ETH)实现,解决多个服务器机间互联的问题。Scale-up架构主要用于处理模型中需要高频进行数据交互的部分,例如张量并行(Tensor Parallelism,TP)。通过Scale-up架构,GPU之间的超高带宽和超低时延互联可以有效减少通信开销,模拟出一个更大的GPU单元。而对于相对独立的训练任务,如数据并行(Data Parallelism,DP)、流水线并行(Pipeline Parallelism,PP)和专家并行(Expert Parallelism,EP),可以利用现有的以太网技术构建Scale-out网络,Scale-out网络在保持高性能的同时,最重要的目标是可扩展性,采用开放的以太网架构可以方便地扩展网络规模,并可利用其标准化和开放性引入多家供应商,保持较低的综合成本。
目前,Scale-up架构通常由GPU厂商以私有方式实现,如NVLink等,标准化和互通性推进较为缓慢,而Scale-out网络则伴随着以太网技术的发展已经走向开放互联。
Scale-out网络:现状、挑战与未来趋势
随着 GPU 数量的增加,从千卡规模到万卡规模乃至后续的十万卡规模,Scale-out网络拓扑结构的设计变得愈发复杂,确保大规模组网下数据传输的稳定性和低延迟成为关键问题。全球范围内的大模型组网显示,对Scale-out网络的需求包括支持单端口400G、800G乃至1.6T的高带宽接入能力、超高弹性的灵活扩容能力、全局利用率最大化的高吞吐效率和智能极简的易运维能力。同时对于面向租赁的智算中心场景还需要支持多租户和多训练任务的隔离能力,以及更亲和的云化能力。与此同时,大规模互联技术对散热和能耗提出了更高的要求,需要有稳定的供应链和成熟的产业生态系统作为支撑,还要考虑到降低建设和运营成本。
在多种能力的要求之下,Scale-out智算网络未来可能呈现多维度发展方向:在性能层面,GPU互联技术朝着提供更高带宽、更低延迟和更高稳定性迈进,以支撑日益庞大的计算任务;在行业规范上,建立开放的行业标准,促进跨行业广泛合作与信息共享,加速技术创新及实际应用落地;从生态模式看,鉴于多生态GPU的高效协同工作的需求渐长,构建统一的异构训练资源池成为关键趋势;对智算系统发展而言,在纵向扩展过程中要保持生态开放性,遵循开放行业标准,避免供应商独家锁定,实现软硬件深度协同。这些发展方向不仅将推动GPU互联技术的进步,还将为人工智能和高性能计算领域带来革命性的变化,满足未来对计算能力的巨大需求。随着这些技术的逐步成熟和应用,我们可以期待一个更加强大、更加高效的智算未来。