新华三智算中心解决方案铸就AIGC算网基石

【发布时间：2023-02-21】

AIGC与ChatGPT简介

随着人工智能技术的不断发展，分析式AI技术持续迭代积累，带来了生成式AI的突破，生成式人工智能技术（AIGC）在原本数据分析的基础上，通过学习数据的产生模式，可以创造出新的样本数据。在此背景下，2022年11月底，OpenAI发布了集代码创作、文本撰写、翻译等功能于一体的ChatGPT模型。ChatGPT是在GPT-3大模型基础之上演化而来，但由于GPT-3存在偏见歧视及安全性风险以及生成内容不符合人类的偏好的问题，所以ChatGPT利用了RLHF方法（人类反馈强化学习）来提升效果，使得对话更符合人类偏好。因此，它被广泛应用于各种场景，包括程序生成、数据分析、内容创作等，而且有较高的认可度和关注度。

AIGC对基础设施的挑战

基础模型（基于大规模数据集和大规模算力训练的大型预训练模型）具备通用性和性能方面优势，已成为AI能力基座。以ChatGPT为例，其根基还是在通用基础大模型底座GPT-3上。训练超大基础模型需要多方面的关键技术作为支撑，算法、算力和数据是AI发展的三驾马车，算法依赖大模型参数的提升以及模型本身的优化，而算力和数据则需要依赖传统的GPU服务器、存储以及网络来实现相互交融并正反馈于算法本身。

descript

首先，我们来看大模型训练对AI算力的需求。伴随大模型的不断升级，模型训练对算力需求也不断增加，约每过3个月就会翻一倍。GPT-3模型（1750亿参数、45TB训练语料、消耗算力3640PFlops/s-Days），PaLM模型（5400亿参数、2.5亿个数据集、消耗算力29600 PFlops/s-Days）。ChatGPT按照1300万/天的访问量，估算需要3万+ GPU。

descript

其次，大模型训练对数据存储也提出了严苛要求。训练过程中会面临显存墙问题（模型是否能跑起来）以及计算/通信墙问题（能否在合理时间内完成训练）。单从显存占用角度来看，单卡80G显存理论支持25亿参数的模型训练（不做ZeRO极端优化），但考虑实际训练时间、数据规模和迭代轮次，需要在数据并行、模型并行和流水线并行之间进行权衡，需要投入更多的GPU卡来满足训练对显存的占用。与此同时，需要对数据集进行本地缓存来加速数据访问（尤其是图像），对存储的性能提出了更高的要求。

最后就是高性能网络方面。大模型训练集群往往采用混合并行（模型并行+数据并行+流水并行）的方式进行训练，GPU集群从存储集群拉去样本数据、GPU节点之间的参数交互，这两个数据传输的流程都需要高性能、低延时的网络作为基础。

新华三智算中心全栈解决方案能力

新华三基于对AIGC全流程技术需求的深刻理解，推出了智算中心全栈解决方案，依靠MLOps、数据管理、版本化管理以及弹性架构等优势，可为广大互联网用户提供业界最全最细致的AI支撑能力。

descript

一、基于绿洲数据平台可以提供数据全流水线管理能力，配合傲飞智算平台可以支持从训练到推理的全生命周期流水线，提供精细化的自动化数据处理以及精细化的模型性能监控调优。

descript

整个AI集群的运转过程可以大致用上图概括：①数据采集→②数据治理→③数据目录→④数据标注→⑤算法开发→⑥模型训练→⑦模型管理→⑧模型推理。其中①②③是由数据平台提供相应能力，后续的一系列流程则需要智算平台进行支撑。值得一提的是，傲飞智算平台可以通过相关性能指标（模型准确率/GPU内存占用/模型大小/吞吐量/延时）进行模型量化：解释在模型调优过程中，数据的变化以及算法的变化，从而使得AI任务端到端可视化。

二、算力基础设施层作为整个AI集群的执行点，需要GPU计算、网络以及存储等产品的全方位支撑，结合AI集群的运转流程，其整体架构如下所示：

descript

该架构整体上分为3个区域：数据资源区、智算训练区以及智算推理区。从数据采集到数据标注均在数据资源完成，而模型训练、模型管理以及模型推理则在另外两个区域完成。数据资源区与智算训练区需要用高性能网络作FullMesh互联，智算训练区的不同GPU节点同样需要FullMesh互联。接下来我们依次看下新华三全面的基础设施能力：

智算训练集群

组建训练集群的服务器大多使用搭载专用GPU模组的标准机，如H3C UniServer R5500 G5。H3C UniServer R5500 G5支持Intel Whitley平台和AMD Milan双平台，最多可以提供128个CPU核心，可最大程度满足训练集群的CPU算力需求。

训练集群将预训练数据集拉取到本地后需要先存储到NVMe SSD里，基于GDS（GDS, GPU Direct Storage），可以通过PCIe Switch将NVMe SSD里的数据直接读取到GPU显存里。

GPU在训练过程中会进行频繁通信，包括P2P通信（1对1）和Collective通信（1对多或多对多）。在节点内，GPU之间的通信互联带宽可达400GB/s。在节点之间，GPU通信使用RDMA网络，通过GDR（GDR, GPU Direct RDMA）技术支持， RDMA网卡可以绕过CPU、内存，直接从远端节点读取数据到GPU显存。

descript

根据数据集、模型大小的不同，会产生多种训练方式，比如数据并行、模型并行、流水线并行、混合并行等。根据训练方式的不同，训练集群的GPU节点也会进行对应的拆分、组合。为了最大程度复用训练集群资源，在选型时需要保证拓扑均衡的服务器系统架构，一般NVMe硬盘：PCIe Switch：RDMA网卡需要满足4:4:4或8:4:8的配比关系；此外，在集群组网时，推荐使用FullMesh的网络架构。

descript

H3C UniServer R5500 G5最大支持12个U.2 NVMe SSD（8个支持GDS）、10个X16网卡（8个支持GDR），可灵活支持4张NVMe SSD/网卡或8张NVMe SSD/网卡的配置，当前均有方案在客户侧落地。

一些大型互联网公司还会使用自研GPU Box搭配计算节点的方式组建训练集群，GPU Box里面会搭载专用GPU模组或其他厂商的OAM模组。OAM（OAM, OCP Accelerator Module）是开源的GPU模块，由OCP社区服务器项目组下的OAI（OAI, Open Accelerator Infrastructure）小组开发并制定标准。

OAM包括GPU和UBB，UBB（UBB, Universal Baseboard）是承载GPU的基板，可以在服务器整机中兼容不同厂家的GPU。新华三是OAI 2.0规范制定的重要参与者，并计划后续在R5500 G6上开发可支持不同厂家GPU的OAM模组。

在2023年初，新华三发布了新一代GPU机型R5500 G6，支持Intel Eagle Stream和AMD Genoa平台，PCIe 5.0及400GE网络的加持，相信会给客户带来更高的算力提升。

智算推理集群

GPU推理集群的规模主要取决于业务预期的并发请求，一般会多机多卡多实例部署。针对大规模推理场景，H3C UniServer R5300 G5支持多种类型的GPU方案，包括4 PCIe GPU方案、8 PCIe GPU方案和16 PCIe GPU方案，以应对不同客户不同算力的推理集群搭建需求。

方案

优势

4 PCIe GPU方案

支持最多4个双宽GPU

CPU to GPU带宽大，成本更优

散热和功耗比2U方案要低

8 PCIe GPU方案

支持最多8个双宽GPU

P2P性能好，延时低

16 PCIe GPU方案

支持最多20个单宽GPU

适合密集型推理场景

descript

在2022年11月份，新华三发布了基于AMD Genoa平台的GPU服务器R5350 G6，可实现90%的CPU性能提升和50%的内核数量提升；多种类型人工智能加速卡的支持，可应对人工智能不同场景下对异构算力的需求。此外，在2023年上半年，新华三还会发布基于Intel Eagle Stream平台的GPU服务器R5300 G6，请大家拭目以待。

高性能存储

高性能存储一般采用分布式并行文件存储，如新华三CX系列存储。新华三 CX系列存储采用全对称分布式架构，结合IBM Spectrum Scale（原名GPFS, General Parallel File System），可提供高带宽、低延时的存储服务。

高性能网络

新华三提供了多种可选的高性能网络方案，以供各用户不同业务场景应用。

2级Clos TH4+TD4组网方案，最大提供1024个200G端口接入能力

descript

2级Clos TH4+TH4组网方案，最大提供4096个200G端口接入能力

descript

以上两种方案均采用了以太网交换机RoCE组网方案，可以配合新华三自主研发的AI-ECN调优手段进行快速和精确部署。AI-ECN调优算法模型具有效率高、计算量小的特点，同时支持控制器集中式调优和网络设备分布式本地调优两种模式。例如，在集中式调优模式下，不需要专用的AI芯片，使用搭载Intel XEON-SP服务器的管控析集群，就可在较大规模网络管理下，开启ECN水线调优；在本地模式下，搭载Intel XEON-D 和 ATOM的新华三网络交换机，仅以较小的CPU开销就可以完成调优。

RoCE方案是业界常用的AI高性能组网方案，除此之外，有些用户还会考虑采用集中式框式设备实现小规模的AI组网：

descript

这种组网的优势在于无需部署复杂的无损以太网（PFC/ECN）功能，仅通过一台设备便可以实现1536个200G端口接入能力。新华三S125R/CR系列采用正交CLOS无中板设计，业务板与交换板之间采用信元转发，完美得解决了拥塞问题。实际应用场景中，在吞吐和时延等方面表现良好。但是这种组网由于单机框槽位问题，组网规模受限。

为了优化这个问题，新华三继而推出了DDC（Distributed Disaggregated Chassis，分布式分解结构）解决方案。

descript

简单介绍DDC其实就是将框式交换机拆分形成盒式组网，但是盒式交换机之间依旧采用信元交换，采用JR2C+双芯片方案最大可支持3456个200G端口接入能力。DDC对比RoCE在网络性能和网络收敛方面提升明显：ALL2ALL测试场景中，DDC完成时间可提高20-30%；无论UP/DOWN还是手工插拔测试方式，DDC的收敛时间缩短了几百到上千倍。

随着大模型训练所需网络带宽的不断提升，网络主芯片性能也会迅速增加，当800G/1.6T时代来临时，CPO/NPO交换机将会登上互联网舞台，而新华三也早已有所布局：

descript

S9825-32D32DO交换机，4U高度内可同时支持32个400G光模块接口和32个400G光引擎接口，后续可以平滑升级至51.2T平台。

结语

以ChatGPT为代表的AIGC已经成为当下互联网行业的风口，历史经验表明，善于抓住风口的企业最终都会站上时代之巅。在AIGC领域新华三已经与诸多头部互联网客户达成深度合作，新华三希望成为互联网客户紧密的合作伙伴，通过全栈的智算中心解决方案能力助力广大用户的AIGC相关研发和推进！

新华三公司新闻

热门推荐

热门推荐

H3C服务器

HPE服务器

热门推荐

H3C存储

HPE存储

热门推荐

商用台式机

商用笔记本

商用显示器

配件

热门推荐

热门推荐

智能终端

技术解决方案

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

专业安全服务

安全运营服务

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

技术支持

自助服务

热门推荐

热门推荐

热门推荐

热门推荐

合作伙伴培训与认证

热门推荐

热门推荐

公司刊物

加入我们

国家/地区

新华三智算中心解决方案铸就AIGC算网基石

联系我们