新华三公司新闻

  • 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

Polaris如何应对AI训练中的高带宽存储挑战

【发布时间:2025-02-28】

伴随AI技术的飞速发展,越来越多的企业客户正在加速大模型的部署与应用。当跨越算力鸿沟成为可能,掣肘模型训练效率提升的下一道关卡——构建高带宽的海量数据存储平台,正成为企业抢占AI应用先机的战略要地。

AI训练为什么需要存储提供高带宽能力

随着AI市场的爆炸性增长和大模型如GPT系列等的涌现,AI领域对算力和存储的需求呈指数级增长。这种需求的快速扩张不仅源于模型训练数据的庞大体量,还由于这些模型包含数以十亿计乃至万亿的参数,需要强大的计算能力来支持其训练和运作。

在AI训练过程中,需要在极短的时间内处理大量的数据,包括但不限于模型训练数据、参数更新和模型输出结果。这一过程的高效执行依赖于存储系统的良好表现,尤其是其带宽和延迟性能,直接决定了AI训练的速度和效率。事实上,随着各种高性能AI应用的不断涌现,这些应用对数据传输和处理的效率提出了更高的要求。

存储系统在AI应用的训练阶段尤为关键。以当前的大语言模型(LLM)为例,如GPT-3和GPT-4等模型,其参数规模的迅速增长已经超越了传统存储系统所能轻松处理的范围。这些模型的参数量由数十亿转向数千亿,甚至上万亿,导致对存储系统的带宽和响应时间方面的要求大幅提升。同时,这种增长也对数据处理速度和存储稳定性提出了更严苛的需求,以便能在训练过程中实时、高效地读取和存储数据。

在大模型开发过程中,训练中断是常见的现象,可能由诸如网络问题、硬件故障及其他未知原因引起。为了减小损失并提高效率,多数大模型厂商会使用“检查点”(checkpoint)技术。通过定期保存当前的训练状态,一旦系统中断可从最后的检查点继续,从而避免重新训练整个模型。然而,这一过程本身是一个同步阻塞的过程,意味着当GPU执行检查点的存储操作时,无法进行其他计算,直接导致训练暂停。

此外,AI大模型的训练过程是耗资巨大的。据报道,微软Azure为训练ChatGPT构建了一个万卡规模的的庞大计算集群。因此,在训练阶段,对每一分钟的GPU利用率的优化极为关键,以避免不必要的开销浪费。

为了实现高效稳定的训练,AI开发者需要在算力和存储资源之间取得平衡。特别是在执行检查点操作时,存储系统必须应对高并发和高吞吐量的挑战,以确保GPU资源能够最大限度地发挥其作用。这不仅关系到大模型训练的效率,也影响整个AI计算集群的经济效益。

Polaris如何应对高带宽存储挑战

众所周知,Checkpoint本质上是一组大小从GB到TB不等的大型数据文件。在处理这些Checkpoint文件时,优化读写性能显得尤为重要。从存储角度来看,这一优化主要集中在提升大I/O操作的效率。Polaris在软件方面,通过高性能并行客户端减少东西向数据量的转发;通过智能分流、RDMA技术缩短IO路径;通过内存零拷贝技术减少IO路径上的数据拷贝。这些多管齐下的优化策略,使Polaris释放了存储系统的性能潜力,全闪单节点带宽超过50GB/s,确保在处理Checkpoint文件时能保持高效、稳定的性能水平。

高性能并行客户端

原有的标准协议架构,1个标准的NFS客户端只能与一个存储节点相连,客户端访问的数据需要在存储节点间二次转发,才能实现跨节点的数据访问。

而Polaris支持高性能并行客户端(EPC),通过并行客户端可直接访问多个存储节点,无需通过存储间节点转发,缩短IO路径,降低数据访问时延。

descript

智能分流技术

在协议层将大小IO分开处理。小IO写入Cache后,即可返回写请求,小IO性能得到提升。大IO则绕过缓存,请求下发到持久化层后,由持久化层直接通过RDMA读命令,从协议层拉取数据,缩短IO路径,减小网络、内存和硬盘带宽的开销,提高大IO落盘效率。

大IO直通持久化层,经过副本/EC策略后落到持久化介质,节省了Cache占用和相应的CPU资源开销。

descript

RDMA互联

与传统的TCP/IP通信机制相比较,RDMA技术通过运用内核绕行(Kernel Bypass)和零拷贝(Zero Copy)技术实现了关键性能优化。这种优化显著降低了网络传输延迟,并有效减少了CPU使用率,进而缓解了内存带宽瓶颈问题,充分提升了系统对带宽资源的利用效率。

descript

内存零拷贝

传统用户态设计中,1次数据传输过程,发生了4次上下文切换和4次拷贝

第一次拷贝,把磁盘上的数据拷贝到操作系统内核的缓冲区里,这个拷贝的过程是通过 DMA 搬运的。

第二次拷贝,把内核缓冲区的数据拷贝到用户的缓冲区里,于是我们应用程序就可以使用这部分数据了,这个拷贝到过程是由 CPU 完成的。

第三次拷贝,把刚才拷贝到用户的缓冲区里的数据,再拷贝到内核的 socket 的缓冲区里,这个过程依然还是由 CPU 搬运的。

第四次拷贝,把内核的 socket 缓冲区里的数据,拷贝到网卡的缓冲区里,这个过程又是由 DMA 搬运的。

Polaris采用了全用户态设计,实现了内存零拷贝。在Polaris存储系统中1次数据传输过程,不发生上下文切换,仅需要2次DMA拷贝。无需CPU拷贝,减少了CPU的开销,因此提升了系统性能。

descript

当前,算力平权正推动着AI产业快速发展,高效的数据存储系统必将成为AI训练增效的下一个引擎。新华三的Polaris全闪分布式存储系统,凭借其超强性能、架构简化和极致稳定性,为更多企业和用户提供了便捷、高效的AI存储解决方案,推动数据存储、AI计算和大模型训练的高效协同,为AI创新注入新的活力。

新华三官网
联系我们