最高提速30%！高性能数据存储加速大模型训练

【发布时间：2024-12-25】

面对智算应用的大规模部署，用户的IT开支正在向GPU倾斜。在大模型训练的成本构成中，硬件投资包括算力、运力、存力，其中算力相关硬件投资占比80%。一个千亿级参数的大模型，往往需要上万颗GPU的算力，可在实际训练过程中，GPU的平均利用率却不足50%。制约因素包括大模型参数需要频繁调优、训练中断后恢复周期长、数据加载速度慢等等。如何确保智算系统高效运行？加速算力的同时，提升数据供给能力，或许是当下应对智算挑战的最优解。

大模型需要什么样的存储性能？

一次完整的AI大模型训练流程，通常分为数据集准备、模型开发、模型训练、模型推理几个阶段。其中每个阶段对数据存储的性能需求并不十分一致，属于混合复杂异构的工作负载，要求数据存储系统提供强大的综合性能表现。

举例来说，数据集准备阶段，涉及到不同终端、不同来源的大量数据，来源丰富且规模巨大，这些数据都需要存储到系统中，需要数据存储提供较大的带宽性能和高吞吐能力；此外，在长时间训练模型时，需要定期将阶段性的训练成果写入硬盘，这个过程即Checkpoint，这个过程对存储系统的小文件读写性能和带宽性能都要求非常高，如果存储系统性能不足，就会出现加载效率低，GPU空等的情况，从而拉低整个训练效率。

强悍存力，提升智算系统算力利用率

基于新一代傲擎平台的新华三AI数据存储平台H3C UniStor Polaris X20000系列，通过对存储软件栈进行重构和优化，大幅精简系统无效IO，优化数据读写路径，单节点性能就可实现80GB带宽和200万IOPS，大幅提升不同阶段的数据加载效率，可以减少30%的训练等待时间，保障智算系统的有效算力供给。

descript

Polaris X20000系列通过多项技术革新提升在智算场景下的性能体验，包括：

元数据性能优化

对高性能智算存储来说，元数据管理是至关重要的部分，将直接影响到文件系统的性能、可扩展性和可靠性。Polaris X20000系列创新性地针对分布式kv数据库进行了优化，来支撑整个元数据读写需求；同时设计了多级的元数据缓存，对元数据缓存结构做了针对性精简，减少内存占用，对元数据访问具有极大的加速效果。此外，采取多MDS、元数据打散、元数据协程化免锁等多种元数据性能优化手段，提升Polaris X20000系列的性能表现。

CPU智能分组

Polaris X20000系列针对AI/HPC 场景做了深度分析和软件优化设计，对CPU实现智能分组、绑核处理，实现专核专用，避免资源抢占，减少核间调度，最大程度发挥CPU性能。

高性能EPC客户端

同时，通过独有的高性能EPC客户端，Polaris X20000系列可同时连接多个存储节点，对上层应用提供标准POSIX和MPI-IO接口，获得更好的兼容性和更优的性能，多存储节点实现IO级负载均衡，最大程度发挥单节点性能。

AI训练综合负载能力提升

高带宽：通过RDMA、内存零拷贝、EPC、400G网络(结合硬件交换机)提升系统并行访问能力，实现高带宽性能；

高IOPS：通过Dcache技术，在小IO读写时，先写入高速缓存层，并通过ROW写时重定向快照，将多个小IO聚合成为大IO再一次性落盘，提升IOPS性能表现；

混合负载优化：在 EC逻辑层之上引入加速引擎层，对不同IO实现分组与流控调度，可同时满足大IO高带宽、小IO高IOPS与低时延的“混合负载”需求。

descript

当前，大模型参数从千亿向万亿演进，更大的模型参数需要更大规模的算力供给。新华三基于对智算场景的深入理解，对数据存储产品实现持续优化。面向未来，新华三集团将秉持“精耕务实，为时代赋智慧”的理念，不断深化“内生智能·成就智慧存储”技术战略，充分发挥自身在数字领域的创新优势，持续推动产品的智能进化，携手百行百业激发数据潜能，迈向智能新未来。

新华三公司新闻

热门推荐

热门推荐

H3C服务器

HPE服务器

热门推荐

H3C存储

HPE存储

热门推荐

商用台式机

商用笔记本

商用显示器

配件

热门推荐

热门推荐

智能终端

技术解决方案

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

专业安全服务

安全运营服务

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

技术支持

自助服务

热门推荐

热门推荐

热门推荐

热门推荐

合作伙伴培训与认证

热门推荐

热门推荐

公司刊物

加入我们

国家/地区

最高提速30%！高性能数据存储加速大模型训练

联系我们