新华三公司新闻

  • 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

200万IOPS突破传统存储瓶颈!Polaris定义智算数据读写新基准

【发布时间:2025-04-16】

在智算时代,AI技术的迅猛发展不断突破数据处理能力的边界,存储系统的性能已成为制约大规模AI训练效率的关键瓶颈。其中,IOPS(每秒读取次数)作为衡量存储性能的核心指标之一,直接决定了系统处理海量数据请求的能力。尤其在自然语言模型训练等场景中,动辄百万级的小文件高频读取需求,使得传统存储架构面临前所未有的挑战。这种突破物理介质极限的性能要求,不仅重新定义了智算时代存储系统的能力标准,更催生了分布式存储架构的创新革命。

AI训练为什么需要百万IOPS

近年来,AI领域取得了显著的发展,成为广泛关注的热点。AI的工作负载主要由两个关键阶段组成:训练和推理。在训练阶段,存储系统的性能对于整体效率至关重要,特别是在两个方面:训练数据的加载和检查点(checkpoint)的保存。检查点是一组GB到TB级不等的大文件,快速保存检查点对存储的要求是提供高带宽能力。那么训练数据的特点是什么?对存储的要求又是什么?

descript

以H100和A100推荐存储性能为例,可以更清晰地了解AI服务器在处理自然语言模型时对存储系统的要求。在自然语言处理任务中,数据集通常由大量小文本文件组成,平均文件大小约为2KB。对于A100单节点AI服务器,其推荐的读带宽为2GB/s。这意味着,为了充分利用这一带宽,系统需要每秒处理多达100万个小文件的读取操作。

同样,H100单节点AI服务器在满带宽条件下的需求更为显著,每秒需要读取多达200万个小文件。这些数据表明,AI服务器在自然语言模型训练中对存储系统提出了极高的性能要求,尤其是在小文件的高频读取方面。存储系统必须具备极高的并发处理能力和低延迟,以确保在如此高的文件访问频率下仍能保持稳定和高效的性能。

descript

超百万IOPS是如何炼成的

处理海量小文件的读写操作通常会带来高额的I/O开销和沉重的元数据管理负担。在这些操作中,元数据处理往往占据了很大的比例,可能达到整体操作的70%至80%。这使得元数据性能成为限制系统IOPS的主要瓶颈之一。

为应对这一挑战,Polaris系统引入了一种高效的元数据管理框架,能够提供百万级的IOPS性能。首先,Polaris采用了一种全局分散的元数据处理策略,将元数据均匀分布到多个节点进行处理。这种方法有效地消除了单点瓶颈,极大地提高了系统的并发处理能力。

其次,Polaris引入了全局共享的分布式缓存策略,为业务I/O提供了一个共享的分布式缓存加速资源池。用户的写请求在被写入该缓存池后立即返回成功确认,从而显著提升了请求的响应速度。在数据落盘时,Polaris通过ROW(Redirect-on-write:写时重定向)技术,将随机的小I/O操作聚合成大I/O进行顺序写入。这不仅有效地减少了EC(纠删码)场景下的写惩罚,还降低了元数据操作次数及CPU的开销,同时减少了容量浪费。

这些技术应用显著提升了Polaris在处理小文件时的性能表现,使其能够更高效地应对海量小文件操作带来的挑战。

全局分散的元数据处理方式:

● MDS(元数据服务)采用全主模式,每个元数据节点提供n个VMDS服务。

●每个VMDS处理归属自己的元数据,处理能力随硬件资源提升线性提升。

●目录A创建后,系统会为其自动生成x个虚拟目录

●虚拟目录通过hash算法随机打散到VMDS上。每个虚拟目录对应固定的VMDS服务(假设虚拟目录1对应的元数据服务是VMDS n)。

●当向目录A写入文件file1时,系统会根据file1的文件名称计算落到哪个虚拟目录(假设落到虚拟目录1),file1的元数据处理就自动分配到VMDS n。

descript

全局分布式缓存&ROW技术:

●业务主机下发的小IO写入分布式缓存后,即返回完成,缩短IO路径。

●数据在分布式缓存中,随机小IO通过ROW技术聚合成大IO顺序落盘。EC场景则聚合成满条带写入持久化介质。避免了未满条带的情况下带来的写惩罚,无需将原有数据读出后计算新的校验位再写入。减少了元数据的操作次数和CPU开销,从而提升了系统性能。

descript

伴随着AI的快速发展,高效的数据存储系统必将成为AI训练增效的下一个引擎。新华三的Polaris全闪分布式存储系统,凭借其超强性能、架构简化和极致稳定性,为更多企业和用户提供了便捷、高效的AI存储解决方案,推动数据存储、AI计算和大模型训练的高效协同,为AI创新注入新的活力。

新华三官网
联系我们