新华三公司新闻

  • 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们

多层级可靠 构筑智算训练的稳定数据基石

【发布时间:2025-01-15】

伴随着智算需求的增长,GPU算力投资已占到AI加速芯片销量的80%以上,但相关统计数据显示,在实际模型训练场景下,GPU的平均利用率却不足50%。

究其原因,由于数据存储的可靠性不足导致的训练中断尤为突出。例如,训练数据的读写中断、租户间资源相互干扰、计划内的扩容升级以及计划外的宕机等,都会引起算力资源的空耗,从而降低GPU的整体利用率。而解决这一困扰的关键,在于一套高度稳定、多层级可靠的数据存储系统,提供坚实的数据底座支撑。

软硬件协同创新

重构分布式存储可靠性体验

新华三下一代AI数据存储平台H3C UniStor Polaris X20000系列,通过对分布式存储的软硬件协同创新,基于独特的NVMe高密全闪架构,结合新华三傲擎数据存储底层平台,实现了媲美集中式存储的性能和可靠性体验。在系统整体设计方面,H3C UniStor Polaris X20000系列所有组件,不管是硬件还是软件,都采用了“冗余、多活、自动隔离和自愈”的设计,形成多层级可靠性方案。

descript

传统的分布式存储系统,采用节点间心跳的方式监控各节点状态。在智算训练场景下,大规模集群中大量的心跳消息会对网络性能造成影响,并额外消耗计算资源。H3C UniStor X20000系列,创新性地通过SOM存储集成管理平台,实时监控节点健康,制定中断上报、事件上报和主动轮训三种不同的上报方案,配合存储软件联动,实现故障毫秒级上报,性能影响<5%。不论是计划内的维护升级、扩容还是计划外的意外故障,业务都是“弱感知”,保障智算训练任务不间断连续运行。

在智算场景下,多租户操作也是影响训练稳定性的关键因素之一。多租户环境下,单个软件实例需要为多个不同的用户组提供服务,需要在数据的共享、安全隔离和性能间取得平衡。在处理敏感数据时,数据安全的实现策略也会直接影响到不同租户间的隔离程度。H3C UniStor Polaris X20000系列提供了全面的安全策略管理,支持租户间资源隔离,确保每个租户都有独立的容量分配和性能QoS策略,实现模型训练过程中多租户间的零干扰。

在智算平台的建设过程中,数据存储的稳定性对算力有效供给有着重要意义。面向未来,新华三集团将继续秉持“精耕务实,为时代赋智慧”的理念,不断深化“内生智能·成就智慧存储”技术战略,充分发挥自身在数字领域的创新优势,加大产品创新力度,为百行百业构筑澎湃算力提供稳定的数据基石。

新华三官网
联系我们