欢迎user
当前,支撑模型训练的各类数据呈现爆发式增长。通过对海量数据的学习与分析,人工智能得以洞察数据的内在联系与规律,从而构建出更准确的模型。用于训练的数据规模庞大,来源复杂,由此带来了智算场景下数据存储协议融合的问题。
智算场景下,复杂异构应用往往会导致数据处理流程涉及到对象、文件、大数据等不同类型的协议访问,与此同时,用于智算训练的数据集规模庞大,来源复杂,涉及到各类不同的数据格式。这一过程中,用户时常会面临数据迁移、转换带来的低效问题。
以自动驾驶场景为例,采集到的原始数据是NFS格式,需要先转换为HDFS格式,才能利用大数据平台进行预处理,最终再将数据转换回NFS格式导入AI训练集群及演练仿真集群,进行深度挖掘和处理后,进一步调整自动驾驶策略。
为了应对上层文件、对象、大数据等不同的访问类型,AI/HPC系统通常在一套存储硬件集群上划分出多个独立的逻辑资源池,分别部署对象、块、文件系统的存储池,每个逻辑资源池仅支持单一访问协议。当跨协议访问数据时,需要先行拷贝原格式的原始数据,将其转换格式后,再进行处理及交互。
在数据处理过程中,突破不同类型数据间的访问障碍,实现协议融合,是提升智算平台整体运行效率的有效途径。
重构元数据架构与流程 实现语义、性能双“无损”
新华三H3C UniStor Polaris X20000系列高性能分布式融合存储,基于新华三自主研发的傲擎数据存储平台,重构了“元数据”的架构和处理流程,使得文件、对象、HDFS等非结构化数据共享唯一一份元数据,不同的上层业务系统可高效调用,而无需进行额外的拷贝与转换,从而实现“语义无损”和“性能无损”。
通过协议融合,将为智算平台建设带来如下收益:
简化架构,避免为不同业务系统单独构建存储系统,减少TCO;
提升数据处理效率,多样化数据可实现就地处理,数据零迁移;
整个数据处理流程中只需要访问一份源数据,无需多次拷贝,节约存储空间,可用容量最大可提升40%。
数据要素推动着人工智能技术的广泛应用与跨界融合。面向未来,新华三集团将秉持“精耕务实,为时代赋智慧”的理念,不断深化“内生智能·成就智慧存储”技术战略,充分发挥自身在数字领域的创新优势,加大产品创新力度,为智算场景提供最佳数据存储平台。