
摘要
随着生成式AI、大模型训练等场景的爆发,数据规模指数级扩张,传统存储架构已无法适配AI负载的严苛需求。本文围绕AI驱动下存储技术的全方位演进,从架构革新、设备升级、生态进化、性能加速、介质与接口革新、网络演进及前沿技术突破等方面展开分析,探讨存算分离多元实践、专用AI存储设备创新、一体化AI数据平台构建等核心内容,揭示存储技术从单一工具向智能数据枢纽的转型路径,为AI产业发展提供坚实的存储支撑,展望未来存储技术向极致性能、海量容量、智能管理方向的发展趋势。
关键词
AI存储;存算分离;一体化AI数据平台;QLC介质;RDMA
引言:AI时代存储的挑战与变革机遇
随着生成式AI、大模型训练等高性能计算场景的爆发式增长,数据规模呈指数级扩张,对存储系统的性能、容量、扩展性及智能化提出了前所未有的严苛要求。传统存储架构已难以适配AI负载的特殊需求,一场以“性能极致化、容量规模化、架构灵活化、管理智能化”为核心的技术变革正在加速上演。这场变革并非简单的性能升级,而是贯穿于架构理念、硬件介质、网络协议乃至软件生态的全方位演进,其核心目标是打破“数据供给”与“算力消耗”之间的巨大鸿沟,让存储真正成为AI生产力释放的加速引擎。存算分离的架构革新到专用AI存储设备的推出,从单一存储工具到一体化数据平台的进化,存储技术正沿着多条技术路径全面突破,构建起支撑 AI 产业持续发展的坚实底座。
本文将从架构革新、设备升级、生态进化、性能加速、介质与接口革新、网络演进、前沿突破等几个方面进行具体描述。
1 AI时代的存储技术趋势与变革
1.1 架构革新:存算分离的多元探索与演进
存算分离作为打破传统存储性能瓶颈的核心思路,已成为 AI 存储领域的主流探索方向,但不同厂商基于技术积累和场景定位,形成了差异化的实践路径,推动分离架构从 “简单拆分” 向 “精准适配” 升级。
国外厂商中,VAST DATA借鉴传统存储的Shared-Everything思想,首推完全DASE(解耦、共享一切)分离架构。该架构中,C-Node(计算节点)和 D-Node(数据节点)是两大核心组件,二者通过计算与存储的解耦设计,搭配 NVMe-oF 高速网络实现高效协同,适配AI、高性能计算等大规模数据处理场景。C-Node(计算节点)是系统的 “前端处理核心”,本质是无状态服务器,通常以容器形式部署,可随时启动、停止或横向扩展,且故障后无需迁移数据即可快速切换。D-Node(数据节点)是系统的“后端存储载体”,通常集成在 DBox 高密度 NVMe 机箱中,每个 DBox 一般包含多个 D-Node,且采用冗余设计保障高可用性。其参考架构如图1。

图1 完全DASE分离架构
随后,NetApp、Pure Storage、Hammerspace 等存储厂商也积极试水分离式架构,以替代部分集中式或分布式场景,主打灵活扩展与性能可靠性的平衡。
需要说明的是,Hammerspace、Pure Storage 等厂商的“存算分离”方案和VAST DATA并不完全相同,其特点主要在于 Metadata 和数据节点分离的创新方案,通过元数据与实际数据的独立部署与管理,进一步提升数据检索与访问效率,为 AI 场景下的海量数据管理提供了新的解决思路。这种多元探索的背后,是行业对“分离内涵”的重新认知——不再是简单的物理拆分,而是基于 AI 负载特性的资源优化配置,实现性能、扩展性与可靠性的动态平衡。
国内厂商同样也在积极探索,既有相似的存算分离方案,也有将计算部署在Client侧(以容器等形式运行存储服务),将存部署在JBoF(DPU 架构)上的方案,针对性解决 AI 场景的数据传输效率问题。
1.2 设备升级:专用 AI 存储设备的性能与功能突破
面对人工智能训练与推理场景对存储系统提出极致需求(包括超高吞吐、极低延迟、海量并发访问以及对新型数据结构的原生支持等),存储厂商积极探索,纷纷推出深度融合AI负载特征的专用AI存储设备。这类设备并非传统存储的简单提速版本,而是通过从硬件架构到软件栈的协同创新,实现了在性能、容量、智能化和兼容性方面的系统性突破。
在核心性能指标上,普遍提供每秒百GB级别乃至TB级的聚合带宽、千万级IOPS的随机读写能力,以及亚毫秒级甚至微秒级的稳定延迟,确保数据供给速度能够匹配GPU集群的计算吞吐,最大限度减少“GPU空闲等待数据”的现象。除此之外,这类设备能力的突破还于其功能的AI原生化和场景深度融合能力。
设备正演变为AI推理工作流的主动参与者。作为KV Cache的持久化存储体,设备与推理引擎紧密协同,通过将注意力机制中产生的海量KV对高效缓存在存储层,并结合智能预取与多级缓存技术(如DRAM-NVMe分层),能够显著降低生成首个Token(TTFT)的时延,提升整体推理吞吐量。
再比如,设备通过内嵌向量计算引擎与知识库管理功能,支持以张量(Tensor)、向量(Vector)等AI原生数据范式直接存取数据,并集成检索增强生成(RAG)框架。这使得存储系统能够直接参与回答用户查询,从海量非结构化数据中实时检索相关信息,有效减少大模型的“幻觉”问题,提升生成内容的准确性与可信度。
又比如,在数据治理层面,专用AI存储设备引入了全局数据智能,可以具备强大的元数据管理、编目与检索能力,能够对存储在多协议(文件、对象、大数据格式)下的海量训练数据、模型和结果进行统一标签化与索引。这不仅实现了跨集群、跨地域的全局数据可视、可管、可追溯,也为数据版本管理、模型血缘分析以及合规审计提供了坚实基础,将存储从数据“仓库”提升为AI数据资产管理的“核心枢纽”。
为实现上述极致性能,一般采用控制平面与数据平面分离的理念。控制平面负责元数据管理、策略调度和系统状态维护,而数据平面则专注于数据块的高速读写。通过这种分离,并结合极简的I/O路径设计(如绕过操作系统内核、减少数据拷贝次数)、专用数据处理单元(如DPU、IPU或SmartNIC),以及部署在计算节点侧的高性能并行客户端(实现本地缓存、协议优化和负载均衡)等技术,共同构筑了一条从GPU显存到持久化存储的超高速数据通道。
1.3 生态进化:从 AI 存储到一体化 AI 数据平台
当存储性能突破百GB带宽、千万级IOPS的技术阈值后,单纯的速度提升已无法满足AI应用对数据价值的深度挖掘需求。数据的管理效率、应用深度与智能化水平,成为制约AI整体效率提升的关键瓶颈。为此,从上游的芯片厂商到存储系统和应用厂商,共同推动将存储系统从功能单一的存储设备,进化为能力全面的“一体化AI数据平台”。AI数据平台从根本上拓展了数据的应用边界与管理维度,基于此,可以构建一个无缝衔接、智能自治的数据生态系统。新一代AI数据平台具备以下能力:
第一,全局数据智能管理。 平台通过构建跨越本地数据中心、边缘节点与多云环境的单一逻辑命名空间,实现对分散海量数据的统一视图、策略管理与访问控制。这可以打破了传统的数据孤岛,使得AI训练能够直接获取完整、连贯且实时更新的全域数据集,为模型训练提供了坚实的数据基础。例如,Hammerspace的全球文件系统技术,使分布在纽约、伦敦和东京的研发团队能够像访问本地数据一样,实时协同处理同一套训练数据,极大提升了跨地域AI项目的协作效率。
第二,深度融合的RAG与向量化能力。平台内嵌多模态知识库构建与管理引擎,支持对文本、图像、音视频等非结构化数据进行自动化向量提取、索引与更新。通过原生集成KV向量检索与检索增强生成框架,平台能够为大型语言模型提供精准、可追溯的上下文信息支撑。在实际应用中,此类平台可将企业内部知识库、实时业务数据与通用模型能力相结合,打造出真正理解行业、服务业务的专属智能体。
第三,面向AI原生的语义与数据接口创新。为优化AI负载与存储系统间的交互范式,AI数据平台需要引入并适配XDS(加速数据服务)、SCADA(可扩展加速数据访问)、MCP(模型上下文协议)等一系列新兴接口标准。这些接口针对AI工作流中特有的数据访问模式(如顺序预读、参数检查点的大块写入、推理时的随机向量读取)进行了深度优化,减少了不必要的协议转换与数据移动开销,使得GPU能够更高效地“消化”数据。
第四,内置的推理加速与计算下沉能力。平台通过智能多级缓存(如GPU显存-HBM、主机内存-DRAM、持久内存-PMEM、本地NVMe SSD的分层协作)、数据预取算法以及近存储计算框架,将热数据动态推送至离计算单元更近的位置,从而将关键的数据访问时延从毫秒级降至微秒级。这一特性对于要求高实时性的在线推理、交互式AI应用至关重要,确保了用户体验的流畅性。
AI数据平台的出现,标志着存储技术正式进入“数据驱动”的新阶段。它不再仅仅是保存比特的底层设施,而是演进为理解数据内容、预测数据需求、优化数据流并赋能AI创新的核心引擎。在这一生态进化中,存储已成为AI价值链条中不可或缺的基础组成部分,与算力、算法共同构成了驱动智能时代向前发展的三驾马车。未来,一体化的AI数据平台将持续深化其智能内涵,向着自动化数据治理、自适应性能优化与前瞻性数据服务的方向演进,最终成为企业构建和运营AI核心能力的战略基石。
1.4 性能加速:多级缓存与高性能对象存储的协同优化
AI大模型训练与推理过程中,数据存取效率直接影响 GPU 利用率和任务完成时间。针对训练时 CheckPoint 写入慢导致 GPU stall、推理时 TTFT(首条响应时间)长等痛点,行业通过多级缓存架构与高性能对象存储(S3 Over RDMA)的协同优化,构建起高效的数据存取通道。
多级缓存架构的核心思路是利用计算节点本地资源(DRAM、NVMe SSD)作为缓存加速层,与外部存储形成统一存储池,实现 CP(检查点)和 KV Cache 的读写加速。典型如华为 A800 采用三级 KV Cache 方案,通过 L1 HBM 显存、L2 DRAM 缓存、L3 SSD 存储的分层设计,结合私有客户端池化 L2 DRAM 的技术,显著提升 KV Cache 整体性能;再比如HammperSpace 的 Tier 0 方案将计算节点本地 NVMe 组成缓存池,与外部存储形成分级存储,性能较传统外部存储提升一个数量级倍;又比如Weka NeuralMesh 缓存方案则利用 GPU 节点本地 NVMe SSD 形成缓存池,实现 20 倍 TTFT 加速、10 倍 CheckPoint 加速,使 GPU 利用率突破 90%。这些方案的共同优势在于缩短了热点数据的访问路径,减少了数据传输延迟,让 GPU 能够持续高效工作。
与此同时,高性能对象存储(S3 Over RDMA)成为 AI 数据湖的核心构建方案。S3 API 的扁平地址空间可支持从 PB 到 EB 级别的无缝扩展,完美适配 AI 训练数据集的指数级增长;其统一存储特性能够支撑数据采集、清洗、训练、检查点保存及推理的完整 AI 工作流,构建起统一的数字底盘;丰富的元数据功能则为数据标记、检索与管理提供了高效支撑,满足 AI 操作的元数据驱动需求。目前,英伟达、DELL等众多厂商均支持 S3 Over RDMA 特性,通过 RDMA 技术的低时延、高带宽优势,进一步提升对象存储的访问性能,为 AI 数据湖提供了高性能、高扩展的存储基础。多级缓存与高性能对象存储的协同,形成了 “热点数据本地缓存、海量数据云端沉淀” 的高效存储架构,为 AI 负载提供了全场景的性能保障。
1.5 介质与接口革新:大容量化与标准化的双重驱动
AI 训推应用对存储容量的需求,推动存储介质向大容量、高密度演进,而接口标准的革新则为介质性能的释放提供了支撑,形成 “介质升级 + 接口优化” 的双重驱动格局。
QLC(Quad-Level Cell)介质的崛起成为大容量存储的核心动力。IDC 预计 2026 年 QLC 出货容量占比将超过 60%,成为存储介质的主流选择。QLC 介质具备存储密度高(较 TLC 高 33%)、单位存储成本低的优势,尽管随机写性能和耐久度不及 TLC,但通过高速耐久性 SCM 缓存、软件架构改造(如 CSAL)及高效数据可靠性算法,其短板得到有效弥补,广泛应用于 AI 推理数据存储、HPC 科研、大容量温数据存储等场景。目前,国际厂商已推出 64TB、128TB 甚至 256TB 的大容量 QLC SSD,国内企业也实现了 100TB 以上产品的突破,DELL、NetApp等存储厂商则将大容量 QLC 整合到 AI 存储架构中,进一步提升产品的容量密度与性价比。
接口标准的革新同样关键。SNIA(存储网络行业协会)与 OCP(开放计算项目)联合推出EDSFF E2新接口规范(编号 “SFF-TA1042”),专为 “温存储” 场景设计,填补了传统机械硬盘与企业级SD之间的空白。E2 SSD 采用 200mm×76mm×9.5mm 的尺寸设计,支持 64 颗堆叠的 QLC 封装闪存,单盘最大容量可达 1PB,每个 TB 的设计性能目标为 8-10MB/s,1PB 容量即可实现 10GB/s 的总带宽;在 2U 服务器中最多可部署 40块E2 SSD,总容量高达40PB,典型功耗仅 20-30W,在性能、密度、成本之间实现了完美平衡。目前,美光已展示E2 SSD原型设计,Pure Storage也推出了 300TB 产品,该规范的落地将进一步推动 AI 存储系统向大容量、高密度、低功耗方向发展。
1.6 网络演进:端到端优化支撑高性能存储访问
AI 计算对存储的高性能需求,不仅驱动存储介质与设备的革新,更推动存储网络技术的快速演进。存储网络的优化涉及多层次、多协议,需要端到端地平衡演进节奏与性价比,为计算节点(CPU、GPU)高效访问存储资源提供支撑。
存储网络的演进呈现多层次特征:在计算节点本地,PCIe、CXL等Scale-up网络技术不断升级,提升本地存储资源的访问效率;在计算与外部存储之间,IB、RoCE 等存储前端网络技术实现高带宽、低时延传输;在存储集群之间,IB、RoCE 等 Scale-out 网络技术保障了存储系统的横向扩展能力。多协议的融合应用则进一步丰富了存储访问方式,NVMeoF(NVMe over RDMA、NVMe over TCP)、NFS over RDMA、S3 over RDMA 等协议实现了不同场景下的高性能访问,增强型以太网(UE)则通过多路径均衡、低时延、拥塞避免等优化,提升存储网络的通信效率。
端到端的网络优化是提升性能的核心抓手。通过 RDMA(IB/RoCE 网卡或 DPU)技术,可降低计算与存储之间网络通信对 CPU 的消耗及多次内存拷贝带来的延迟;利用 GDS(GPUDirect Storage)、AiSIO (Accelerator-Initiated Stroage I/O)等技术,实现 GPU 对存储的直接访问,进一步减少CPU干预,降低时延。不过,存储网络的发展仍面临诸多挑战,Scale-up与 Scale-out网络技术的快速演进需要配合多种网络协议栈和存储软件栈的优化改造,DPU在JBOF节点的应用、CXL 技术在存储系统的落地、RDMA 基于不同业务负载的优化等问题,都需要行业持续探索与突破。
1.7 前沿突破:专用介质、IO 优化与新兴技术落地
在 AI 存储赛道的激烈竞争中,技术创新不断向纵深发展,专用 AI 存储介质的细分、GPU IO 性能的持续挖掘、DPU 与 CXL 等新兴技术的落地应用,成为推动行业进步的核心动力。
AI 存储赛道的细分趋势日益明显,专用 AI 存储介质不断涌现。国内外主流厂商针对 AI 存储的不同需求,发布了专用存储介质(HBM、DRAM、SSD等),其中 SSD 盘根据 IOPS、时延、带宽、容量四大指标细分为极致性能盘、高性能盘和大容量盘,满足不同 AI 场景的差异化需求。这种细分不仅提升了存储介质与 AI 负载的适配度,也进一步加剧了外部 AI 存储在细分场景的竞争,推动行业向精细化、专业化方向发展。
GPU 的 IO 上限远未达到,相关优化方法持续创新。比如,英伟达在"Storage-Next"架构中提出了SCADA(Scaled Accelerated Data Access)方案。这个方案中,GPU服务器中的GPU可以直接启动和控制存储IO,而不必强依赖于CPU。在最初的设计中,GPU被x86服务器视为辅助加速器,服务器控制着数据的流入和流出,同时拥有IO的控制路径和数据路径。GPUDirect将数据路径从x86 CPU中分离出来,通过RDMA技术实现GPU内存与NVMe驱动器之间的直接数据传输,但CPU仍然控制着控制路径。而SCADA更进一步,将控制路径也从CPU中分离出来。与英伟达现有的GPUDirect协议形成对比,Nvidia SCADA方案在小块传输方面更加快速。再比如,大普微则通过英伟达的 BaM(Big accelerator Memory)框架,在其 PCIe Gen 4 和 Gen 5 SSD 上实现了比 GPUDirect 更快的读写速度,其核心原理包括 GPU 线程直接访问存储设备、GPU内存中的细粒度软件缓存、高并发处理及高效 I/O 管理,有效避免了 CPU-GPU 同步及软件瓶颈。
DPU 与 CXL 技术的落地应用则为存储系统带来了新的突破。基于 DPU 的高性能 JBOF 替代了传统的 CPU+NIC+DRAM 架构,在存储前端控制器中实现计算密集型操作的卸载和数据加速(加密、压缩、EC、重删指纹计算等),性能优势显著。
2 结语:AI 存储进入生态协同与技术深耕的新时代
AI技术的快速演进正在重塑存储行业的发展格局,从架构革新到设备升级,从平台进化到介质、网络的全面突破,存储技术正经历一场全方位、深层次的变革。存算分离的多元探索、专用AI存储设备的性能爆发、AI数据平台的生态构建、多级缓存与高性能对象存储的协同优化、QLC 介质与 EDSFF E2 接口的标准化推进、存储网络的端到端优化,以及DPU、CXL 等新兴技术的落地应用,共同构成了 AI 存储的发展全景。
未来,AI 存储将朝着“更极致的性能、更巨大的容量、更灵活的架构、更智能的管理”方向持续迈进,而生态协同与技术深耕将成为核心竞争力。存储厂商需要紧密贴合 AI 负载的实际需求,加强软硬件协同优化,推动技术标准的统一与完善,同时深化与 AI 芯片、云计算等领域的合作,构建开放共赢的产业生态。随着各项技术的不断成熟与融合,AI 存储将不仅是数据的“容器”,更是 AI 产业发展的“引擎”,为人工智能的持续突破提供坚实可靠的数据支撑。



浙公网安备 33010802004375号