性能提升10倍，首Token时延降低72%丨新华三X20000存储KV Cache方案助力AI推理效率提升

【发布时间：2026-03-02】

据IDC预测，2026年中国智能算力规模将达2024年的两倍，其中推理算力增速将远超过训练，到2027年中国智能算力中推理占比将提高到72.6%。随着大模型推理进入规模化落地阶段，KV Cache 通过“以存换算”的思路，节省了GPU算力、提高了推理效率，成为AI推理应用落地的主流方案。

但随着8K、16K、32K乃至更大上下文长度逐渐普及，KV Cache的规模呈线性增长；在多并发场景下，KV数据读写压力更是呈指数级放大。比如，在Llama-405B上运行一个具有64K上下文的单个用户需要15.75GB KV缓存，当扩展到32个用户时，容量需求将飙升至504GB。如何高效承载KV Cache，已经成为AI推理基础设施架构中的核心议题。

此外，随着AI推理走入我们的日常生活，衡量应用体验和系统效率的关键指标——TTFT（Time To First Token，首次输出Token时延）被越来越多用户关注。TTFT不仅直接影响推理应用的用户交互体验，更决定单位时间内可承载的有效请求数。

X20000重构KV Cache访问模型

实现架构级优化

目前，将KV Cache从GPU显存中卸载已经成为行业共识。相比本地SSD，外置分布式存储具备更强的横向扩展能力，能够将KV访问转化为并行模型，且提供全局数据共享，支持大规模PD分离部署。这意味着在模型规模持续扩大、上下文不断拉长、并发请求持续增长的情况下，存储系统仍然能够保持可控的TTFT与稳定的吞吐能力。

基于这一趋势，H3C UniStor X20000 AI原生存储围绕KV Cache场景进行了系统级协同调优，使“外置存储承载KV Cache”从概念方案真正演进为生产级可用架构。

X20000存储通过EPC私有客户端，将每个6MB文件自动切分为1MB粒度进行分布式并发处理。这种细粒度切分机制，将单次KV访问转化为多通道并发读写，数据均匀分布至多个存储节点与引擎，使访问天然具备并行性，从而有效降低单路径阻塞概率。

descript

同时，针对KV文件分布扁平、目录与文件数量接近1:1的特点，X20000对目录与文件分布进行均衡优化，使数据在存储引擎间实现更均匀分布，进一步降低访问时延波动。这种优化逻辑的核心在于：不是单纯提升单盘性能，而是将KV Cache读写行为重构为“分布式并发访问模型”。这是一种架构级优化，而非参数级优化。

测试数据：KV Cache卸载至X20000后TTFT最高降低72%

围绕KV Cache卸载场景，实测数据显示，当KV Cache命中率达到90%时，将KV数据卸载至X20000分布式存储，TTFT得到大幅度优化。

descript

◆测试环境：

■GPU: A100 * 4

■推理引擎：vLLM 0.9.2

■模型：Qwen2.5-14B

◆UCM：性能最大提升6倍

■在90% KV Cache命中条件下，将KV Cache卸载至X20000存储，相比纯GPU计算模式，TTFT平均优化超过4倍，最大接近6倍。

■在相同条件下，X20000的TTFT仅为本地SSD的28%~44%，最高下降72%。

■系统可扩展能力提升4倍，在TTFT不超过2秒的约束下，采用X20000存储承载KV Cache后，模型的上下文长度可由8K扩展至32K，实现4倍提升，并发能力可由4路提升至16路，同样实现4倍扩展。

◆LMCache：性能最大提升10倍

■在90% KV Cache命中条件下，将KV Cache卸载至X20000存储，相比纯GPU计算模式，TTFT最大优化10倍。

■系统可扩展能力提升4倍，在TTFT不超过2秒的约束下，采用X20000存储承载KV Cache后，模型的上下文长度可实现8倍扩展，并发能力同样实现8倍提升。在16K上下文场景中，不同并发条件下普遍达到10倍以上性能提升。

◆并发与上下文持续拉升，时延曲线依然平滑

同时，随着并发数量或上下文长度持续增加，X20000的TTFT增长曲线保持相对平缓，而GPU纯算模式与本地NVMe SSD方案则呈现明显陡峭上升趋势。也就是说，当系统进入真实生产负载阶段——多用户并发、多轮长对话、持续高压访问——X20000所承载的KV Cache访问路径更具稳定性与可预测性。

X20000为AI应用构建可扩展的数据底座

在大模型推理进入规模化生产阶段后，KV Cache已成为影响系统承载能力与用户体验的关键因素。作为AI原生存储，X20000通过重构KV Cache访问路径，实现最大10倍性能提升，TTFT最大降低72%，并发能力提升4到8倍，帮助客户实现更高推理效率、更大模型承载、更高并发能力，为AI应用构建可扩展的数据底座。

新华三公司新闻

热门推荐

热门推荐

H3C服务器

HPE服务器

热门推荐

H3C存储

HPE存储

热门推荐

商用台式机

商用笔记本

商用显示器

配件

热门推荐

热门推荐

智能终端

技术解决方案

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

专业安全服务

安全运营服务

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

技术支持

自助服务

热门推荐

热门推荐

热门推荐

热门推荐

合作伙伴培训与认证

热门推荐

热门推荐

公司刊物

加入我们

国家/地区

性能提升10倍，首Token时延降低72%丨新华三X20000存储KV Cache方案助力AI推理效率提升

联系我们