《数字化领航》AI技术专刊

前沿技术

探索面向Agentic AI Infra的内存驱动计算：
基于CXL的沙箱镜像池与硬件KV缓存加速的组合架构

文 | 新华三集团云与计算存储产品线俞引挺

摘要

Gartner 在最新发布的 2026 年战略技术趋势报告中，将 Agentic AI 及多智能体系统列为贯穿多项趋势的核心能力之一，人工智能正在从“被动响应”的工具进化为能够主动感知、规划并执行任务的“智能体”。这种从单体推理向“分布式智能体网络”的演进，引发了计算负载模式的根本性变革：长链条推理导致KV Cache爆炸、多Agent协作带来高频上下文切换、以及大规模沙箱镜像的瞬时拉取。

面对这一挑战，传统的存算耦合架构已难以为继。本文基于内存驱动计算的理念针对当前全系统统一总线内存池尚未实现的背景下，构建了CXL内存池+KV硬件级加速的组合方案。该方案利用CXL解决热数据的高带宽共享与沙箱镜像的毫秒级加载，以及利用芯片级KV存储加速模块，解决海量KV数据的缓存以及检索加速。本文将从逻辑层面严谨论证该架构在提升多Agent业务吞吐与资源利用率方面的潜力，并探讨业界需共同攻克的标准化难题。本文主要基于讨论如何通过AI解决“推理加速”和“沙箱启动”两大核心痛点。

关键词

Agentic AI；CXL内存池；芯片级加速；KV Cache；沙箱镜像；内存驱动计算

1 Agentic AI引发的计算范式转移

1.1 Gartner的2026预判：从“AI Agent工具”到“多智能体系统（MAS）

Gartner在最新发布的2026年战略技术趋势报告中，将Agentic AI及多智能体系统列为贯穿多项趋势的核心能力之一，将多智能体系统（MAS）定义为一组AI智能体，这些智能体通过交互来实现个人或共同的复杂目标。智能体可以在单一环境中交付，也可以在分布式环境中独立开发和部署。Agentic AI不仅进一步融合了文本、图像、语音等多模态能力，更通过机器人控制等接口与物理世界交互。更为关键的是，Agentic AI正与互联网深度结合，形成“分布式智能体网络”。在这种网络中，AI不再是孤立的模型，而是能够像人类团队一样进行大规模协作、分工与交互，标志着AI agent从工具型到多智能体系统的路径演进。

1.2 基础设施的前所未有的挑战

这种智能体网络的形成，对底层基础设施提出了前所未有的挑战。当数以千计的Agent在一个系统中同时运行、协作并长时间存活时，计算系统不再仅仅服务于一次性的推理请求，而是需要支撑一个庞大的、动态的、具有”长期记忆”的虚拟智能体组合。

2 深入剖析：Agentic AI的负载特征与系统挑战

2.1 业务负载挑战：复杂性与异构性的爆发

在Agentic AI场景中，多个LLM（大语言模型）的协同工作使得系统复杂度呈指数级上升。

2.11全流程融合

典型的Agent工作流并非单一的推理，而是深度结合了训练（微调）、推理（生成）、通用计算（工具调用与逻辑判断）和数据库管理（RAG记忆检索）四个核心环节。核心模型推理服务引擎融合了工作记忆以及程序记忆、语义记忆、情景记忆这三大长时记忆（Long-term memory）。

图1 Agent 工作流示意

如图1Agent流水线的几个关键逻辑举例说明。

1）用户请求

用户发起问题。通过LLM推理引擎进行Planning先进行“规划”，思考要用哪些工具、查哪些信息，再制定执行计划。

2）决策与行动

基于工作记忆中的推理、从三大记忆库中检索到的信息，来决定下一步应该做什么（Actions）。进行计算步骤或者是外部工具调用，比如按照计划调用外部工具或系统（检索、数据库、API 等），获取所需信息。

3）结果和观测

正确的结果和行动会进一步改变环境，并获取学习能力以形成正反馈。通过AIstack的全栈可观测能力感知可环节执行的状态。正确的结果会并将其作为新的输入，反馈给工作记忆，比如进一步训练AIagent模型，以开启下一个“思考-行动”循环。Agent对中间结果进行“反思校验”，判断检索结果和回答是否真的相关、是否需要补充或纠正。

4）结果反馈给用户

经过在多轮规划和工具调用以及反思之后，产出最终答案并返回给用户。

2.12 Agent长链条推理与记忆压力

Agent在执行复杂任务时需要进行“慢思考”，产生极长的推理链条。同时，为了保持人设和任务连续性，需要引入长期记忆。这直接带来了海量KVCache的存储与访存挑战，显存容量迅速成为瓶颈，无法释放GPU的计算性能。Agent AI时代对内存设计提出了更高要求，驱动内存架构进行重新设计。

表1 Agent 长链条推理的存储介质和要求

2.13 高频上下文切换与镜像开销

AI Agent沙箱，是一种专门为AI设计的隔离机制。在多Agent并发场景下，为了保证安全与隔离，每个Agent往往运行在独立的沙箱中。Agent的多任务多副本导致系统面临极高频的上下文切换和繁重的沙箱镜像拉取开销。这要求极高的启动速度，以支持多轮和多链条逻辑推理，传统存储的IOPS难以支撑毫秒级的启动需求。例如Manus的Wide Research会并发拉起10个/100个计算实例。对于AutoGLM 2.0 每分钟就需要创建数十万个虚拟机。AI Agent应用的发展避免不了对AI Agent基础设施提出更高的挑战和技术优化需求。

表2 AI Agent沙箱与传统沙箱对比

2.2 计算系统挑战：资源与调度的困境

上述负载特征转化为底层的系统设计挑战主要体现在以下方面。

2.21 内存需求激增

AgenticAI要求系统提供海量的、可快速访问的内存空间，用于存放工作记忆（KVCache）和语义记忆（向量索引）。相比传统LLM推理，AgenticAI工作负载对内存子系统带来前所未有的压力。传统LLM推理通常采用8K-32K的上下文窗口，而AgenticAI系统需要维持更长的上下文支持多步推理。

2.22 内存带宽需求激增

这种带宽需求的激增源于AgenticAI的特殊工作模式：非连续内存访问，工具调用和状态检索产生的访问模式不规则，导致缓存命中率大幅下降。频繁数据流转，比如多Agent间需要共享状态和上下文，产生大量GPU-CPU内存传输。向量检索热点：语义内存（向量数据库）的Billion级别检索需要持续的高带宽访问。

3 解决方案：基于CXL的镜像池与芯片级KV加速缓存

面对上述挑战，本文基于内存驱动计算理念，通过分层解耦的方式提出解决方案：利用HBM解决热数据的快速访问问题，利用CXL内存池解决Agent沙箱镜像的加载问题，通过硬件级KV加速卡解决推理上下文记忆体“大容量存储与高效访问”的问题。

3.1 架构逻辑概览

本方案构建了一个多层次的记忆与存储系统，旨在优化Agentic AI负载的性能与效率。

一级缓存（GPU HBM）：仅存储当前正在计算的最热KV Cache和模型参数，是工作记忆和程序记忆的主要载体。

二级内存池（CXL Memory Pool）： 作为Agent的扩展工作记忆”和“沙箱孵化器”。利用CXL的低延迟和Cache Coherency特性，存储温热KV Cache和AI Agent基础沙箱的镜像。

三级芯片级KV存储加速：作为Agent的“语义持久化层”。比如利用芯片硬件级硬件加速KV存储能力，管理海量向量索引和冷KV数据，提供极高密度的KV存储和快速向量检索能力。

图2 方案整体架构示意

3.2 核心场景一：基于CXL内存池的沙箱镜像毫秒级热加载

在Agentic AI网络中，Agent的生命周期可能很短，但启动频率极高。传统的Docker或容器启动方式，需要从磁盘/SSD将镜像读入内存，产生大量IO开销和延迟。基于CXL 内存池/共享镜像思路，会进一步把大量“预加载镜像 + 公共依赖”常驻在共享内存层，再通过mmap映射快速生成新沙箱实例，目标是利用CXL提供更大的整体可用内存，从而实现更高的Agent沙箱密度和更短的冷启动时间。

镜像预加载（Pre-warming）：将常用的Agent基础环境镜像（OS、Python库、操作系统）预先加载到CXL内存池中。目前已有实践表明，通过将KV缓存和数据库页等“常驻热数据”预加载到CXL内存池中，可以有效减少重启或冷启动时间。这证明CXL非常适合作为“二级内存层”来承接这类长期常驻数据。

零拷贝启动：当需要启动一个新的Agent沙箱时，CPU无需从磁盘读取数据，而是直接通过CXL总线，通过内存映射（Memory Mapping）的方式，将CXL内存池中的镜像数据映射给新的进程。

预期收益：理论上，这种机制消除了磁盘IO瓶颈，可将Agent沙箱的启动时间从秒级有望压缩至毫秒级，并大幅减少冗余内存占用，实现AgenticAI负载的高密度部署。实际业务中，一个Agent系统往往要支撑成百上千并发会话，目前业界有宣传“秒级甚至毫秒级拉起沙箱”，常用的方案是预热一批大号沙箱，常驻内存等待复用，用更多内存换极低的启动延迟。

图3 H3C UniServer M7200 CXL内存池

3.3 核心场景二：基于硬件KV加速长记忆管理

Agentic AI的“慢思考”、RAG（检索增强生成）以及长上下文推理都依赖于庞大的上下文窗口，从而产生大量的 KV 数据。

KV Cache的分级缓存

热数据（HBM层) ：存储当前大模型的工作记忆，比如当前大模型LLM的权重，同时包括当前推理的极热的KV缓存数据。

温热的KV缓存（CXL层）：当HBM耗尽时，利用CXL的内存语义和低时延特性，将KVCache快速交换到CXL内存池中。通过一定的CUDA数据搬运的优化，使得GPU可以直接访问CXL内存，避免通过CPU的core的参与来搬运数据，从而避免了传统CPU的搬运开销。CXL的低时延访问特性对于多Agent“短期记忆”的高频交互至关重要。

异构硬件级KV数据存储加速（芯片级KV加速层）：随着长上下文的模型能力提升和趋势，对于RAG所需的异构数据检索和长期记忆（情景记忆），数据量往往达到TB甚至PB级。基于KV加速卡通过硬件级的KV加速引擎，大幅提升RAG检索以及KV数据流写入的性能。增强大模型的记忆能力。

4 业界挑战与未来展望

尽管“CXL+芯片级KV缓存加速”组合方案在Agentic AI的需求，但要实现大规模商用落地，仍需业界共同解决以下问题：

软件生态成熟和安全：操作系统和虚拟化层（如KVM, Kubernetes）对CXL内存设备的原生支持尚在完善中。未来需要通过更先进和成熟的感知调度机制，使上层Agent无需感知底层内存的异构性。随着CXL3.0/4.0支持TEE机密计算，进一步提升AI agent沙箱的安全和隔离。

统一总线和标准化：当前方案仍是基于PCIe 5.0/CXL2.0的组合，尚未实现真正的GPU的Memory Fabric全互联。未来随着CXL3.0/4.0总线标准的演进，实现GPU与内存池的直接互联（无需经过CPURoot Complex）以形成统一的AI Agent内存池。定义清晰的统一的Agent Memory API，让开发者能够显式地管理短期与长期记忆，而不是完全依赖底层的自动调用。

5 结束语

智能体（AIAgent）是AI演进的关键方向。随着Agentic AI的Scaling模式的升级，多智能体系统中的内存管理必须处理复杂而庞大的上下文数据、实时交互以及历史记忆等信息。这要求AI Agent基础设施具备先进的内存设计。H3C基于CXL内存池与硬件级KV存储加速的组合范式，是对“内存驱动计算”理念的思考和探索，更是为未来构建大规模、高吞吐、低成本的协作智能体网络奠定基础。