欢迎user
RDMA对于网络丢包异常敏感,丢包引起的大量重传(Go-back-N)会导致吞吐性能急剧下降,而RoCE v2是一种基于无连接的UDP协议,缺乏完善的丢包保护机制。同时,分布式高性能应用是多对一通信的Incast流量模型,对于以太网的设备,Incast流量易造成设备内部队列缓存的瞬时突发拥塞甚至丢包,带来时延的增加和吞吐的下降,从而损害分布式应用的性能。
为了发挥出RDMA的真正性能,突破数据中心大规模分布式系统的网络性能瓶颈,势必要为RoCE搭建一套“无丢包、低时延、高吞吐”的智能无损网络环境。
智能无损网络一方面通过流量控制技术和拥塞控制技术来提升网络整体的吞吐量,降低网络时延,另一方面通过智能无损存储网络等技术实现网络和应用系统融合优化。
智能无损网络的技术架构如下:
在物理硬件层,智能无损网络需要支持智能无损算法的AI芯片和转发/交换芯片的支持。
在数据链路层,部署流量控制技术PFC(Priority-based Flow Control,基于优先级的流量控制),在交换机入口出现拥塞时对上游设备流量进行反压,用于解决拥塞丢帧,同时还需要检测、恢复、预防PFC死锁等问题。PFC技术由IEEE 802.1Qbb定义。
在网络层,智能无损网络可以应用如下拥塞控制技术:
1.
ECN(Explicit Congestion Notification,显式拥塞通知)技术:ECN是一种端到端的网络拥塞通知机制,在交换机出口拥塞时对数据包做ECN标记,并让发送端降低发送速率,避免拥塞加剧。ECN在RFC 3168中定义。
2.
AI ECN功能:AI ECN结合了智能算法,可以根据智能算法对现网流量模型进行预测,并动态调整ECN的门限。
3.
IPCC(Intelligent Proactive Congestion Control,智能主动拥塞控制)是一种以网络设备为核心的主动拥塞控制技术,可以根据设备端口的拥塞状态,准确控制服务器发送RoCEv2报文的速率。
4.
大小流区分调度:设备端口转发报文时还会使用QoS的拥塞管理技术进行队列调度,提供不同的服务标准。网络中的流量被管理员分为大小流并区分调度,以保证大流的吞吐率和小流的时延需求。
在传输层,采用ECMP对网络中的流量进行负载分担。
在应用层,智能无损网络提供了iNOF(Intelligent Lossless NVMe Over Fabric,智能无损存储网络)功能,通过对iNOF主机的快速管控,提升存储网络的易用性,实现以太网和存储网络融合。
从无损网络的方案设计以及最佳实践看,为充分发挥网络高性能和保证可靠性,流量控制PFC和拥塞控制ECN同时配合部署要优于各自单独部署。
在同时部署了PFC和ECN功能时,我们希望ECN门限设置可以保证设备优先触发ECN功能,降低报文发送端的速率缓解拥塞情况,尽量避免PFC触发影响网络中的吞吐率。只有当ECN功能触发后未缓解拥塞,拥塞严重恶化时才触发PFC功能,此时通知发送端停止数据报文发送,直到拥塞缓解后再通知继续发送数据报文,流程如下图:
另外,当ECN门限设置过高时,转发设备将使用更长的队列和更多缓存来保障流量发送的速率,满足吞吐敏感的大流的带宽需求。但是,在队列拥塞时,报文在缓存空间内排队,会带来较大的队列时延,不利于时延敏感的小流传输。
当ECN门限设置偏低时,转发设备使用较短的队列和少量缓存尽快触发来降低队列排队的时延,满足小流对时延的需求。但是,过低的ECN门限会降低网络吞吐率,影响吞吐敏感的大流,限制了大流的传输。
由以上可知,ECN的最大难点是水线设置比较复杂,需要结合网络架构和业务特点来设计。
然而,现网中的流量复杂多变,各个队列转发的数据流量特征会随时间动态变化,导致网络管理员通过静态设置ECN门限时并不能覆盖所有流量场景,无法根据实时动态变化的网络流量特征去保障无损业务达到最优性能。AI ECN则是借助AI算法来实现无损队列的水线调整,通过AI训练的流量模型,可实时预测网络流量的变化趋势,动态调整ECN的水线值,从而实现对无损队列的精确调度,保障整网的最优性能。
AI ECN功能实现示意图如下:
设备内的转发芯片会对当前流量的特征进行采集,如队列缓存占用率,流量吞吐率,当前大小流占比等特征数据,然后将网络流量实时信息传递给AI业务组件。
AI业务组件收到推送的流量状态信息后,将智能的对当前的流量特征进行判断,识别当前的网络流量场景是否符合已知的流量模型。
1.
如果该流量模型符合大量已知流量模型中的一种,AI业务组件将根据已知流量模型推理出实时ECN门限最优值。
2.
如果该流量模型不符合已知流量模型,AI组件将基于现网状态,在保障高带宽、低时延的前提下,对当前的ECN门限不断进行实时修正,最终计算出最优的ECN门限配置。
最后,AI业务组件将最优ECN门限下发到设备转发芯片中,调整ECN门限。
SeerFabric 智能无损解决方案助力分布式存储
为了更有效的帮助用户降低部署RDMA的技术门槛,新华三基于智能无损以太网技术推出了SeerFabric解决方案,可以满足RoCE对网络的高要求,为分布式存储等应用场景提供了“无丢包、低时延、高吞吐”网络环境,用于加速计算和存储的效率。方案全面覆盖计算、存储、网络、控制与管理、性能优化与展示等核心硬件产品和软件功能,同时将传统数据中心前端的以太网、存储的FC网、高性能计算的IB网络三网合一,为数据中心构建起统一融合的网络,解决了过去异构网络的部署、互通和维护难题,降低了数据中心的TCO。
SeerFabric解决方案基于云边AI协同架构,通过对业界AI ECN调优算法的优化,结合H3C数据中心交换机的本地AI Inside能力,在保障零丢包的情况下,尽可能提升吞吐率、降低时延,保障网络服务质量的确定性,方案核心组件如下:
智能分析引擎:利用无损网络及连接的存储和计算资源,借助AI算法和专家经验,实现对数据中心不同流量场景的AI无损调优模型的分析和构建。通过现网流量的实时学习训练,自动适配不同业务流量模型的特点,动态生成最优网络参数,实现网络的无损转发。
智能控制引擎:将智能分析引擎动态生成的调优参数自动向设备下发,实现无损网络全局最优化运行。
边缘AI引擎:交换机内嵌高性能AI计算模块,借助智能分析引擎的离线AI流量模型,进行网络状态的实时监控。自动根据现网流量特征进行RDMA队列水线的本地智能调整,实现网络参数优化,保障本地网络的无损转发性能。
同时,SeerFabric解决方案通过完整的智能运维手段来贯穿RoCE网络的自动化部署、可视、分析、调优的全流程,如下:
RoCE自动化包括:基础网络自动化部署、无损策略自动化下发、主机Agent自动化安装(实现高性能数据采集),iNOF服务器、存储自动化发现等,简化了上线步骤,提高了部署效率。
RoCE可视包括:计算、存储节点的无损特性可视,含计算、存储、网络的物理拓扑及流量的端到端可视,基于IP+QP级的会话、时延、流量的业务路径端到端可视,缓存拥塞可视、Pause帧收发历史和趋势可视,故障丢包可视等,实时掌握网络运行状态。
RoCE分析包括:通过对整网流量、配置参数、性能数据的深度分析,提供故障分析定位,异常状态查询等功能。通过网络性能评估工具,可分钟级对全网性能快速评估并生成报告。
RoCE调优包括:根据网络流量模型(N打1的Incast值、队列深度、大小流占比等流量特征),通过强化学习算法对流量模型进行AI训练,实时感知和预测网络流量变化趋势,自动调节出最优的ECN水线,进行队列的精确调度。在尽量避免触发网络PFC流控的同时,兼顾时延敏感小流和吞吐敏感大流的转发,进一步保障整网的最优性能。
SeerFabric解决方案在今年已经通过了泰尔实验室测试,是国内首个通过泰尔实验室权威鉴定的智能无损数据中心整体方案。其中,存储场景的测试覆盖了端到端NVMe-OF、iNOF下RoCE多路径快速切换、分布式存储容器化对接等多个重点应用,方案能力得到了充分的检验。
另外,新华三联合业界合作伙伴基于SeerFabric解决方案,在DPU、RDMA端到端拥塞控制算法等方面展开合作,不断提升大规模组网和复杂流量模型下的无损效果,共同打造更加便捷高效的无损以太网解决方案,为用户带来更大的价值。
展望
前不久,中国信息通信研究院在首届“分布式存储产业发展论坛”上正式发布了《分布式存储发展白皮书(2022年)》,在白皮书中,首次提出了分布式存储适用的九大典型应用场景,并从架构、硬件、软件功能、数据管理、绿色节能几个方面洞悉了分布式存储未来的发展趋势。
新华三作为分布式存储产业方阵的重要成员,不仅参与了分布式存储白皮书、标准体系等内容的编写,并且整合过去多年在分布式存储领域的积累和应用,与分布式存储产业方阵共同应对分布式存储的应用难点和挑战,通过对分布式存储典型细分场景的不断探索与优化,帮助更多的用户更敏捷、高效地应对各类应用场景的多元化需求。
新华三将以全方位合作构建紧密协作的产业生态,强化新技术研发和创新突破,赋能分布式存储在未来的架构、技术、应用等层面加速演进,以数据的价值重构业务场景,为数字经济的高质量发展,筑造坚实有力的数据底座。