文/王锋
随着数据业务量的增长和对服务质量要求的提高,高可靠性日益成为网络设备最重要的特征之一,尤其是处于核心位置的网络设备。网络设备的高可靠性一般要具备以下特点:
1、系统架构的高可靠性
系统架构的高可靠性,主要是指网络设备在系统设计和硬件架构上具备整体的高可靠能力,具备硬件的物理可靠性和系统部件的冗余能力。要想真正达到系统架构的高可靠性,必须在产品各个部件的设计中贯彻高可靠性设计理念,最终确保整个系统具备良好的高可靠性。
2、业务层面的高可靠性
业务层面的高可靠性,主要是指网络设备在运行过程中,在业务层面所具备的快速检测、倒换和备份等高可靠机制,确保当网络设备或者链路发生故障时,各种业务不受影响。由于目前所使用的业务种类繁多,处于核心位置的网络设备需要支持多种网络应用业务,因此必须支持较为齐全的业务可靠性特性。
3、软件维护的高可靠性
软件维护的高可靠性,主要是指设备在软件bug修复或者版本升级过程中,不会影响到设备的正常运行,在保证软件正常升级的同时,确保了设备运行的稳定性,提高了软件维护的易用性。
H3C新一代S12500系列交换机作为定位于核心位置的网络设备,在设计过程中始终贯彻可靠性设计理念,在可靠性方面做出了许多创新,支持丰富齐全的可靠性特性。本文着重介绍一下S12500系列交换机几个独具特色的高可靠性技术。
图1 体系架构
如图1所示,S12500系列交换机采用“一机四板四平面”的电信级高可靠性架构,支持四种类型的单板和四个独立的平面。其中四个独立的平面是:
l 控制平面:由主控板CPU系统、业务板CPU系统、背板上的管理通道等部件组成。主要完成协议运算、路由表维护、设备管理、操作维护管理等功能,是交换机的核心控制部分。
l 转发平面:由交换网单元、转发引擎、背板上的数据通道等部件组成。主要完成各种业务处理和数据转发,包括以太二层转发、ACL/QoS、IP转发、MPLS VPN、组播、OAA业务等。
l 检测平面:主要实现FFDR(Fast Fault Detection and Restoration,快速故障检测及恢复)功能,由FFDR专用检测引擎、FFDR通道等部件组成。该平面主要完成各种网络协议的快速检测和业务的快速倒换功能,如BFD和RRPP等协议,实现小于50ms的电信级切换性能。
l 支撑平面:由各模块的控制系统+控制通道等部件组成。主要完成电源系统检测控制、风扇系统检测控制和故障告警等功能。
S12500产品的四个平面在物理上相互独立、互不影响,整个系统可靠性极高。这四个平面分别位于下面四种类型的单板上,分别是:
l 主控板:主要包括主控CPU系统、FFDR专用检测引擎等部件,支持控制平面和检测平面的冗余备份。
l 交换网板:主要包括交换网单元等部件,交换单元由于不在主控板上,保证了转发平面和控制平面的严格分离。
l 业务板:主要包括业务板CPU系统和分布式转发引擎等部件,实现普通的以太网/IP/MPLS等转发功能。当某一块业务板故障时,不影响其他业务板的正常转发。
l OAA板:采用OAA架构,可以实现IPS、防火墙、ACG等增值业务。
S12500系列交换机转发平面和以往的交换机不同,没有集成在主控板上,而是采用独立的网板架构,真正实现了控制平面和转发平面的物理分离,减少了控制平面对于转发平面的影响,避免主控板故障倒换时影响到数据交换业务。
S12500系列交换机采用创新的CLOS网络架构,完全无阻塞交换。其转发平面高可靠性的最大亮点是支持交换网板N+1冗余备份,也就是说用户可以根据自己的需要配置多于目前转发所需要的交互容量的网板数量。当某一块网板出现故障时,硬件能够自动检测出这种故障并自动隔离,业务板间的数据转发自动避开故障链路转到其他网板上,将网板硬件故障对业务的影响降低。
如图2所示,S12500系列交换机支持物理上独立的检测平面,用于BFD、RRPP协议等业务的快速检测,全面支持BFD联动VRRP/BGP/ISIS/OSPF/RSVP/VPLS PW/静态路由等,能够实现小于30ms的故障检测和小于20ms的保护倒换,从而达到小于50ms的电信级切换性能。更为重要的是,S12500系列交换机支持双冗余检测平面,当主控板发生故障时,检测平面不会受到影响,确保检测业务的稳定性。
图2 检测平面实现机制
此外,S12500系列交换机还支持设备健康状态在线检测功能,当设备处理单元或者业务通道出现问题时,检测平面将给出告警,提醒用户提前进行处理。
电源是保障设备正常运行的基础, S12500采用模块化电源,实现电源模块N+M冗余备份,用户可以自行配置希望保持的冗余能力。S12500系列交换机支持独立的电源管理通道,支持单板电源状态监控,用户可以随时查看系统负载情况和电源模块的详细信息。
S12500系列交换机提供2个风扇框,基于高效的风道设计,两个风扇框实现了1+1冗余备份,可以在线更换风扇框而不影响设备的正常运转。S12500系列交换机实时监测单板和机箱内的多处热点温度,并根据检测结果完成风扇的分区自动调速,节省能源的同时保证了板卡的有效散热。此外,S12500系列交换机还支持风扇告警功能,当某一个风扇发生硬件故障时,能够及时告警通知更换硬件。
IRF2即第二代智能弹性架构,是创新性建设网络核心的新技术。运用IRF2技术,可以将多台交换机互联在一起,形成分布式交换架构,并作为一个逻辑交换实体运行。从管理和配置的角度看,一个分布式交换架构看起来就像一台交换设备;从性能的角度看,分布式交换架构中的每台交换机都能针对其端口上的第二层/第三层流量通信业务制定本地转发决策。它向用户提供了一种新型的虚拟化技术。
图3 IRF2技术组网示例
如图3所示,后续支持IRF2的S12500系列交换机可以互相连接起来形成一个“虚拟设备”,这台“虚拟设备”称为一个fabric,在组成fabric后,无论在管理还是在使用上,多台交换机就成为了一个整体。
S12500可以将任意的普通端口配置为框间弹性互联口,最多支持12个10GE端口的弹性互联,支持高达120G的框间互联带宽。这样通过IRF2技术,扩展了S12500产品的端口数量和交换能力,大大提高了设备的可扩展性;并且整个fabric作为一台设备进行管理,用户管理起来也非常方便。
最为重要的是通过交换机之间的互相备份增强了设备的可靠性。当组成IRF2架构的任意一台设备发生故障时,通过其他设备的冗余备份,业务可以正常运行而不受到影响,减少了单点故障对网络的影响,大大提高了网络的可靠性。
图4 NSF示意图
NSF是一项重要的业务层面的高可靠性技术,它可以保证交换机控制层面出现故障时,数据转发不间断地正常进行,从而保护网络各种流量几乎不受影响。为了实现NSF技术,对设备有以下2个要求:
l 具有分布式体系结构,数据转发与控制分离,支持双主控设计,在发生主备倒换时,转发平面必须能成功保存IP/MPLS等业务转发表项。
l 可以保存部分协议的状态(控制平面)。
如图4所示,S12500系列交换机由于交换单元不在主控板上,而在网板上,在系统架构上保证了转发平面和控制平面的分离,当控制平面发生故障时,不影响转发平面的正常运行,完美实现了NSF技术。
对于OSPF、IS-IS、BGP、LDP这些比较复杂的协议来说,通过较为简单的部分备份(或根本不用备份)协议状态并借助邻居设备的帮助,可以实现当发生主备倒换时,控制平面的会话连接不重置,达到转发不中断的目的。这种实现控制平面不重置的技术统称为路由协议和标签分发协议的平滑重启(GR),它表示当路由协议和标签分发协议重启时保证转发业务不中断。
图5 GR示意图
GR机制的核心在于,当某设备的路由和标签分发协议重启时,能够通知周边设备在一定时间内将到该设备的邻居关系和路由保持稳定。在路由和标签分发协议重启完毕后,周边设备协助其进行路由信息同步,在尽量短的时间内使该设备的各种路由信息恢复到重启前的状态。在整个协议重启过程中,网络路由和转发平面保持高度稳定,报文转发路径也没有任何改变,整个系统可以不间断地转发IP/MPLS报文。
如图5所示,S12500系列交换机支持GR for OSPF/BGP/IS-IS/LDP/RSVP等,当主控板发生主备倒换时,对端设备继续保持与本设备的协议邻居关系,避免网络振荡,保证网络的稳定性。
IP/MPLS TE FRR,即IP/MPLS TE快速重路由技术,由本地预先决定的修复路径对失效链路或发生故障的交换机提供保护,即当网络设备探测到故障时利用备份路由替换失效链路先在本地直接修复故障。在整个新路由完成重新收敛期间,一直使用事前确定的备份转发路径进行转发,这样流量中断时间将大大缩短。
S12500系列交换机支持BFD 与IP/MPLS TE FRR联动高速检测,可以实现IP/MPLS转发业务小于30ms的故障检测和小于20ms的保护倒换,从而达到小于50ms的电信级切换性能。
图6 热补丁技术
如图6所示,S12500系列交换机支持在线热补丁技术和在线版本升级技术。实现在不重启设备的前提下,在线修改软件BUG或增加小规模新特性的功能,使用户能够方便的加载/激活/去激活/运行/删除补丁单元和版本升级。
H3C S12500的高可靠性理念贯穿于产品设计、开发、生产等的全流程,以上仅重点选取了几个独具特色的功能进行介绍。S12500的高可靠特性还远远不止这些,详细情况请参考以下表格。
系统架构高可靠性 | 一机四板四平面 | ||
控制平面 | 支持双主控冗余,支持快速的主备倒换 | ||
转发平面 | 先进的CLOS无阻塞交换网转发架构,支持多个独立的交换网板、支持N+1的交换容量冗余备份 | ||
检测平面 | 支持独立的双检测平面冗余备份,确保实现各种业务小于50ms的电信级切换性能 | ||
支撑平面 | 支持电源N+M冗余备份、风扇框1+1冗余备份、存储设备冗余、时钟冗余,支持电源系统检测控制、风扇系统检测控制和故障告警等功能,所有单板都支持热插拔 | ||
IRF2技术 | 支持IRF2架构,扩展了设备的端口数量和交换能力,大大提高了设备的可扩展性、可管理性和冗余可靠性 | ||
业务层面高可靠性 | NSF技术 | 数据转发平面与控制平面分离,确保不间断转发 | |
GR | 支持GR for OSPF/BGP/IS-IS/LDP/RSVP等,当主备倒换时,确保协议的正常运行,保证网络的稳定性 | ||
物理层和链路层高可靠性技术 | |||
VCT | 支持VCT(Virtual Cable Test),可检测电缆的故障点 | ||
链路聚合 | 支持逐流或者逐包配置的负载均衡 | ||
RRPP | 在独立的检测平面上实现 RRPP协议,实现小于50ms的电信级切换性能 | ||
Smart Link | 主备链路端口切换,实现备份链路冗余阻塞和链路备份 | ||
DLDP | 检测链路的单向故障 | ||
802.3ah | 支持802.3ah技术,支持链路监控、故障通知和远端环回等功能 | ||
IP/MPLS高可靠性技术 | |||
BFD | 在独立的检测平面上,全面支持BFD for VRRP/BGP/ISIS/OSPF/RSVP/VPLS PW/静态路由/LSP等,实现小于30ms的故障检测 | ||
VRRP | 支持BFD 与VRRP联动,实现VRRP主备节点小于50ms的电信级切换性能 | ||
ECMP | 支持逐流配置的负载均衡 | ||
IP FRR | 支持BFD与IP FRR联动,实现IP转发业务小于50ms的电信级切换性能 | ||
MPLS TE FRR | 支持BFD与MPLS FRR联动,实现MPLS转发业务小于50ms的电信级切换性能 | ||
软件维护高可用性 | 在线热补丁技术和版本在线升级技术 | ||