智能运维技术白皮书
Copyright © 2024 新华三技术有限公司 版权所有,保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
除新华三技术有限公司的商标外,本手册中出现的其它公司的商标、产品标识及商品名称,由各自权利人拥有。
本文中的内容为通用性技术信息,某些信息可能不适用于您所购买的产品。
随着网络规模的急剧扩大和网络复杂度的提升,网络运维面临着一系列挑战:
· 实时监控与故障处理挑战:随着网络设备数量的快速增长,如何实时监控所有设备的状态并迅速发现并修复故障成为关注重点。
· 多厂商设备管理挑战:由于网络设备可能来自不同厂商,每个厂商都有自己的管理接口,这给网络管理带来了极大的复杂性。
· 网络设备部署挑战:传统的手动配置设备过程耗时耗力,尤其是在大型项目中,需要更高效的部署方法来降低成本和提高效率。
· 精细化监控数据挑战:传统的网络监控手段无法满足对超大规模网络的监控需求,需要更多种类、更细粒度的监控数据来准确反映网络状态。
· 快速定位故障挑战:在复杂的网络环境中,快速定位并修复故障变得尤为困难,需要更加有效的方法来减少网络中断时间。
· 自动化与智能化运维挑战:传统的人工运维和半自动化运维方式已无法满足用户需求,需要更智能化和自动化的工具来提升运维效率和质量。
为了解决上述网络运维面临的难题,H3C推出了一系列智能运维技术,包括自动化部署、设备智能运维、网络智能运维、应用级智能运维、可视化智能运维等关键技术。这些技术旨在提高网络运维效率和质量,实现网络设备的自动化配置和智能化管理。
如图1所示,H3C从以下六个维度提供全方位的智能运维方案,为您的网络和业务保驾护航。
· 自动化部署
自动化部署使用零配置开局技术,网络管理员无需到客户现场配置设备,只需远程进行基础配置,便可轻松将新设备接入网络。这大大简化了在多地区、大规模和复杂的部署环境中的开局过程,显著降低了开局成本网。
· 设备智能运维
设备智能运维通过使用一键自检、WLAN智能运维技术、一键诊断、KPI、GOLD、EAA,以及KPI和EAA联动、GOLD和EAA联动等技术,实现设备的自我管理和故障自动修复,提升设备智能化运维水平。
· 网络智能运维
网络智能运维通过使用NQA、TWAMP、TWAMP Light、iNQA、iFIT、INT、MOD等技术,实时测量网络质量(例如丢包率、时延、时延抖动等)和业务可用性。同时,网络智能运维技术与SRv6 TE Policy联动,可实现智能选路,保障关键业务的通信需求。
· 应用级智能运维
网络智能运维通过使用eMDI、服务质量分析、应用识别和基于应用的质量保障、基于APN6架构的应用识别等技术,对关键业务提供差异化的网络服务,实现端到端的通信质量保证。
· 可视化智能运维
可视化智能运维通过Telemetry技术,主动将设备运行的关键数据推送给采集器,或按照采集器的订阅需求推送指定数据,使得数据能够在采集器上进行分析和可视化展示,为网络维护、突发流量处理、流量调度等提供有力支持。
各种智能运维技术的支持情况与设备的型号有关,请以设备实际情况为准。
H3C的智能运维技术具有以下优点:
· 实现大规模网络运维:H3C的技术可以进行单台设备的自动化配置、管理和运维,同时也允许对网络质量进行测量,提供应用级别的管理和运维,适应大规模网络的需求。
· 兼容多种标准协议:支持SNMP、CWMP、NETCONF、RESTFUL等网络管理协议,确保与不同厂商的设备和多种网管平台的顺畅互通。
· 提供零配置开局:用户可在远程服务器上完成设备基本参数配置,通过U盘或邮件等方式将配置下发给设备,省去现场配置的需求,降低部署难度和成本。
· 提供丰富的监控数据:利用KPI等功能,收集和展示包括接口流量、丢包率、时延等在内的网络运行数据,准确反映网络状态。
· 快速定位和处理故障:一键诊断、GOLD等功能通过智能分析和可视化展示,实现故障的快速定位和解决,有效减少网络中断时间。
· 实现网络运维的自动化和智能化:通过EAA等功能,提升网络运维的自动化和智能化水平,大幅提高运维效率和质量。
零配置(ZTP,Zero Touch Provisioning)开局是H3C自动化网络部署方案的重要技术。通过此技术,网络管理员无需到客户现场配置设备,只需远程进行基础配置,便可轻松将新设备接入网络,实现快速开局。在面对多站点、广泛地域分布或部署过程复杂的情况时,ZTP技术能够显著简化开局过程,有效降低开局成本。
下面以AD-WAN分支解决方案的零配置开局场景为例,其开局流程大致为:
(1) 管理员在AD-WAN控制器上导入新网关的信息(如设备名称、序列号和Router ID等),以便后续管理该网关。
(2) 管理员在远程服务器上为该网关准备好基础配置,如WAN接口的IP地址、拨号上网的账号/密码、AD-WAN控制器的域名或“IP地址+端口号”等。
(3) 开局人员(现场负责安装/检修设备的网络工程师)只需进行连线、上电等简单操作,无需对网关进行配置。
(4) 网关上电启动时自动加载基础配置,接入网络并自动注册到AD-WAN控制器,完成开局。
图2 AD-WAN分支解决方案的零配置开局组网图
在某机场,网络设备被广泛部署在航站楼、飞行区和公共区等各个区域。由于设备位置分散且数量大,对网络自动化和智能化的需求较高。引入AD-Campus解决方案,利用零配置开局技术,可以实现:
· 用户网络的部署效率提升73%。
· 多园区统一管理和全流程自动化。
· 传统VLAN组网和VXLAN组网的融合部署。
某集团公司新建的数据中心AD-DC网络,包含私有云和公有云。采用AD-DC解决方案,运用零配置开局技术,成功实现了Underlay网络的自动化部署和Overlay网络配置的自动下发。该技术的应用不仅大大节省了工作量,减少了人为配置失误,而且在未来的网络自动化扩容中,只需远程指挥工人进行上架连线,无需现场配置。
山东的一家大型超市连锁企业,拥有700+个分支站点,其中包括50个省外站点,门店地理位置分散,需要快速且低成本地连网。通过运用AD-WAN分支解决方案中的零配置开局技术,实现了U盘方式的零接触快速开局,大幅度缩减了现场工作成本,每年帮助用户节省50万的现场运维成本。
传统的对外测试自检和开局自检存在较多限制:
· 依赖自检人员的技术能力,可推广性不强
· 没有统一的命令行,使用不方便且容易遗漏
· 涉及到的检测命令较多,使能和去使能功能时容易遗漏
· 有些检测命令可能不包含在开局版本中
一键自检功能,可将用户定制的设备关键信息打包测试检查,并一次性显示所有测试结果,最大化地提高设备检测的准确性和可靠性。例如:
· 软硬件版本一致性检查:提供版本号自检、模式自检、容量自检,使用单条命令即可显示所有测试结果。
· 硬件功能检查:设备启动时,系统会自动对自身硬件进行状态检查,以确保硬件元器件能正常工作时才启动硬件,以免造成硬件损坏。
表1 设备支持的硬件功能检查项
项目分类 |
检查项 |
存储器件 |
内存测试、内存压力测试、EEPROM测试、NVRAM测试、FLASH测试、EMMC测试 |
单板功能 |
CPU压力能力测试、PCIE功能测试、I2C通道测试 |
机框功能 |
dataline测试、复位线测试、背板类型测试、背板信号测试 |
链路检测 |
芯片间链路质量检测,主要有:框内业务板和网板链路PRBS、多框集群和背靠背集群框间网板链路PRBS、业务板NP和Jericho互连ILKN链路PRBS |
系统信息 |
风扇转速、风扇状态监控、电源状态、电源信息测试等 |
单板状态 |
单板温度监控、单板AVS监控 |
硬件模块序列号 |
单板序列号、子卡序列号、风扇序列号、电源序列号、电源框序列号、机框序列号等 |
MAC地址有效性 |
单板MAC地址、机框MAC地址 |
光模块 |
光模块温度、电压、电流、RX和TX Power |
一键自检技术的支持情况以及硬件功能检查项的支持情况与设备的型号有关,请以设备的实际情况为准。
一键自检功能已广泛应用在产品发货前的厂验自检、运营商/企业网现场自检、以及运营商集采自检中。
一键诊断是设备提供的一种智能诊断功能,可以24小时不间断地对各业务模块故障进行自动发现、自动诊断。用户可根据需要开启或关闭一键诊断功能。
一键诊断主要包括以下两个方面的功能:
· 业务模块健康度的一键诊断
该功能用于诊断业务模块能否正常提供服务。如果业务模块功能异常,或者运行状态错误,导致业务模块无法正常提供服务,系统会判定业务模块发生了不健康事件,并记录不健康事件的相关信息,便于用户了解业务模块的运行状态。
一键诊断的业务模块包括硬件和软件业务两大类。其中:
¡ 硬件诊断对象包括CPU和内存。
¡ 软件业务诊断对象包括AAA、LDP、PING、MPLS L2VPN、MPLS TE、SNMP、BGP、DHCP、OSPF、IS-IS、组播、ARP、ND等。
· 业务功能的一键诊断
该功能用于诊断业务模块的功能是否运行正常,帮助用户定位业务功能异常问题。例如SNMP Trap发送失败一键诊断用于诊断是否出现过SNMP Trap发送失败事件以及失败的原因。
例如,用户可以对BGP模块进行健康度一键诊断。通过诊断结果,用户可以一目了然的看到BGP模块当前是否运行正常,如果运行不正常,可显示异常发生的时间和原因。
例如,用户可以对CPU利用率突增进行健康度一键诊断。设备会对CPU利用率进行采样,如果设备本次CPU利用率的采样值减去上一次采样值的结果大于10%,则认为CPU利用率突增。通过诊断结果,用户可查看最近CPU利用率突增事件,以及最近一次CPU利用率突增事件发生时CPU利用率排前五的进程的信息,以帮助用户定位CPU利用率突增的问题。
为了丰富设备运维手段、提升设备运维效率,最终实现设备运维的自动化和智能化,设备内部集成了一套包括数据采集、故障检测、故障诊断和故障自愈功能的运维工具集,设备关键性能指标(KPI,Key Performance Indicator)采集就是这套运维工具之一。设备关键性能指标又称为KPI数据采集,这些性能指标包括设备的软件和硬件等一系列运行状态的信息。KPI数据采集功能周期性采集设备关键性能指标,记录并存储这些性能指标数据,为设备运维提供数据支撑。
· 指标丰富,数据易读
KPI数据采集功能支持的指标类型丰富,包括设备硬件状态、设备容量、网络安全、网络性能等各类数据指标。采集的数据指标使用结构化的数据呈现和存储,方便运维人员分析和读取。
· 打破壁垒,整合数据
原本网络设备中不同业务和功能模块维护的数据指标犹如信息孤岛,无法关联起来整合分析,而KPI数据采集功能能够统一收集不同业务模块的运行数据和设备硬件的状态指标,打破了软硬件和业务模块间信息壁垒,整合了设备的关键数据指标,为统一运维分析提供数据基础。
· 支持存储,数据可回溯
KPI数据采集功能采集到的各种数据信息统一使用文件的形式保存到设备的存储空间中,历史数据可供运维人员分析和回溯故障。
KPI数据采集主要有三种典型的应用:
· 为设备内部的其它业务模块提供数据源。例如,智能预测模块采用AI智能算法,基于KPI采集到的历史数据指标,可以对各种指标30天后的值进行预测。
· 为Controller等外部应用提供数据源。外部应用可以通过gRPC(Google Remote Procedure Call,Google远程过程调用)功能来订阅KPI数据,进而对KPI数据进行分析和可视化展示等。
· 保存到Flash中供用户查询。用户可以通过命令行查询KPI采集的数据,随时了解关键参数的取值以及设备的状态。
GOLD(Generic OnLine Diagnostics,通用在线诊断)通过在设备上执行诊断测试例,来发现硬件、软件故障,并进行问题报告和修复。
· GOLD检查的硬件故障主要包括:端口、内存、芯片、连接、转发路径以及控制路径是否正常等。
· GOLD检查的软件故障主要包括: LIPC(系统内部通信通道)连通性检测、目的网络或目的主机连通性检测等。
GOLD进行故障诊断的处理流程如下:
(1) 运行测试例
GOLD将测试例分为启动诊断测试例、监控诊断测试例和按需诊断测试例。部分测试例处于开启状态,部分测试例需要管理员手工开启。
¡ 启动诊断测试例仅在设备启动阶段运行。
¡ 监控诊断测试例开启后按周期自动运行,直到关闭为止。
¡ 按需诊断测试例可以设置停止条件:测试执行指定次数后自动停止、失败达到指定次数后自动停止,或者执行命令行手工停止。
(2) 监控测试结果
GOLD会在后台监控测试例的执行情况,并记录测试结果。执行display diagnostic result命令可以查看测试例执行结果为成功还是失败。对于失败的测试,执行display diagnostic result verbose命令可查看测试失败发生的时间以及失败原因等,以便用户进行故障定位。
(3) 故障修复
部分测试例出厂即指定了故障修复动作,通过display diagnostic content verbose命令显示信息中的Correct-action字段可以查看。
对于监控诊断测试例,用户还可以通过命令行指定故障修复动作。设备支持的故障修复动作包括:重启故障的单板、重启故障的业务模块、主备倒换(启用备用主控板来替代当前故障的主用主控板)、整机重启等。
(4) 与业务模块联动
GOLD支持和一键诊断、EAA(Embedded Automation Architecture,嵌入式自动化架构)功能联动,以便提供更多、更丰富的诊断功能。
设备启动完成后,GOLD会以5分钟为周期自动执行名称为ipc-check的测试例,该测试例会自动检测控制通道链路是否畅通,并记录测试结果。如果控制通道链路不畅通,GOLD会进行故障恢复:
· 如果故障的控制通道链路存在备份链路,则立即启用备份链路来替代故障的控制通道链路。
· 如果故障的控制通道链路未存在备份链路,则重启对应的接口板。
GOLD和一键诊断功能配合,为用户提供BGP模块健康度诊断的示例。通过诊断结果,用户可以一目了然的看到BGP模块当前是否运行正常,如果运行不正常,可显示异常发生的时间和原因。
GOLD可以作为EAA的事件源,当测试例执行失败指定次数时,就执行EAA策略中定义的动作。例如:
· 通过GOLD执行测试例LIPCMonitor,来定时检测LIPC(系统内部通信通道)的连通性。
· 如果检测失败3次,则调用EAA策略,执行主备倒换动作,并发送级别为2的日志通知网络管理员。
EAA(Embedded Automation Architecture,嵌入式自动化架构)是集成在系统软件中、用于智能运维的软件功能。
使用EAA功能:
· 用户可以定制EAA监控策略,在策略中定义自己感兴趣的事件以及事件发生时的处理动作。监控策略被启用后,当事件源(业务模块)监控到用户定制的事件发生时,就自动执行监控策略中的动作。
· 用户可以同时定制多个EAA监控策略,智能地监控多种事件,并执行灵活多变的动作,从而大大地提升系统运维的自动化,降低运维成本,提高运维速度。
图3 EAA系统架构图
EAA通过EAA监控策略来实现用户的功能定制。每个EAA监控策略中必须包含以下元素:事件、动作、用户角色、运行时间。EAA工作机制如下:
(2) 网络管理员定义EAA监控策略,包括监控事件、监控动作等参数。
(3) EAA将事件触发条件通知给事件源(业务模块)。
(4) 事件源(业务模块)实时监控着监控对象的状态。
(5) 如果监控对象满足触发条件,业务模块则通知EAA监控事件发生。
(6) EAA根据事件通知匹配到对应的监控策略,EAA用策略中指定的用户角色去自动执行监控策略中定义的动作并记录策略执行结果。
业务模块继续监控,当满足触发条件,会再次执行EAA监控策略。直到EAA监控策略运行时间到达,EAA会自动立即停止执行策略,或者网络管理员手工停止执行EAA监控策略,以免策略长时间运行占用系统资源。
图4 EAA工作机制图
在用户网络出口Device A和Device B之间建立一条穿越中间网络Internet的IPsec隧道,通过该隧道对Device A与Device B之间的数据流进行安全保护。如果修改Internet中网络设备上的配置,很可能会导致IPsec SA失效,IPsec隧道不通。传统维护流程为网络管理员手工重置IPsec SA和IKE SA,通常这个运维过程至少需要30分钟。
在Device A和Device B上,采用如下方式部署EAA监控策略,可快速定位并恢复故障。
· 将Track作为事件源,Track关联NQA ICMP-echo测试,来探测链路是否通畅。
· 每300毫秒进行一次NQA ICMP-echo测试。一次测试中如果连续有5次探测失败,则认为链路故障。然后,EAA立即自动执行命令行重置IPsec SA和IKE SA,来尝试恢复IPsec隧道。
图5 使用EAA自动监控IPsec隧道组网图
Device A和Device D、Device E已经建立BGP会话。正常情况下,Device D、Device E发往外网的流量通过Device A转发。
在Device A上部署EAA监控策略,可实现:
· 当Device A连接Device C的接口Interface 1状态变为Down之后,Device A能够自动执行peer ignore命令禁止和Device D、Device E建立BGP会话。从而使得Device D、Device E发往外网的流量通过Device B转发。
· 当Device A连接Device C的接口Interface 1状态变为UP之后,Device A能够自动执行undo peer ignore命令重新和Device D、Device E建立BGP会话。从而使得Device D、Device E发往外网的流量通过Device A转发。
图6 使用EAA自动监控BGP邻居组网图
KPI包括设备的软件和硬件等一系列运行状态的信息。KPI数据采集功能周期性采集设备关键性能指标,记录并存储这些性能指标数据,为EAA监控策略提供数据来源。
配置EAA和KPI联动后:
(1) EAA将配置的监控参数传递给KPI。
(2) KPI模块按周期采样指标的取值,并根据监控参数判断采样值是否异常。如果采样值超出正常范围,则表示指标异常。如果连续异常次数到达指定次数,KPI通知EAA发生了KPI事件。
(3) EAA调用对应的EAA监控策略,执行指定的监控动作和自愈动作(自愈动作属于监控动作的一种,是可选配置)。
(4) KPI继续采样指标的取值,如果取值满足自愈条件,则表示自愈成功,停止执行EAA监控策略,否则,继续执行EAA监控策略,直到监控策略的运行时间到达为止。
KPI数据采集功能支持的指标类型丰富,包括设备硬件状态、设备容量、网络安全、网络性能等各类数据指标70多项。KPI和EAA联动后,用户可按需监测任一KPI指标,从而扩充了EAA的监控事件类型。
KPI可以作为EAA的事件源,当监控指标异常指定次数时,就执行EAA策略中定义的动作。
以下为使用EAA自动监控接口丢包故障,并进行二次自愈的例子:
· 通过KPI采样指标端口错包导致的丢包数(Port error)。
· 如果端口错包导致的丢包数连续3次大于故障阈值,则调用EAA策略,执行第一次自愈动作:关闭并开启接口一次。
¡ 第一次自愈动作完成后,如果端口错包导致的丢包数连续2次小于恢复阈值,则表示故障已经恢复,结束执行EAA监控策略。
¡ 第一次自愈动作完成后,如果端口错包导致的丢包数未能连续2次小于恢复阈值,则表示故障未恢复,执行第二次自愈动作:重启接口板一次,并结束执行EAA监控策略。
GOLD(Generic OnLine Diagnostics,通用在线诊断)通过在设备上执行诊断测试例,来发现硬件、软件故障,并进行问题报告和修复。测试例为设备出厂时携带的脚本文件,用来对设备硬件或者功能模块进行检测。
GOLD可以为EAA提供GOLD事件。配置EAA和GOLD联动后:
(1) EAA将配置的监控参数传递给GOLD。
(2) GOLD按周期执行测试例,如果测试例连续执行失败的次数达到监控参数中指定的值,则表示监测对象发生了故障。GOLD通知EAA发生了GOLD事件。
(3) EAA调用对应的EAA监控策略,执行指定的监控动作和自愈动作(自愈动作可选配置)。
(4) GOLD继续执行测试例,如果测试结果满足自愈条件,则表示检测对象故障恢复,停止执行EAA监控策略,否则,继续执行EAA监控策略,直到监控策略的运行时间到达为止。
GOLD是一种内置的智能运维设备的手段。部分GOLD测试例不支持自愈动作,部分GOLD测试例支持自愈动作,但自愈动作是出厂定制好的。将GOLD和EAA联动,用户可以定制自愈动作,提升了GOLD的灵活性。
GOLD可以作为EAA的事件源,当测试例执行失败指定次数时,就执行EAA策略中定义的动作。例如:
· 通过GOLD执行测试例LIPCMonitor,来定时检测LIPC(系统内部通信通道)的连通性。
· 如果检测失败3次,则调用EAA策略,执行主备倒换动作,并发送级别为2的日志通知网络管理员。
KPI、一键诊断、GOLD、EAA支持功能不同,使用场景也不一样,请根据组网需求使用。
表2 KPI、一键诊断、GOLD、EAA技术对比
对比项 |
KPI |
一键诊断 |
GOLD |
EAA |
测试例管理 |
不涉及(未用到测试例) |
部分业务功能的意见诊断需要执行测试例,通过GOLD模块执行 |
硬件测试例在其他进程执行 软件测试例按周期执行,周期可配置 |
支持测试例调度控制,以策略管理。包括策略最大运行时间,暂停所有策略执行 |
测试例来源 |
不涉及 |
全部为内置测试例 |
全部为内置测试例 |
全部由用户配置 EAA支持和KPI、GOLD联动 |
故障自愈动作 |
无 |
无 |
硬件测试例中自己实现自愈动作 软件测试例可以指定自愈动作,由gold框架执行 |
策略可以指定action |
测试例间多级调度 |
不涉及 |
不支持 |
不支持 |
支持 |
测试例格式支持 |
不涉及 |
Python/Tcl/代码 |
Python/Tcl/代码 |
CLI/Tcl/Python |
定时执行测试例 |
不涉及 |
支持 |
支持 |
支持 |
条件触发测试例 |
不涉及 |
支持(测试例出厂已经定义好触发条件) |
支持(测试例出厂已经定义好触发条件) |
支持(由EAA监控策略中定义的事件触发) |
查看测试例执行结果 |
不涉及 |
通过命令行查看诊断结果 |
通过命令行查看测试例执行结果 |
无 |
通知动作 |
无 |
无 |
无 |
多种 |
动态配置测试例 |
不涉及 |
无 |
无 |
支持 |
H3C支持的网络智能运维关键技术包括:NQA(Network Quality Analyzer,网络质量分析)、TWAMP(Two-Way Active Measurement Protocol,双向主动测量协议)、TWAMP-light、iNQA(Intelligent Network Quality Analyzer,智能网络质量分析)、iFIT(In-situ Flow Information Telemetry,随流检测)、INT(In-Band Network Telemetry,带内网络遥测)和MOD(Mirror On Drop,丢包镜像)。使用H3C网络智能运维关键技术可测试链路状态、评估网络设备性能和服务质量,实现对网络性能的全面监控,在网络发生故障时进行有效的故障诊断和定位,从而维护业务稳定性和提升用户体验。
如表3所示,H3C网络智能运维关键技术各有技术优势,适用于不同的应用场景,请根据需要部署。
检测技术 |
支持的网络类型 |
可测量指标 |
测量方法 |
支持的场景 |
网络架构 |
NQA |
三层IP网络 |
时延、抖动、丢包率、是否可达、服务是否可用、VoIP参数等 |
模拟发包,检测结果不够真实 |
点到点 |
· NQA客户端 · NQA服务器(有些测试无需部署NQA服务器) |
TWAMP |
三层IP网络 |
· 双向时延 · 抖动 · 丢包率 |
模拟发包,检测结果不够真实 |
点到点 |
· TWAMP客户端 · TWAMP服务器 |
TWAMP Light |
三层IP、MPLS、L3VPN(Layer 3 Virtual Private Network,三层虚拟专用网)等网络 |
· 双向时延 · 抖动 · 丢包率 |
模拟发包,检测结果不够真实 |
点到点 对TWAMP进行了简化,以适用于资源有限的网络设备 |
· TWAMP Light客户端 · TWAMP Light服务器 |
iNQA |
二层网络和三层IP网络 |
· 单向时延 · 双向时延 · 抖动 · 丢包率 |
对真实报文进行丢包检测,检测结果真实 |
支持点到点、点到多点、多点到多点等多种场景 基于五元组匹配业务报文 |
· Controller · Analyzer |
iFIT |
公网、MPLS、SR-MPLS(Segment Routing MPLS,MPLS段路由)、SRv6、G-SRv6(Generalized SRv6,通用SRv6)和G-BIER(Generalized BIER,通用位索引显式复制) |
· 单向时延 · 丢包率 |
对真实报文进行丢包检测,检测结果真实 |
支持点到点、点到多点、多点到多点等多种场景 基于二层参数、五元组、PeerLocator的测量粒度匹配业务报文 |
· Ingress · Transmit · Egress · Analyzer |
INT |
三层IP网络和VXLAN网络 |
· 单向时延 |
对真实报文进行检测,检测结果真实 |
支持点到点 |
· Ingress · Transmit · Egress · Collector |
MOD |
设备内部 |
· 丢包原因 · 丢弃报文的特征 |
对真实报文进行丢包检测,检测结果真实 |
监控报文在设备内部转发过程中发生丢包 |
本设备 |
NQA(Network Quality Analyzer,网络质量分析)通过发送探测报文,对链路状态、网络性能、网络提供的服务及服务质量进行分析。NQA支持多种网络应用检测,包括ICMP-echo、ICMP-jitter、DHCP、DNS、FTP、HTTP、SNMP、路径服务质量测试(RFC 2544)等测试类型,可多维度检测链路质量。
NQA的工作机制如下:
(1) NQA客户端构造探测报文发送给目的端设备。
(2) 目的端设备收到探测报文后,回复应答报文。
(3) NQA客户端通过统计探测报文的收发和时间戳完成对链路吞吐量、丢包率、时延等指标的测量。
图7 NQA工作原理示意图
· 支持多种测试类型
传统的Ping功能是使用ICMP(Internet Control Message Protocol,互联网控制报文协议)测试数据包在本端和指定目的端之间的往返时间。NQA是对Ping功能的扩展和增强,它支持ICMP、UDP、Voice、TCP、DLSw、SNMP、HTTP、FTP、DHCP、DNS、Path-jitter等多种测试类型。
· 支持多测试组并发
NQA模块支持多个测试组同时进行测试,用户可以根据需求手工配置同时进行测试的测试组的个数。但同一时刻,不能有多个DHCP类型的测试组进行测试。
· 支持联动功能
联动功能是指NQA提供探测功能,把探测结果通知其他模块,其他模块再根据探测结果进行相应的处理。
· 部署简单
NQA测试中涉及NQA客户端和NQA服务器,在NQA客户端和NQA服务器上进行简单的配置即可开启测试,有些NQA测试甚至不需要在NQA服务器侧配置。
通过NQA与VRRP联动,可以实现对上行链路的监控。当上行链路出现故障,局域网内的主机无法通过路由器访问外部网络时,NQA会通过Track模块通知VRRP将路由器的优先级降低指定的数额。从而,使得备份组内其它路由器的优先级高于这个路由器的优先级,成为Master设备,保证局域网内主机与外部网络的通信不会中断。上行链路恢复后,NQA通过Track模块通知VRRP恢复路由器的优先级。
如图8所示,Device A和Device B组成一台虚拟设备,局域网内的主机Host A将虚拟设备设置为默认网关。Device A和Device B中优先级最高的Device A作为Master设备,承担网关的功能,Device B作为Backup设备。配置VRRP通过Track和NQA进行联动,使用NQA监测10.1.2.2是否可达。当10.1.2.2不可达时,NQA通过Track通知VRRP,降低Device A在备份组中的优先级,从而使Device B成为Master设备,取代Master设备继续履行网关职责,从而保证局域网内的主机可不间断地与外部网络进行通信。当Device A故障恢复,NQA检测到Device A路由可达后,能通过Track模块立即通知VRRP。
图8 VRRP与NQA联动组网图
通过在NQA、Track模块和静态路由模块之间建立联动,可以实现静态路由有效性的实时判断。利用NQA对静态路由的下一跳地址进行探测,如果NQA探测成功,则静态路由有效;否则,静态路由无效。
如图9所示,Device A可以通过Device B、Device D两条路径达到Device C,在这四台设备上均配置了动态路由协议OSPF。Device A希望通过Device B将数据发送给Device C,于是,在Device A上配置到达Device C的静态路由下一跳地址为10.1.1.2,通过NQA监测10.1.1.2是否可达,并配置静态路由通过Track模块与NQA实现联动。如果NQA发现10.1.1.2不可达,它将通过Track模块通知静态路由,将该静态路由项置为无效,Device A将使用动态路由协议生成的路由通过Device D将数据发送给Device C;如果NQA发现10.1.1.2可达,则通过Track模块通知静态路由,将该静态路由项恢复为有效。
图9 NQA与静态路由联动组网图
IP单播策略路由通过与NQA、Track联动,增加了应用的灵活性,增强了策略路由对网络环境的动态感知能力。
策略路由可以在配置报文的发送接口、缺省发送接口、下一跳、缺省下一跳时,通过Track与NQA关联。如果NQA探测成功,则该策略有效,可以指导转发;如果探测失败,则该策略无效,转发时忽略该策略。
如图10所示,Device A可以通过Device B和Device C两个设备连入Internet。在Device A上定义策略路由,实现Device A连接局域网接口接收到的所有TCP报文通过Device B转发(报文的下一跳地址为10.2.1.2)。同时,配置策略路由与NQA、Track联动,利用NQA探测Device B的可达性。如果Device B可达,则该策略可以指导转发,接口接收到的TCP报文下一跳地址为10.2.1.2;否则,该策略无效,接口接收到的TCP报文根据路由查找可用的下一跳。
图10 NQA与策略路由联动组网图
TWAMP(Two-Way Active Measurement Protocol,双向主动测量协议)基于RFC 5357协议开发的一种网络质量测量技术,主要用于测量IP链路的双向时延、抖动和丢包率等性能指标。
TWAMP的工作机制如下:
(1) TWAMP Client和TWAMP Server之间建立控制会话,并基于该控制会话协商测试会话。
(2) 测试会话建立成功后,Session-Sender启动测试会话,Session-Reflector负责反射探测报文。
(3) Session-Sender通过统计探测报文的收发和时间戳完成对链路丢包率、时延等指标的测量。
图11 TWAMP工作原理示意图
· 支持双向测量
TWAMP允许在网络的两个端点之间进行双向测量,通过发送和接收测试数据包,可以同时测量往返时延、丢包率以及抖动等性能指标。
· 灵活性
TWAMP可以适用于不同网络环境和设备类型,不依赖特定的硬件或软件,可以在多种操作系统和设备上使用。这使得它在网络监控和故障诊断方面具有广泛的适用性。
· 精确性
TWAMP提供了多层次的测量机制,可以在精确测量的同时保持低延迟。它还支持多种统计方法,可以收集和分析大量的性能数据,以便更好地监控和优化网络性能。
· 标准协议,供应商无关性
TWAMP是一个开放的标准协议,不绑定特定厂商的设备,可以与不同厂商的设备进行互操作,提供了更大的灵活性和选择自由。
如图12所示,使用NQA TWAMP功能可测试本端(Device A)到指定目的端(Device B)间的网络质量。
图12 NQA TWAMP测试配置组网图
TWAMP Light(TWAMP Light Protocol for IP Performance Metrics)是一种简化的TWAMP协议,用于在IP网络中测量网络性能指标,如延迟、丢包率和抖动等。它通过在TWAMP中减少一些功能和选项来降低复杂性,并且被广泛应用于VoIP、视频和移动网络等领域。
TWAMP Light的工作机制如下:
(1) TWAMP-light Client负责配置TWAMP-light测试会话,TWAMP-light Sender构造测试报文,发送给TWAMP-light Responder。
(2) TWAMP-light Responder收到测试报文后,构造反射报文,将报文反射回TWAMP-light Sender。
(3) TWAMP-light Sender通过统计探测报文的收发和时间戳完成对链路丢包率、时延等指标的测量。
图13 TWAMP-light工作原理示意图
常见的丢包、时延测量技术包括NQA(Network Quality Analyzer,网络质量分析)和RFC 6374/6375(MPLS网络的丢包和时延测量)等。与这些技术相比,TWAMP Light技术具有以下优点:
· 标准协议,供应商无关性
TWAMP Light是IPPM(IP performance monitoring,IP性能监控)工作组定义的IP网络性能统计协议,具有统一的检测模型、统一的报文格式,不同厂商的设备之间可以互通。
· 支持多种网络场景
TWAMP Light能够部署在IP、MPLS、L3VPN(Layer 3 Virtual Private Network,三层虚拟专用网)等网络,满足不同类型网络的测量需求。
· 实现简单,服务器端无需生成和维护数据
TWAMP Light测试包含客户端(测试源端)和服务器端(测试目的端),只需在客户端生成和维护性能测量数据,服务器端无需生成和维护性能测量数据,方便网管设备快速获取测量数据。
· 简化协议,资源消耗小
与TWAMP标准架构相比,TWAMP Light将服务器端的部分功能移到客户端实现,简化了建立性能测量会话的控制协议,大大降低了对服务器端的能力要求,有助于服务器端的快速部署。
如图14所示,Video phone 1和Video phone 2在进行视频通话时发现语音有卡顿、视频有马赛克现象,需要测试IP承载网络的性能,确认语音和视频流量在穿越IP承载网络时,是否存在严重丢包和延时现象。在Device 1和Device 2上使用TWAMP Light功能,可以测试业务流在穿越IP承载网络时,Interface 1到Interface 2的双向路径时延、抖动及丢包率参数,协助用户定位网络问题。
图14 使用TWAMP Light测试IP网络性能组网图
如图15所示,某企业的两个分支机构分别在A地和B地办公,使用VPN通道连接两地网络。Video phone 1和Video phone 2在进行视频通话时发现语音有卡顿、视频有马赛克现象,需要测试VPN网络的性能,确认哪部分网络丢包和延时比较严重。使用TWAMP Light功能,可以测试业务流在穿越VPN网络时,路径的双向路径时延、抖动及丢包率参数,协助用户定位网络问题:
· 在PE 1和PE 2上部署TWAMP Light功能,测试整个运营商网络(Interface 1到Interface 6)的性能。如果存在严重时延和丢包,可以继续执行下面测试定位问题网络。
· 在PE 1和PE-agg 1上部署TWAMP Light功能,可以测试MPLS L2VPN网络(Interface 1到Interface 2)的性能。
· 在PE-agg 1和PE-agg 2上部署TWAMP Light功能,可以测试MPLS L3VPN网络(Interface 3到Interface 4)的性能。
· 在PE 1和PE-agg 2上部署TWAMP Light功能,可以测试MPLS L2VPN接入MPLS L3VPN网络(Interface 1到Interface 5)的性能。
图15 使用TWAMP Light测试VPN网络性能组网图
iNQA(Intelligent Network Quality Analyzer,智能网络质量分析)是一种适用于大规模IP网络、可快速测量网络性能的检测机制。iNQA目前支持丢包测量和时延测量,可测量正向、反向以及双向的丢包情况(包括丢失的报文数、报文的丢失率、丢失的字节数、字节的丢失率)以及链路时延、时延抖动,利用测量结果可快速定位丢包时间、丢包位置、丢包严重程度以及链路时延情况。
iNQA工作过程分为三个阶段:
(1) 所有参与测量的设备通过NTP或者PTP功能达到时间同步。在测量开始前,为确保各Collector能够基于相同的周期进行报文染色、上报、统计,所有Collector必须时间同步。如果时间不同步,会导致iNQA计算结果不准确。同时,为便于管理维护,建议Analyzer和所有Collector之间时间同步。
(2) MP按周期统计每个周期收到的报文数量,以及收到的每个周期首个报文的时间戳。Collector按周期收集MP产生的统计数据并上报给Analyzer。
(3) Analyzer计算iNQA测量结果:
¡ 对相同周期内相同目标流的报文进行丢包分析,计算报文丢失数(LostPkts)、报文丢失率(PktLoss%)、字节丢失数(LostBytes)、字节丢失率(ByteLoss%)。
¡ Analyzer根据同一周期的首个报文到达每个MP的时间戳,可计算任意MP之间每个周期的平均时延。
图16 iNQA丢包统计原理图
如图17所示,Video phone 1和Video phone 2在进行视频通话时发现视频有马赛克现象,需要确认视频流量在穿越IP承载网络时,是否存在严重丢包现象,协助用户定位网络问题:
· 在IP网络的入口设备Device 1和出口设备Device 2上部署iNQA功能。Device 1为Collector 1;Device 2同时作为Collector 2和Analyzer。Device 1到Device 2的方向为正向。测量MP 100到MP 200之间的双向丢包率。
· 为了方便用户及时感知网络故障的发生,配置丢包超限阈值为6%,丢包超限恢复阈值为4%。当丢包率到达阈值时,Analyzer自动生成对应的日志。
图17 iNQA端到端丢包统计组网图
如图18所示,Video phone 1和Video phone 2在进行视频通话时发现视频有马赛克现象,需要确认视频流量在穿越IP承载网络时,是否存在严重丢包现象,协助用户定位网络问题:
· 在IP网络的入口设备Device 1和出口设备Device 3上部署iNQA功能。Device 1为Collector 1;Device 2同时作为Collector 2和Analyzer;Device 3为Collector 3。Device 1到Device 3的方向为正向。测量MP 100到MP 300之间的正向丢包率,以及MP 100到MP 200、MP 200到MP 300之间区间的正向丢包率。
· 持续测量15分钟。为了方便用户及时感知网络故障的发生,配置丢包超限阈值为6%,丢包超限恢复阈值为4%。当丢包率到达阈值时,Analyzer自动生成对应的日志。
图18 iNQA逐点丢包统计组网图
iFIT(in-situ Flow Information Telemetry)是一种应用于公网、MPLS(Multiprotocol Label Switching,多协议标签交换)、SR-MPLS(Segment Routing MPLS,MPLS段路由)、SRv6、G-SRv6(Generalized SRv6,通用SRv6)和G-BIER(Generalized BIER,通用位索引显式复制)传输网络的,测量网络性能指标的测量技术,它直接测量业务报文的真实丢包率和时延等参数,具有部署方便、统计精度高等优点。
根据测量不同,iFIT分为:iFIT应用级质量测量和iFIT隧道级质量测量。
· iFIT应用级质量测量:用于测量业务流量流经传输网络时的丢包率和时延等参数,测量结果可用于诊断业务流量流经传输网络时网络的传输质量。
· iFIT隧道级质量测量:用于测量SRv6隧道传输报文的丢包率和时延等参数,测量结果可用于SRv6 TE policy智能选路。
iFIT工作流程分为三个阶段:
(1) 所有参与测量的设备达到时间同步。如果时间不同步,各MP的统计周期不统一,会导致iFIT计算结果不准确。为便于管理维护,建议分析器和所有iFIT设备之间也时间同步。
¡ 如果仅测量丢包率,可使用NTP进行时间同步(同步精度为秒级)。
¡ 如果需要测量时延,请使用PTP进行时间同步(同步精度为亚微秒级)。
(2) MP按周期统计每个周期收到的报文数量,以及收到的每个周期首个报文的时间戳。设备按周期收集MP产生的统计数据,并通过Telemetry技术上报给分析器。
(3) 分析器对同一统计周期内相同目标流的报文进行丢包分析,并计算时延、时延抖动等参数。
如图19所示,各节点采用PTP进行时间同步,同时测量丢包和时延参数。
图19 iFIT应用级质量测量原理示意图
如图20所示的E2E SR-MPLS (Option A)组网环境下,发现企业网用户之间的视频通话画面存在严重马赛克、语音不连续现象。需确定视频通话流量在网络中传输时,发生丢包和时延的位置。
网络管理员可以分别在AS 1和AS 2中部署iFIT,例如:
· 若PE 1、P 1、ASBR 1均支持iFIT,则可在这三台设备上部署逐点测量,以便同时了解目标流经过每台设备、每条链路以及整个AS 1的SLA。
· 若P 1不支持iFIT,则可直接在PE 1和ASBR 1上部署端到端测量,统计目标流经过AS 1时的SLA。
图20 E2E SR-MPLS (Option A)场景iFIT测量组网图
如图21所示的L3VPN over SRv6组网环境下,发现VPN 1内用户之间的视频通话画面存在严重马赛克、语音不连续现象。需确定视频通话流量在网络中传输时,发生丢包和时延的位置。
网络管理员可以在SRv6网络中部署iFIT,例如:
· 若PE 1、P、PE 2均支持iFIT,则可在这三台设备上部署逐点测量,以便同时了解目标流经过每台设备、每条链路以及整个SRv6网络的SLA。
· 若P不支持iFIT,则可直接在PE 1和PE 2上部署端到端测量,统计目标流经过SRv6网络时的SLA。
图21 L3VPN over SRv6场景iFIT测量组网图
如图22所示,AS100为IPv6网络,私网为IPv4网络。PE 1、P 1、P 2、P 3和PE 2属于同一自治系统,它们之间通过IS-IS协议达到IPv6网络互通。在PE 1和PE 2之间创建SRv6 TE Policy组,并且创建3条不同转发路径的SRv6 TE Policy来承载IPv4 L3VPN业务。在PE 1和PE 2上通过路由策略来设置VPNv4路由的Color属性,将VPN私网流量引流到在PE 1和PE 2之间的SRv6 TE Policy组中转发。通过部署SRv6 TE Policy的智能策略路由功能实现私网流量在SRv6 TE Policy组中动态优选SRv6 TE Policy。
SRv6 TE Policy的规划如下:
· SRv6 TE Policy A:存在一条候选路径,SID列表代表的转发路径为PE 1->P 1->PE 2。
· SRv6 TE Policy B:存在一条候选路径,SID列表代表的转发路径为PE 1->P 2->PE 2。
· SRv6 TE Policy C:存在一条候选路径,SID列表代表的转发路径为PE 1->P 3->PE 2。
· SPR模板中定义:
· SLA标准:丢包<5‰、时延<100ms、抖动<10ms、CMI<110。
· SRv6 TE Policy的选路优先级:SRv6 TE Policy A 10、SRv6 TE Policy B 20、SRv6 TE Policy C 30。
图22 SRv6 TE Policy的智能策略路由功能配置组网图
INT(带内网络遥测)是一项从设备上采集数据的网络监控技术,是可视化网络解决方案中的重要组成部分。配置了INT功能的设备会主动向采集器上送采集数据,提供实时、高速的数据采集功能,采集器分析收到的采集数据,以达到对网络设备的性能及网络运行情况进行监控的目的。
图23 INT工作流程图
如图24所示,Host A和Host B通过普通IP网络互连,使用INT可以对Host A发送给Host B的流量进行数据采集,并将采集信息发送给Collector,供Collector分析。
图24 INT在普通网络中的应用组网图
如图25所示,Host A和Host B通过VXLAN网络互连,使用INT可以对Host A发送给Host B的流量进行数据采集,并将采集信息发送给Collector,供Collector分析。
图25 INT在EVPN/VXLAN网络中的应用组网图
MOD(Mirror On Drop,丢包镜像)是一种专门用来监控报文在设备内部转发过程中发生丢包的技术。一旦MOD监控到设备内部发生丢包,就会立即收集丢包发生的时间、丢包原因和丢弃报文特征,并上报给远端采集器,以便管理员及时了解设备内部发生的丢包情况。
MOD基于Flow Group建立的流表进行丢包检测。具体工作机制如下:
(1) 基于Flow Group生成流表。
(2) 基于MOD的丢包原因列表,设备对命中流表项的流量进行丢包监控。
(3) 如果发生丢包,且丢包原因属于丢包原因列表,则设备将丢包原因和丢弃报文的特征(即被丢弃报文所匹配的流表表项)上送给采集器。
MOD具有以下技术价值:
· 实时监测:MOD可以实时监测设备内部转发过程中的丢包情况,使网络管理员能够即时了解网络性能并发现问题。
· 精确定位:当发生丢包时,MOD会记录丢包的原因和丢弃报文的特征,并将这些信息发送给采集器。这样,网络管理员可以准确地定位问题,快速排除故障。
· 全面覆盖:MOD可以应用于网络设备的多个接口和端口,能够对整个局域网的报文流进行监测,从而能够全面覆盖网络的丢包情况。
· 高可靠性:MOD功能具有高可靠性,可以准确地检测和记录丢包情况,确保网络性能的稳定和可靠。
· 简化运维:MOD不仅能够检测丢包,还可以提供更加详细的丢包信息和报文特征,有助于网络管理员进行故障分析和优化调整,从而简化网络运维工作。
网络管理员发现Server A和Server B间的流量有少量丢包,通过查看流量转发链路上各节点接口下的报文统计信息发现,丢包发生在核心设备上。此时,网络管理员可以在核心设备上部署Flow Group和MOD,监控所有原因产生的丢包,以便在采集器上查看核心设备内部的丢包时间、丢包原因等信息。
eMDI(Enhanced Media Delivery Index,增强型媒体传输质量指标)是一种专门为音视频业务(例如VoIP和IPTV)设计的故障界定和健康诊断技术。通过在音视频业务流量途径的网络节点上部署eMDI,可以对音视频业务流量进行实时监控,提取所需数据并计算监控指标。之后,网络管理员结合多个网络节点计算出的监控指标,可以了解网络状况、界定网络故障发生的位置、优化网络部署,以满足用户的音视频业务质量要求。
通常,eMDI与SQA(Service Quality Analysis,服务质量分析)、gRPC(Google Remote Procedure Call,Google远程过程调用)和SeerAnalyzer配合使用,形成智能化的音视频质量分析方案。方案部署后,其具体工作机制如下:
(1) 在启用eMDI功能的网络设备MP(Measurement Point,测量点)上,SQA功能识别音视频业务流量,并将流量特征通知给eMDI。
(2) eMDI基于SQA功能通知的流量特征对目标流进行监控,并将监控指标(例如速率、丢包率)发送给SQA。
(3) SQA将监控指标发送给gRPC模块。
(4) gRPC模块将监控指标封装在gRPC协议报文中上送给SeerAnalyzer。
(5) SeerAnalyzer根据收到的监控指标进行故障界定和健康状况分析,并通过图形化界面呈现给网络管理员。
图26 eMDI工作原理图
如图27所示组网中,OTT(Over The Top,互联网内容提供商)经运营商网络向家庭用户提供IPTV业务。在运营商网络中的核心、汇聚和接入设备上部署eMDI、SQA、gRPC,并将监控指标上送给SeerAnalyzer,当家庭用户B向运营商反馈点播的视频频繁出现卡顿现象时,运营商网管人员可以结合SeerAnalyzer上的服务质量分析结果进行故障界定。
图27 eMDI典型应用组网图
多媒体音频、视频业务在日常生活中应用广泛,且内容丰富多样,用户对多媒体服务体验要求日益提高。传统网络设备在传输用户流量过程中对多媒体流量与其它流量不作区分,在发生网络拥塞时,多媒体音、视频业务可能会出现卡顿的现象,严重影响用户体验。服务质量分析功能可以识别用户基于SIP协议(Session Initiation Protocol,会话初始协议)或基于H.323协议的多媒体流量,开启基于指定协议的服务质量分析功能后本设备优先转发该类流量,以保障服务质量,并且本设备会对该类流量进行分析,收集并保存流量信息与会话信息。
· 提高多媒体业务的传输质量,改善用户体验。
· 部署和配置简单。网络管理员无需了解多媒体通信协议的原理和通信过程,配置服务质量分析功能后,设备会自动对业务流量进行检测和处理。
如图28所示的组网中,Host A和Host B使用基于SIP协议的语音呼叫软件进行通话,在Device A、Device B和Device C上部署基于SIP协议的服务质量分析功能,可对流经各个设备的多媒体流量进行优化,满足优质的视听要求。
随着5G和云计算等技术的发展,新应用、新业务和新的网络应用场景层出不穷,这些新兴应用和业务对于网络的时延抖动,带宽,丢包率都有不同的要求。利用现有网络技术来识别不同的应用报文,同时保障这些应用报文在网络转发过程中的质量是当前网络面临的一大难题。
管理员通过在网络边缘的接入设备端口上开启应用识别功能,并配置QoS和SQA等功能,就可以识别不同的应用流量,基于应用流量进行质量保障和应用流量的统计分析,从而可以解决上述问题。应用识别和应用质量保障技术的关键功能点包括:
如图29所示,为了保证特定应用的网络质量,规范用户的上网行为,在园区接入网络的边缘设备上的用户接口上开启应用识别功能,识别网络中的各种应用,合理调度不同应用流量,并对应用流量统计分析。
· 对于网页浏览等Internet访问流量予以放行,QoS策略的CBQ中采用缺省的队列,提供尽力而为的服务,保证用户能够访问网络。
· 对于腾讯视频会议等通信的应用流量提供足够带宽,QoS策略的CBQ中采用EF队列提供高优的调度,保障这类应用的时延,网络拥塞时,减少应用流量丢包,从而保障视频会议的通信质量。
· 对于BT下载等P2P应用程序限制其带宽,保证网络带宽资源不被大量消耗。
APN6(Application-aware IPv6 Networking,应用感知型IPv6网络)是一种新型的网络架构,它利用了IPv6扩展头来携带应用信息,使网络设备在解析IPv6报文时可以识别应用,并且感知应用对于网络的需求,进而为不同的应用业务提供精准且差异化的网络服务。APN6将原本位于TCP/IP协议栈不同层次、相互解耦的网络层和应用层重新耦合。
如果把一个IPv6报文比作快递包裹,那么APN6网络中的快递单上不仅仅包含寄件人地址和收件人地址信息,还可以携带寄件客户和收件客户的VIP等级(网络中的用户分组)、包裹类型(网络中的应用业务分类)、客户对于物流运输时限和运输过程中的特殊要求(网络中的时延、丢包等需求)。
Comware当前采用IPv6目的选项扩展头DOH(Destination Option Header)来携带应用信息,该信息可以包含应用组的标识、用户组的标识、应用对网络质量的需求信息,例如带宽要求、时延要求、抖动要求和丢包率要求等。网络设备可以根据这些信息对业务流提供区分服务、安全策略以及数据审计分析等。
· 应用信息简单直接
传统的应用报文中缺少应用对网络质量的需求信息,应用信息的标识也不明确,通常需要借助ACL规则来识别报文。APN6使用APN ID和APN Parameters来标识应用和用户。APN6网络仅需要边缘节点直接在IPv6的报文头中携带APN ID和APN Parameters,网络中其他中转设备直接解析报文头即可识别应用信息,简化运维部署,减少了各设备上的硬件ACL资源消耗。
· 可扩展性强
IPv6的扩展报文头可以提供可编程空间来携带丰富的APN6应用信息,便于后续的扩展。逐跳选项报文头、目的选项报文头和路由报文头都可以提供可编程空间,均可以用于扩展来携带应用信息。目前,Comware根据草案draft-li-apn-ipv6-encap的定义将APN6的应用信息携带在DOH中。
· 兼容性好
APN6兼容各种IPv6+技术,例如SRv6网络切片、确定性网络、SRv6 SFC、iFIT等技术。APN6网络架构中搭配这些技术,可以实现更加精细化的网络服务。例如,APN6结合SRv6网络切片技术,为不同应用提供专属切片网络,保证业务独享资源;APN6结合iFIT技术提供应用级别的实时性能策略、故障界定和可视化运维等。
APN6可以与SDWAN结合应用,在下图所示的分支站点接入数据中心的SDWAN网络中,通过部署APN6可以实现多种功能。
· 路径选择:基于APN ID,将用户A的特定流量引入到对应的SRv6 TE Policy隧道中转发,流量从客户端到骨干网再到云数据中心实现端到端的统一路径规划,SRv6 TE Policy为特定流量提供可靠性保障。
· 隔离策略:PE A上可以基于APN ID设置隔离策略,不允许APN ID标识的某些用户访问数据中心。基于APN ID可以实现灵活的访问控制。
· 故障检测:对于一些竞技游戏比赛的流量、重要视频会议业务,可以部署iFIT检测,针对特定应用的流量实现逐段的业务质量监控和故障定位,一旦某段网络出现波动可以快速定位故障,并针对性地调优。
网络运维的过程中,需要实时收集网络设备的运行状态、流量统计、告警信息等数据,对网络进行实时监控,以便及时发现和排除网络故障。传统的手段是用网管软件通过SNMP获取设备的信息。这种手段无法解决目前的网络监控需要解决“看不见”的问题,如快速定位哪台网络设备的哪个端口丢包、实时监控每台网络设备buffer的使用情况、端到端延时定位到具体链路等。
Network Telemetry(网络遥测)技术通过在网络设备上实现主动推送数据的能力,解决了SNMP时效性差、CPU消耗高等问题。
H3C支持如下几种Telemetry实现方式:
· 基于gRPC(Google Remote Procedure Call,Google远程过程调用)或GNMI(gRPC Network Management Interface,gRPC网络管理接口)的Telemetry
· 基于INT(In-band Telemetry,带内遥测)的Telemetry
· 基于ERSPAN(Encapsulated Remote Switch Port Analyzer,封装远程端口镜像)的Telemetry
Telemetry通过gRPC、INT或ERSPAN将网络设备上的数据主动推送给网管或监控软件。基于网络中各个设备推送的数据,整个网络对网管或监控软件“可见”,实现网络的可视化,为网络维护、突发流量处理、流量调度等提供支持。
目前,应用最为广泛的是基于gRPC/gNMI的Telemetry。它是一种模型驱动(model-based)的Telemetry技术。第三方软件可以直接使用gRPC/gNMI与Comware通信,也可以使用基于gRPC封装的接口与Comware通信。gRPC支持Dial-in和Dial-out两种模式。
如下图所示,网络设备和网管系统建立gRPC连接后,网管可以订阅设备上指定业务模块的数据信息。
· 支持gRPC、INT、Telemetry Stream、ERSPAN等多种实现方式,满足用户的不同需求。
· 采集数据的精度高,且类型十分丰富,可以充分反映网络状况。
· 一次订阅,持续上报。相比传统网络监控技术的查询一次上报一次,Telemetry仅需配置一次,设备就可以持续上报数据,减轻了设备处理查询请求的压力。
· 故障定位更快速、精准。
如图30所示为Telemetry技术的典型应用组网。使用基于gRPC的Telemetry主要用于自动化运维系统:
(1) 采集数据:设备对于用户通过gRPC功能订阅的数据进行采集。
(2) 上报数据:设备通过gRPC报文将采集到的数据上报给采集器。
(3) 数据集整理:采集器接收和保存网络设备上报的监控数据,并对数据进行过滤、整理,然后将分析器需要的数据(监控数据)发送给监控器。
(4) 数据分析:分析器分析监控数据,可以通过图形化等方式呈现分析结果,并将数据分析结果发送给控制器。
(5) 下发配置,调控设备:控制器根据分析结果,通过NETCONF等方式调整网络中的设备配置。
网络设备持续推送实时数据到网管侧的采集器,网管侧可以及时监测到网络质量问题并快速进行调整,形成一个闭环的自动化运维系统。(采集器、分析器、控制器可以集成在一台物理设备上,也可以分布式部署在不同的物理设备上)
例如,iFIT会通过Telemetry技术将测量结果上送给采集器(包含有分析器的功能),由采集器对测量结果进行计算、分析、可视化展示。
图30 Telemetry技术应用组网图