欢迎user
书接上回,我们在之前的文章中详细探讨了网络可视化相关技术在1.0和2.0时代的发展路径,并详细介绍了网络可视化3.0技术在大象流老鼠流、MOD、TCB等三个方面的特性和具体应用、实现。
那么本周,我们仍将继续网络可视化3.0的话题,继续深入挖掘其在仿真与遥测方面的技术应用。
可视化3.0——PacketTrace
在上周的文章中,我们聊到了现网问题的复现和如何确认修复后的情况。那按照惯例,我们先讲一下需求的背景。
随着数据中心的承载的业务种类越来越多,各类业务对实时性和可靠性要求越来越高,相应的我们对数据中心网络快速定位并解决问题的需求也提高了。能否快速复现问题,提供深度的问题定位原因就成为了我们的诉求。举个例子,如下图:
上图中,左上为现网的拓扑,现在发现ServerA和ServerB发送到Internet的流量有丢包现象(通过可视化3.0的MOD功能得知),但要解决问题还要具体分析,如我知道是FIB-miss(报文因转发表没有相应条目而丢弃),但是具体是走到转发芯片的哪个模块丢了呢?是为何转发表项没有生成呢?是否有其他原因触发?这些怎么确认呢?最直接的办法就是通过在Switch上获取相应的现网流量报文后重新走一遍转发流程,基于当前问题情况进行反馈,这样收集到的数据才是最直接的并可以解决问题的数据,可以达到实验室模拟问题达不到的效果。这个办法就是PacketTrace。
PacketTrace作为一种维护性手段,在实现中主要通过平台配置构造报文,由驱动将报文模拟从某个接口进入设备并进行转发,最后确认该报文在设备中转发过程或丢包原因;同时,也可以便于技术人员了解不同报文在对应芯片中的转发过程,如下图:
PacketTrace分为4种模式:ICMP、UDP、TCP和RAW模式
发生问题时,客户可以在问题设备上获取相应丢弃报文,然后通过PacketTrace模板模拟,如报文格式为非TCP/UDP/ICMP格式,则可使用RAW进行配置,也就是全部bit手工编写。编写完成后,选择相应入接口执行下图第一行命令,进行探测。会得到相应反馈结果,如下图:
通过上述手段我们就能成功的复现现网环境问题,问题详细原因(具体到Pipeline的模块)也可以第一时间发送给研发进行分析。修改问题后,还可以通过相同的办法进行确认,岂不美哉?在DevOps流行的今天,你真的不想要吗?
讲了这么多可视化3.0的特性,可能还有的小伙伴想问新华三还有什么增强型的特性吗?
当然有!
可视化3.0——硬件Telemetry Stream
Telemetry Stream的需求背景就不详细介绍了,来源和INT大致相同,有兴趣的小伙伴可以看一下网络可视化系列的第一篇文章《我看见,我管理(一)——网络可视化,网络工程师们的福音》。
Telemetry Stream 是一项从设备上采集数据的网络监控技术。设备主动向采集器上送采集数据,提供实时、高速的数据采集功能,达到对网络设备的性能及网络运行情况进行监控的目的。
Telemetry Stream与INT技术类似,不同的是Telemetry Stream无需组网配置,仅在需要采集数据的设备上单独配置即可。这里我来介绍一下Telemetry Stream的工作流程,以下图中的DeviceB为例:
1. 流量在DeviceB的入接口通过ACL对原始报文进行筛选,命中规则的报文被复制、采样至设备内部的Telemetry Stream处理器。
2. Telemetry Stream处理器将报文环回至入接口。
3. DeviceB的入接口识别出本机环回报文,对其加采集信息,查表转发至出接口。
4. 出接口识别出本机环回报文,对其添加采集信息,发给Telemetry Stream处理器。
5. Telemetry Stream处理器对其添加采集器地址和端口的报文头,然后该报文通过寻址上送至采集器。
多台设备均各自向采集器上报数据,采集器就可以采集到某条特定流所经过的所有设备的采集信息。虽然镜像报文与原始报文不是在同一时刻进入/离开设备,但所经历的转发流程是相同的,所以根据其中携带的时间戳计算出来的时延,即可代表原始报文所经历的时延。
说到这里,大伙可能会问Telemetry Stream和INT到底有何不同,那就容我详细对比一下,如下图:
1. 基于硬件的Telemetry Stream功能,首先比INT在性能上大幅提升,流量可以1:1全额上送,全硬件均能达到线速上送的能力;
2. 无需整网均支持Telemetry Stream能力,增加了组网设备的灵活度;
3. 每节点上送相同报文采集信息可以定位端到端的问题,但需要采集器和整网设备做NTP或PTP同步,保证各自设备时间戳一致
讲了这么多,可视化3.0的关键特性基本都介绍了一遍,详细大家已经对新华三可视化3.0的能力有了全面的了解,get到了新华三网络可视化方案的先进性。那么在此大家可能还会有提问,就是新华三的可视化5.0方案又能有什么亮点呢?
可视化5.0——对未来保持期待
之前我们基本用了3篇文章的篇幅详细阐述了新华三可视化3.0的关键特性,那么,这里我们就来展望一下可视化5.0未来的样子,首先让我们再来看一下我们的可视化进化图:
相对于2.0时代,可视化3.0主要做到了深度的报文检测和流量转发优化,现网问题的模拟复现,带内Telemetry的模式和性能提升等;这些特性主要提升了网络管理在主动性,高效和感知等三个方面的表现。同时,结合新华三的SNA先知网络架构,企业便可构建一套的网络运维体系,能做到网络可视化和网络自优化。
但我们究极的目标不应仅限于此。
在未来,智能感知,智能探测,隐私保护等诉求将被放到前台,结合Comwarev9容器化操作系统能力的网络自主化设备将应运而生,芯片可编程等一系列能力将落地于新华三的设备上。通过分析器动态AI进行网络赋能,编排器连接上层纷繁的应用,结合设备侧的智慧能力,企业就能够获得一套完全自学习、自配置、 自优化、自诊断、自恢复的网络架构将;网络管理与运维效率也将获得质的提升,对应的成本和工作量压力也将大幅减小。
为了这样一个未来能够尽快到来,新华三将携手产业上下游和生态力量为此而努力,乘风破浪,共同前行,为网络技术的发展和更先进的用户体验而努力。
网络无止境,创新永不停!
接下来,我们还会就网络运维管理的其他问题展开技术层面的硬核讨论,敬请期待。