New IT in Users Eyes    技术解析
技术解析
无线网为什么需要“像素级”精准运维?

当我们拿起手机,轻击屏幕,感受掌心里生动的画面时,成千上万的像素们正在忙碌地变队组合……

像素,是组成图像的最小单位,一粒像素十分微小,很难靠肉眼看见,但正由于微尘一般的他们,才有了屏幕里色彩缤纷的大千世间。对于一张图片来说,像素越多,细节就越丰富,画面就越清晰。高清,已经成为我们对图像品质的必要的考量条件。

其实,运维也在追求“清晰”。

事与愿违的无线网

从WiFi6的普及到WiFi7的兴起,无线网从千兆时代大步跨入了万兆时代。相对于有线网来说,无线网少了那根线的束缚,部署更灵活、使用更便捷,“无线优先”已成为企业的共识,移动办公早已不是什么新鲜事。

俗话说得好,“断网如断电”,无线让我们感受到了科技幸福感,同时也催生了“WiFi依赖”。用户对网络品质的心理预期,从一开始的能用就行,到现在要求任何时间、任何位置都要好用,即使是一分钟的网络波动都可能带来生产线停工、收银服务掉线,在双十一促销、重大会议活动等关键节点的故障,将造成不可估量的损失。

与稳定这一需求相悖的是,无线天生自带“易变”属性,外部环境、用户规模、业务模型都是随时变化的,常见的如:装修、私设热点、新增微波炉、开启蓝牙……这些因素随时会造成信号阻拦和干扰。移动终端随来随去,业务量激增不可控,突发大流量会随时造成网络拥塞。一方面是瞬息万变的无线网,一方面是不断提升的用户需求,无线运维在双向压力下亟需寻找破局之道。

如何抓住瞬息?

传统的运维方式,主要基于SNMP(Simple Network Management Protocol)标准,AP(无线接入点)的数据需要汇聚到AC(无线控制器),统一由AC上报至网管平台。SNMP标准实现设备监控,仅支持简单的“一问一答”,即使用“网管请求-设备响应”的方式采集数据,每次采集都需要运维系统发出请求,当AP数量增多时,这种数据采集方式对网络资源消耗较大,为避免性能问题,采集周期一般为5分钟,被动低效、数据实时性差,无法匹配当前的运维需求。

支撑精准运维,更值得青睐的是Telemetry(即遥测)技术,其使用“网管定制定阅-设备实时推送”的方式采集数据,一次定制可多次响应,节省了反复请求带来的资源消耗,采集周期可达秒级,传效比更高、数据粒度更细、数据类型更丰富,。

大型园区场景AP数量较大,一台AC下管理的AP往往可达上千台,为进一步降低设备管理报文对AC的压力,在大型园区中保证秒级采集效果,部分数据可考虑使用UDP协议(用户数据报协议)上报,此方式下,AP可直接将管理数据上报至网管平台,无需经过AC汇聚,更加轻量化。

协议的进化,让秒级数据采集变得触手可及,在Telemetry的支撑下,看清瞬息万变的无线网成为可能。

像素级运维的剑法

手持Telemetry这把利剑,运维平台可以实现极致的数据采集,要做到精准运维还需要一套“剑法”来解决以下问题:

体验可视化

全量化数据是精准运维的基础。对于无线网监控这道题目来说,做到有线链路的可视化只能算解了一半,还有关键的另一半——AP(无线接入点)和终端之间的链路,这段链路看不见又摸不着,最容易出现问题,我们形象地称之为“空口”。评价空口质量的指标有信号覆盖、干扰、接入速度、选速、速率、时延、漫游……

空口数据的缺失将导致无线排障陷入盲人摸象的境地,运维人员往往需要亲赴现场才能开始定位问题。尤其对于微观问题,需要深入到报文维度精细分析终端与AP(无线接入点)的协议交互过程,如关联接入过程、认证过程、DHCP过程、ARP过程、DNS过程、网关首包通信过程等,在报文级监控的帮助下,IT人员进入运维平台点击鼠标就能随时回放指定局点、任何时间、任一终端的网络体验,让看不见的体验问题也能有据可依,打破现场排障、人工复现的难题。

工具易用性

类型众多的网络设备、成千上万的终端用户、秒级上报的设备报文,运维平台面临的数据体量将呈指数级暴增,忽略易用性问题,仍然奉行简单粗暴的“拿来主义”,将会适得其反。运维人员学得上手、用着顺手才能更好地提升运维效率。易用性的优化需从以下几个方面着手:

l  清晰易懂-界面逻辑清晰、命名易懂、提供使用向导和提示,减少学习成本,帮助新用户快速上手;

l  删繁就简-减少鼠标点击的次数、减少页面层级、减少重复操作、减少非必要信息;

l  前后关联-运维场景下经常会遇到需要同时查看多种数据的情况,需要基于业务逻辑和使用习惯,将相关数据、相关操作、前后流程相互关联;

l  善用检索-当网络规模扩大,如何从海量信息中快速找到目标?通过分组、模糊搜索、排序、多维筛选、打标签等手段可有效提升信息查找的体验。

l  善用图形-列表式的数据够详细但具有局限性,无法直观从整体掌握网络健康,通过地图、趋势图、分布图等可视化的图表可帮助呈现事件趋势、影响范围、分布占比等规律性信息,减少人工计算和分析工作。

平台智能化

前面我们说到, Telemetry技术,可以极大地拓展运维平台数据采集的丰富性和精度,那么如何让数据帮我们做更多的事情?比如像ChatGTP一样为提问者排忧解难,比如像自动驾驶一样为司机保驾护航……

无线运维的核心诉求是保障,尽可能地降低故障以维持业务稳定,告警是实现这一目标的常用手段。在SNMP时代,告警可发现的异常局限于设备指标,如设备离线、CPU高、内存高,想要获取业务层面的信息往往需要再次人工分析。而且在“善变”的无线网中,设备指标没问题并不代表用户体验就好,终端能力、所处位置、外部环境干扰等原因也会导致网络不好用,而这些因素设备侧无法感知更无法控制,因此存在严重的运维盲区。

继续沿袭传统告警方案,显然无法做到精准告警,我们需要转变思路。利用大数据和AI技术,将发现问题的经验和方法总结成算法模型,基于AP(无线接入点)和终端数据判断用户体验、空口质量以及发生的具体问题。

我们开拓了告警的边界,由仅关注设备,扩展到用户体验和空口质量后,必须要面临一个问题——告警风暴,当推送消息如洪水般袭来时,告警也失去了原本价值。为避免陷入无效告警的境地,运维平台需要一双火眼金睛:

l  过滤“伪问题”,识别哪些是真正的问题。比如感知连网终端正常的业务空闲和休眠状态,此时发生的网速慢的问题并不具有代表性。

l  结合实际需求,筛选有价值的问题。比如提供更加精细的告警策略,让运维人员可灵活制定触发阈值、告警级别。

l  信息整合,联动相关信息。比如某终端触发漫游异常问题时,在告警消息内同时提供其上连AP、无线服务、AC(无线控制器)的数据,便于快速全面地掌握问题;当某问题在短时间内高频触发时,合并推送,为运维“降噪”。

l  分重点,重要业务特别关注。比如针对不同的重要程度为AP(无线接入点)分组,为VIP AP制定特别关注告警、选择特定的推送途径,将其与普通业务区别开来,提高优先级。

结束语

借助技术的力量,无线运维的广度和深度在不断刷新,从有线链路到无线链路,从分钟级数据采集到秒级故障定位,从单一指标到报文回放多维可视,从设备维度到业务维度视角。在精准运维的帮助下,我们可以看的更清更准,更重要的是,它可以帮助运维人员尽可能地贴合用户的场景需求,与业务紧密同步,让网络越用越好。

关闭