• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们
首页支持Blog数据中心

打破应用“黑盒”:数据中心应用流可视

2025-07-08 预计阅读5分钟
Topics:

引言

随着数字化转型的深入,企业对网络的依赖日益增强,网络的稳定性直接影响企业业务连续性。在这其中,尤其以数据中心网络的影响范围最大、影响程度最深。然而,随着网络规模的快速扩张,运维人员面临着前所未有的复杂度挑战。传统的运维方式难以针对每个应用的网络性能进行精确监控。因此,快速定位和解决网络性能问题变得困难,尤其在故障发生时,往往需要多个部门配合排查,这导致问题处置效率低下且责任难以界定。

在数据中心网络中,为应对这些挑战,应用流的可视化需求愈发重要。新华三通过ERSPAN、INT等流量分析技术,实现了应用流路径和故障的实时可视化。这种方式让应用从“黑盒”状态转变为“透明”状态,提升了对应用流的可见性和清晰度。

此外,应用流分析采用大数据架构,能够存储大量历史数据,并支持故障回放和深度分析。这不仅提高了故障分析效率,还大幅节省了人力和物力,为企业提供了更可靠的数据中心网络运维解决方案,满足业务对数据中心网络高可靠性和快速故障恢复的高要求。

本文将以数据中心视角,介绍新华三网络流量可视化的相关技术。

TCP流分析——解答断在哪

根据统计数据显示,数据中心中约90%的业务流量是通过TCP协议传输的。当TCP业务在转发过程中出现故障,如连接失败或延迟异常时,会对客户业务造成损失,并对数据中心的运维带来巨大挑战。因此,实现网络流量的可视化分析,包括精细化的业务管理、快速的异常感知和准确的故障定位,已成为一种必然趋势。

在使用TCP协议传输数据时,需要监控连接的完整生命周期,包括连接建立(SYN、SYNACK)、数据传输以及释放(FIN/RST)过程。实时监控设备上每一个转发报文虽然可以提供全面的流分析,却会耗费大量的设备和网络资源。为了提高分析效率,TCP流分析功能仅关注TCP会话的控制报文(如SYN、SYNACK、FIN、RST),即可实现TCP流的路径可视以及TCP访问中断等故障分析,以便快速识别业务故障并及时对故障进行根因分析。

通常情况下,设备侧流量采集使用ERSPAN(Encapsulated Remote Switch Port Analyzer,封装远程端口镜像)技术将监控的TCP控制报文利用三层网络将其路由至远端智能分析系统。

由于ERSPAN只封装了每台设备的入接口的时间戳信息,无法区分设备内转发时延和链路转发时延,新华三在此基础上又推出了Telemetry Stream流采集技术。Telemetry Stream也是一种从设备采集流数据的网络监控技术,和ERSPAN类似,但是Telemetry Stream的采集数据流封装支持携带业务流量的入端口、出接口和时间戳信息,可以进行更精细的分析。

根据IP协议的报文转发原理,IP首部的TTL字段会逐跳递减。智能分析系统对采集到的TCP报文按照内层报文数据进行匹配,从多台交换机上采集的TCP报文中识别出属于同一个TCP会话的报文。再根据内外层报文的TTL进行降序排列,之后利用采集报文携带的信息如源MAC地址、端口信息等,以及ARP、LLDP等网络拓扑信息,还原出原始TCP业务的转发路径。

当TCP出现业务故障时,采用历史回溯方式,自动匹配原TCP正常路径,并基于此对比业务故障路径和正常路径,快速找到故障点,节省故障定位时间。

除了流路径可视外,网络中的全网连接数、建连失败数、RST事件、TTL异常、零窗口等也同样实现了可视化。

全网建连统计功能统计全网建连的SYN会话,体现网络的繁忙程度;建连失败数统计全网无法握手完成的会话,体现网络的可用度;

RST事件数统计全网会话重置导致的连接关闭数,体现应用存在不可用情况;

零窗口数统计发送零窗口的报文数,体现应用可能存在处理性能问题;

TTL异常数统计全网发送TTL=1的报文数,体现网络中可能存在路由环路。

为了提升网络性能预测的准确性,还对应用流历史数据进行深度分析和优化。首先,通过数据清洗去除噪声,并结合LSTM、ARIMA等多模型集成提高预测能力;同时,挖掘关键特征如网络拓扑和应用行为,将其融入模型以增强预测效果。利用在线学习和实时监控技术,做到及时预警TCP连接恶化和流量越限。结合异常检测和根因分析,快速锁定问题并通过自动化响应系统实施应对措施,最终通过直观的可视化和报告生成支持运维决策,确保网络平稳运行。

INT流分析——解答慢在哪

当应用出现卡顿现象,需要精确定位在哪台设备、哪段链路出现了时延增大,由于TCP流分析只对TCP控制报文进行分析,无法监控业务报文,这类问题为运维人员带来了新的挑战和难题。

智能分析系统利用INT (In-band Network Telemetry)技术采集交换机出/入接口流量,获取经过设备、入口、出口、时间等信息,并通过可视化界面展示应用流的全局和单条统计信息,以及设备/接口的转发时延。

INT分析功能提供单条应用流的统计信息,包括流量趋势、时延趋势和应用流路径的查看。当应用访问卡顿时,可以查看指定流的逐跳时延情况,快速定位到具体哪台设备转发时延较大,找出故障点。

总结

通过ERSPAN、INT等流量分析技术,实现了应用流路径和故障的实时可视化,为进一步的智能运维分析与决策提供了依据。这样的转变将应用从“黑盒”变得透明,提升了对应用流的可见性,帮助管理员更好理解网络问题,提高了故障分析效率,大幅节省了人力和物力。这为企业提供了更可靠的网络运维解决方案,有效满足了业务对高可靠性和快速故障恢复的需求。

猜你喜欢

从30%空转到100%吞吐:DDC“信元魔法”打造智算性能极限

2025-08-04
在AI大模型训练这个没有硝烟的战场上,科技巨头们正在经历一场令人扼腕的算力浪费——价值上亿的GPU算力集群,竟有高达30%的时间处于"空转"状态,仅仅是为了等待网络传输。而网络领域的黑科技DDC,正以“信元魔法”终结这场算力大堵车。

打破应用“黑盒”:数据中心应用流可视

2025-07-08
在数据中心网络中,传统的运维方式难以针对每个应用的网络性能进行精确监控,快速定位和解决网络性能问题变得困难,为应对这些挑战,应用流的可视化需求愈发重要。

新华三DDC技术白皮书正式发布!

2025-07-02
深入解析四大技术优势

大模型时代GPU互联技术与智算网络:发展脉络与未来走向

2025-07-02
在人工智能领域,模型的规模和复杂性正迅速增长,参数数量的激增尤为显著。这些庞大的模型需要处理和学习海量数据,以实现更准确的预测和更复杂的任务处理能力,这对GPU的计算能力提出了前所未有的要求。
新华三官网
联系我们