整本手册
本章节下载 (721.52 KB)
H3C S6820系列以太网交换机故障处理手册
Copyright © 2017新华三技术有限公司 版权所有,保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部, 并不得以任何形式传播。本文档中的信息可能变动,恕不另行通知。 |
6.1 1GE SFP、10GE SFP+、40GE QSFP+或100GE QSFP28光口不UP故障处理
6.3 10/100/1000Base-T千兆电口或1/10GBase-T万兆电口不UP故障处理
本文档介绍S6820系列以太网交换机软、硬件常见故障的诊断及处理措施。
本文档不严格和具体的软硬件版本对应。
设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。
在进行故障诊断和处理时,请注意以下事项:
· 设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。
¡ 记录具体的故障现象、故障时间、配置信息。
¡ 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
¡ 收集设备的日志信息和诊断信息(收集方法见1.2 收集设备运行信息)。
¡ 记录设备故障时指示灯的状态,或给现场设备拍照记录。
¡ 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
¡ 记录故障处理过程中配置的所有命令行显示信息。
· 更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。
· 故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。
为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。
设备运行过程中会产生logfile、diagfile日志信息及记录设备运行状态的诊断信息。这些信息存储在主设备的Flash,可以通过FTP、TFTP、USB等方式导出。
如果设备运行过程中发生过主备倒换,则日志文件将保存在设备多个成员设备中,不同成员设备中导出的logfile、diagfile、诊断信息文件请按照一定规则存放(如不同的文件夹:slotY),避免不同成员设备的运行信息相互混淆,以方便查询。
表1 设备运行信息介绍
分类 |
文件名 |
内容 |
logfile日志 |
logfile.log |
设备运行中执行的命令行、发生的事件、状态的变化等信息 |
diagfile日志 |
diagfile.log |
设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、设备无法启动时的信息、成员设备之间通信异常时的握手信息 |
诊断信息 |
XXX.tar.gz |
系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等 |
(1) 执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在Flash的logfile目录中。
<Sysname> logfile save
The contents in the log file buffer have been saved to the file flash:/logfile/logfile.log
(2) 查看各成员设备中日志文件名称。
· 查看主设备logfile日志:
<Sysname> dir flash:/logfile/
Directory of flash:/logfile
0 -rw- 21863 Jul 11 2013 16:00:37 logfile.log
1048576 KB total (38812 KB free)
· 查看从设备(slot 2)上的logfile日志:
<Sysname> dir slot2#flash:/logfile/
Directory of slot2#flash:/logfile
0 -rw- 21863 Jul 11 2013 16:00:37 logfile.log
1048576 KB total (38812 KB free)
(3) 使用FTP、TFTP或者USB接口将日志文件传输到指定位置。
(1) 执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在Flash的diagfile目录中。
<Sysname> diagnostic-logfile save
The contents in the diagnostic log file buffer have been saved to the file flash:/diagfile/diagfile.log
(2) 查看各成员设备中诊断日志文件的名称。
· 查看主设备diagfile日志:
<Sysname> dir flash:/diagfile/
Directory of flash:/diagfile
0 -rw- 161321 Jul 11 2013 16:16:00 diagfile.log
1048576 KB total (38812 KB free)
· 查看从设备(slot 2)上的diagfile日志:
<Sysname> dir slot2#flash:/diagfile/
Directory of slot2#flash:/diagfile
0 -rw- 161321 Jul 11 2013 16:16:00 diagfile.log
1048576 KB total (38812 KB free)
(3) 使用FTP、TFTP或者USB接口将日志文件传输到指定位置。
诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。
需要注意的是,成员设备越多,诊断信息收集的时间越长,信息收集期间不能输入命令,请耐心等待。
通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口或管理口的情况下,建议通过业务网口或管理口登录和传输文件。
(1) 执行display diagnostic-information命令收集诊断信息。
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N] :
(2) 选择将诊断信息保存至文件中,还是将直接在屏幕上显示
· 输入“Y”,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。
Save or display diagnostic information (Y=save, N=display)? [Y/N] : Y
Please input the file name(*.tar.gz)[flash:/diag_Sysname_20160101-000704.tar.gz] :
Diagnostic information is outputting to flash:/diag_Sysname_20160101-000704.tar.gz.
Please wait...
Save successfully.
<Sysname> dir flash:/
Directory of flash:
……
6 -rw- 898180 Jun 26 2013 09:23:51 diag.tar.gz
1048576 KB total (38812 KB free)
· 输入“N”,将诊断信息直接显示在屏幕上。(诊断信息的显示随设备型号和版本不同有所差异,请以实际情况为准)
Save or display diagnostic information (Y=save, N=display)? [Y/N] :N
===============================================
===============display clock===============
23:49:53 UTC Tue 01/01/2016
=================================================
其它显示信息略……。
(3) 查看诊断信息文件内容。
· 解压诊断信息文件。
<Sysname> tar extract archive-file diag_Sysname_20160101-000704.tar.gz
Extracting archive flash:/diag_Sysname_20160101-000704.tar.gz Done.
<Sysname> gunzip diag_Sysname_20160101-000704.gz
Decompressing file flash:/diag_Sysname_20160101-000704.gz.... Done.
(4) 查看解压后的诊断信息文件内容。
<Sysname> more diag_Sysname_20160101-000704
===============================================
===============display clock===============
23:49:53 UTC Tue 01/01/2016
=================================================
---- More ----
设备在使用中发生异常重启。
图1 故障诊断流程图
设备重启后查看是否能够进入命令行模式,使用display diagnostic-information命令收集设备的诊断信息,待收集完成后,将设备信息导出后发给H3C技术支持寻求帮助。
通过Console口登录故障设备,再次重启设备,如果BootWare提示CRC错误或者找不到启动文件,请使用BootWare菜单重新下载启动文件,并设置该文件为当前启动文件。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
电源运行中上报Fault。
使用display power命令显示电源模块状态,查看是否存在Fault或Absent状态的电源模块。
<Sysname> display power
Slot 1
Input Power: 266(W)
PowerID State Mode Current(A) Voltage(V) Power(W)
1 Absent -- -- -- --
2 Normal AC -- -- --
如果存在Absent状态的电源模块,请前往步骤2。
如果存在Fault状态的电源模块,请前往步骤3。
如果电源模块状态为Absent,表示对应槽位没有在位的电源模块或者电源模块没有安装牢固。
如果电源模块槽位有电源模块在位但显示为Absent,请将电源模块拆卸后重新安装,然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请更换新电源模块。
如果更换新电源模块后仍然显示为Absent状态,请前往步骤4。
如果电源模块状态为Fault,表示该电源模块异常,无法供电。
当电源模块没有上电时,该电源模块的运行状态会显示为Fault,此时请为该电源模块上电。
电源处于Fault状态有可能是电源模块本身温度过高导致。如果电源模块上积灰较多可能引起电源模块温度升高,请查看电源模块积灰情况。如果灰尘较多,请清理灰尘,并将电源模块拆卸后重新安装。然后使用display power命令查看对应槽位电源状态是否显示为Normal。如果没有恢复为Normal,请将该电源模块插入其它空闲电源模块槽位并查看电源状态是否为Normal。如果该电源模块仍然显示为Fault状态,请更换电源模块。
如果更换新电源模块后仍然显示为Fault状态,请前往步骤4。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
新插入电源模块状态异常。
使用display power命令查看电源模块状态。
<Sysname> display power
Slot 1
Input Power: 266(W)
PowerID State Mode Current(A) Voltage(V) Power(W)
1 Absent -- -- -- --
2 Normal AC -- -- --
如果该电源模块显示为Absent状态,请前往步骤2。
如果该电源模块显示为Fault状态,请前往步骤3。
如果该电源模块显示为Absent状态,表示电源模块没有安装牢固。请将该电源模块拆卸后重新安装,然后查看对应槽位电源状态是否显示为Normal。如果仍然显示为Absent状态,请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Absent状态,请前往步骤4。
如果该电源模块显示为Fault状态,表示该模块异常,无法供电。请将该电源模块插入其它空闲电源模块槽位并查看对应槽位电源状态是否为Normal状态。如果仍然显示为Fault状态,请前往步骤4。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
风扇模块运行中上报Fault或执行display fan命令,风扇的状态不是Normal。
使用display fan命令查看风扇模块状态。
<Sysname> display fan
Slot 1:
Fan 1:
State : FanDirectionFault
Airflow Direction: Port-to-power
Prefer Airflow Direction: Power-to-port
Fan 2:
State : FanDirectionFault
Airflow Direction: Port-to-power
Prefer Airflow Direction: Power-to-port
· 如果风扇模块工作状态显示为FanDirectionFault,表示风扇的实际风道方向与配置的期望风道风向不一致,请根据机房的风向重新安装正确风向的风扇或使用fan prefer-direction命令配置正确的期望风道风向。
· 如果风扇模块工作状态显示为Absent,请前往步骤2。
· 如果风扇模块工作状态显示为Fault,请前往步骤3。
如果风扇模块工作状态显示为Absent状态,表示风扇模块不在位或者没有安装牢固。如果风扇模块在位,请将该风扇模块拆卸后重新安装,然后查看风扇模块状态是否显示为Normal状态。如果仍然显示为Absent状态,请更换风扇模块。如果更换新风扇模块后仍然显示为Absent状态,请前往步骤4。
如果风扇模块工作状态显示为Fault状态,表示该风扇模块异常,无法提供通风散热功能。请使用下述步骤进一步定位。
(1) 使用display environment命令查看系统温度是否持续升高。如果系统温度持续升高,建议用手在设备出风口触摸进一步判断出风口是否有出风。
(2) 如果温度持续升高,且出风口无风,可以肯定风扇模块异常。请将风扇模块拆卸后重新安装,然后使用display fan命令查看是否恢复为Normal状态。
(3) 如果仍然不能恢复为Normal状态,请更换该风扇模块。如果现场没有风扇模块,不能立即更换,请关闭设备以免温度过高导致电路烧坏(如果有降温措施保证系统工作在60摄氏度以下,也可以继续使用设备)。
(4) 如果更换新的风扇模块仍然不能恢复为Normal状态,请前往步骤4。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
命令 |
说明 |
dir |
用来显示目录或文件信息 |
display boot-loader |
用来显示启动软件包的信息 |
display environment |
显示设备的工作温度信息 |
display fan |
显示设备风扇模块的工作状态 |
display logbuffer |
用来显示系统日志缓冲区记录的日志信息 |
display power |
显示设备电源的信息 |
fan prefer-direction slot slot-number { power-to-port | port-to-power } |
配置用户期望的风扇模块的风道方向 |
用户下发ACL失败,具体分两种失败情况:
· 执行下发命令后设备提示资源不足。
· 执行下发命令后设备无任何错误提示,但ACL不起作用。
图2 ACL下发失败故障诊断流程图
下发ACL配置时如果界面打印出“Reason: Not enough hardware resource”字样,则表明ACL下发失败是由硬件资源不足导致。通过display qos-acl resource命令可以进一步确认ACL硬件资源使用情况。如果显示信息中Remaining条目为0了,则表示ACL硬件资源已用尽,设备无法再下发ACL。如果下发时没有报“Reason: Not enough hardware resource”字样,则根据下发方式进行步骤选择:
· 通过MQC(QoS策略)方式下发,请进行步骤2:
· 通过包过滤(packet-filter)方式下发,请进行步骤3。
通过下面命令分别检查不同使用情况下QoS策略的配置情况:
· 显示端口上QoS 策略配置信息,display qos policy interface
· 显示VLAN上QoS 策略配置信息,display qos vlan-policy
· 显示全局QoS策略配置信息,display qos policy global
· 显示控制平面上QoS策略配置信息,display qos policy control-plane slot slot-number
如果QoS策略中缺少流分类和流行为关联的配置,则补充相应配置。否则可通过以下两个命令分别检查下QoS策略中的类和流行为是否配置正确。
· 显示配置的类信息,display traffic classifier user-defined
· 显示配置的流行为信息,display traffic behavior user-defined
如果没有正确配置,则进行正确配置,否则进行步骤4。
可以通过display packet-filter命令检查packet-filter配置是否正确,如果不正确,则进行正确配置,否则进行步骤4
可以通过display acl命令检查ACL是否配置正确,如果不正确,则进行正确配置,否则进行步骤5。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
命令 |
说明 |
display acl |
显示ACL的配置和运行情况 |
display diagnostic-information |
显示系统当前多个功能模块运行的统计信息 |
display packet-filter |
显示ACL在报文过滤中的应用情况 |
display qos-acl resource |
显示ACL资源的使用情况 |
display qos policy interface |
显示指定端口或所有端口上QoS策略的配置信息和运行情况 |
display qos vlan-policy |
显示基于VLAN应用QoS策略的信息 |
display qos policy global |
显示基于全局应用QoS策略的信息 |
display qos policy control-plane |
显示控制平面应用QoS策略的信息 |
display qos policy user-defined |
显示QoS策略的配置信息 |
display traffic classifier user-defined |
显示配置的类信息 |
display traffic behavior user-defined |
显示配置的流行为信息 |
用户规划IRF后,尝试将多台设备配置为一个IRF系统,发现没有成功建立IRF。
图3 IRF故障处理流程图
通过display irf命令可以查看当前IRF中的成员个数,如果当前IRF成员数目已经达到支持的最大值,则其它设备不能再加入该IRF。IRF支持的最大成员数量为10台。
执行display irf命令可以查看到IRF中各成员的编号,如果新增设备的编号与IRF中现有成员设备的编号相同,则新增设备无法加入IRF;如果两台IRF中的设备具有相同的成员编号,则将导致IRF合并失败。
根据IRF规划进行线路检查,检查物理线路是否完全按照规划进行连接。通过display irf configuration命令可以查看当前设备上的IRF端口配置,其中一台设备的IRF-Port1端口必须与另外一台设备的IRF-Port2端口相连才能建立IRF,否则IRF建立失败。
IRF物理端口需要为SFP28口、QSFP+口或QSFP28口,请检查IRF物理端口是否符合要求。
如果使用的是SFP28口作为IRF物理端口,需要使用25Gbps的SFP28模块或电缆进行IRF物理连接。使用光模块+光纤的连接方式时,请查看链路两端的光模块型号是否一致,光纤是否连接正确。
如果使用的是QSFP+口作为IRF物理端口,请检查插入IRF物理端口的线缆或光模块是否带有40Gbps、QSFP+标记。使用光模块+光纤的连接方式时,请查看链路两端的光模块型号是否一致,光纤是否连接正确。
如果使用的是QSFP28口作为IRF物理端口,可以使用100Gbps的QSFP28模块或线缆进行IRF物理连接。使用光模块+光纤的连接方式时,请查看链路两端的光模块型号是否一致,光纤是否连接正确。还可以使用QSFP28 to SFP28电缆建立25GE IRF物理连接。
执行display irf topology命令,查看显示信息中的Link字段,可以判断IRF端口的链路状态:
· 如果Link字段显示UP,表示IRF链路状态正常,请执行步骤6。
· 如果Link字段显示DOWN,表示IRF链路状态异常,请执行display irf link命令查看IRF物理端口的状态,注意观察Status字段:
¡ 如果与IRF端口绑定的所有IRF物理端口的当前状态均为DOWN或ADM(Administratively DOWN),请检查物理连接状态或使用undo shutdown命令开启该端口,使之变为UP状态。
¡ 如果与IRF端口绑定的IRF物理端口中至少有一个处于UP状态,请在保存当前配置后,在系统视图下执行irf-port-configuration active命令来激活IRF端口的配置。
irf-port-configuration active命令用于激活IRF端口的配置,该操作会使被选举为从设备的设备自动重启以加入IRF。因此,在执行该命令前,请在各成员设备上使用save命令保存当前配置,避免设备重启后因IRF配置丢失造成无法成功建立IRF。
用户可通过display version命令查看各设备上运行的软件版本,如果两台设备上使用的软件版本差异过大,则不能组成IRF,出现这种现象时,建议采用将低版本升级到高版本的方式解决。
IRF的启动文件自动加载功能(irf auto-update enable命令)可以自动同步IRF中各成员设备的版本。但是当成员设备使用的软件版本间差异过大时,该功能可能无法实现自动同步,此时请手工升级较低的版本。
在建立IRF之前,各成员设备上的一些关键功能的配置需要保持一致。这些关键功能包括:
· 系统工作模式(通过system-working-mode命令配置)。
· 表项容量(通过hardware-resource switch-mode命令配置)。
· 最大等价路由条数(通过max-ecmp-num命令配置)。
· IPv4等价路由增强模式(通过ecmp mode命令配置)。
· 前缀大于64位的IPv6路由功能(通过hardware-resource routing-mode命令配置)。
· VXLAN的硬件资源模式(通过hardware-resource vxlan命令配置)
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
命令 |
说明 |
display version |
显示系统版本信息 |
display irf |
显示本IRF的相关信息 |
display irf topology |
显示IRF的拓扑信息 |
display irf configuration |
显示本IRF中所有设备的配置信息 |
irf-port-configuration active |
激活设备上所有IRF端口下的配置 |
用户配置链路聚合功能后,发现聚合组中的成员端口不能被选中,聚合失败。
图4 聚合不成功故障处理流程图
根据聚合规划进行线路检查,检查物理链接线路是否完全按照规划进行连接。
通过display interface命令查看聚合组中的成员端口是否处于UP状态,如果没有UP,可按照端口不UP故障流程处理,具体请参见6 端口相关故障处理。
在本设备上通过执行display current-configuration interface查看聚合接口及本端Unselected端口(通过display link-aggregation verbose命令查看端口是否为Selected状态,只有Selected状态的端口才可以在该聚合组中正常工作)的操作key和属性类配置与参考端口是否相同,如果不同,则将其配置相同。
若不是动态聚合,则直接到步骤6,否则进行步骤5。
在与本端Unselected端口相连接设备上执行display current-configuration interface命令查看对端Unselected端口的属操作key和属性类配置与参考端口的对端端口是否相同,如果不同,则将其配置相同。
可在聚合接口视图下通过link-aggregation selected-port maximum命令配置聚合组中的最大选中端口数。通过display link-aggregation verbose命令查看聚合组中成员端口是否超过上限,如果超过上限,则多出来的端口为Unselected状态。Selected端口按照端口编号从小到大排序,可以在成员端口视图下使用undo port link-aggregation group命令将Selected端口中不适用的端口从聚合组中删除,以使必须使用的端口为Selected状态。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
命令 |
说明 |
display current-configuration interface |
显示接口当前生效的配置 |
display interface |
显示以太网接口的相关信息 |
display link-aggregation verbose |
显示系统上已有聚合接口所对应的聚合组的详细信息 |
link-aggregation selected-port maximum |
配置聚合组中的最大选中端口数 |
1GE SFP、10GE SFP+、40GE QSFP+或100GE QSFP28光口不UP。
图5 光口不UP故障处理流程图
执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。
执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。
对于SFP+/QSFP+/QSFP28端口,可以使用SFP+电缆/QSFP+电缆/QSFP28电缆将本端端口与设备上其他同类型端口直接互连。查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口来检查故障是否解决。
可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块、线缆)来检查故障是否排除。关于光模块、线缆的具体描述请参见产品的安装手册。
(1) 可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配。
(2) 可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。
(3) 可通过display transceiver interface命令,检查两端的光模块波长、距离等参数是否一致。
需要注意的是,对于40GE的QSFP+光口,如果使用QSFP+ to SFP+电缆连接时,由于QSFP+光模块发送光功率超过了SFP+模块要求接收的光功率上限,在使用时需要加光衰。
首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。
如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information,联系H3C的技术支持工程师。
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
命令 |
说明 |
display diagnostic-information |
显示或保存系统当前多个功能模块运行的统计信息 |
display interface brief |
显示端口的概要信息 |
display transceiver alarm interface |
显示可插拔接口模块的当前故障告警信息 |
display transceiver interface |
显示接口上插入的可插拔接口模块的主要特征参数 |
25GE SFP28光口不UP。
图6 25GE光口不UP故障处理流程图
执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。
执行display interface brief命令,查看端口与光模块的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。
25G端口既可以工作于25G速率,也可以工作于10G速率,但不支持速率和双工自协商,需要使用speed、duplex命令手动配置两端接口速率、双工状态一致。只有配置的接口速率与光模块/线缆速率一致时,接口状态才可能UP。同一组中的端口速率的配置需要保持一致。
S6820交换机25G端口分组情况如下:
· S6820-56HF交换机上,在端口编号1~24和33~56这两个范围中,按端口编号由小到大的顺序,每4个连续的端口分为一组。
· LSWM124TG2H接口模块扩展卡上按端口编号由小到大的顺序,每4个连续的端口分为一组。
· 使用using twenty-fivegige命令将一个100GE端口拆分成4个25GE端口时,拆分的4个25GE端口为一组。
25G端口的CL72和FEC标准都还在草案状态,不同厂商的设备间可能不完全兼容。本系列交换机的25G端口下提供port cl72 enable和port fec enable命令行,用于控制这两个硬件协议的开关状态,以使设备能够与不同厂商的设备对接。
· 链路两端接口的CL72协商功能开关状态需要保持一致。
· 如果对端支持Base-R FEC,则本端和对端同时开启或同时关闭FEC协商功能都可以互通。
· 如果对端支持RS-FEC,则本端和对端都需要关闭FEC协商功能。当使用电缆互连时,两端还需要关闭CL72协商功能。
对于S6820-56HF的Twenty-FiveGigE1/0/1~Twenty-FiveGigE1/0/8、Twenty-FiveGigE1/0/49~Twenty-FiveGigE1/0/56,LSWM124TG2H接口模块扩展卡上的25G端口,需要使用port media-type { copper | fiber }命令配置接口的介质类型,使用光模块/光缆时配置为fiber,使用电缆时配置为copper。同一组中的端口的介质类型的配置需要保持一致,在组中任意一个端口上进行配置,配置会自动同步到组中其他端口。
端口工作在25GE速率时,将本端端口与设备上其他25G端口用SFP28电缆(适用于短距离连接)直接互连;端口工作在10GE速率时,将本端端口与设备上其他10G端口用SFP+电缆(适用于短距离连接)直接互连。查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口来检查故障是否解决。
可通过如下步骤检查光模块是否正常,若不正常可通过更换与光接口匹配的光模块(请使用H3C光模块、线缆)来检查故障是否排除。关于光模块、线缆的具体描述请参见产品的安装手册。
(1) 可通过display transceiver alarm interface命令,查看当前端口上的光模块的故障告警信息,若显示为“None”,则表示没有故障;若显示有告警信息,则表示该光模块有故障或该模块与光接口类型不匹配。
(2) 可使用光功率计测试端口收发光功率是否在正常范围内,是否稳定。
(3) 可通过display transceiver interface命令,检查两端的光模块波长、距离等参数是否一致。
首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。
如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information,联系H3C的技术支持工程师。
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
命令 |
说明 |
display current-configuration |
显示当前配置信息 |
display diagnostic-information |
显示或保存系统当前多个功能模块运行的统计信息 |
display interface brief |
显示端口的概要信息 |
display transceiver alarm interface |
显示可插拔接口模块的当前故障告警信息 |
display transceiver interface |
显示接口上插入的可插拔接口模块的主要特征参数 |
10/100/1000Base-T千兆电口或1/10GBase-T万兆电口不UP。
执行display interface brief命令,查看两端端口的速率、双工配置是否匹配。若不匹配,请通过speed命令和duplex命令配置端口的速率和双工模式。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
通过display logbuffer命令查看系统日志时,发现存在上报非H3C合法光模块的相关信息。显示如下:
<Sysname> display logbuffer
FortyGigE1/0/5: This transceiver is NOT sold by H3C. H3C therefore shall NOT guarantee the normal function of the device or assume the maintenance responsibility thereof!
图8 故障诊断流程图
通过命令display transceiver interface,查看Vendor Name是否是H3C。如果显示的是H3C,则可能是没有电子标签的H3C光模块,也可能不是H3C光模块,需要进一步确认。如果显示的是其它信息,则一定不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。
[Sysname] display transceiver interface fortygige 1/0/1
FortyGigE 1/0/1 transceiver information:
Transceiver Type : 40G_BASE_LR4_QSFP_PLUS
Connector Type : LC
Wavelength(nm) : 1301
Transfer Distance(km) : 10(SMF)
Digital Diagnostic Monitoring : YES
Vendor Name : H3C
Ordering Name : QSFP-40G-LR4-WDM1300
通过Probe视图下的命令display hardware internal transceiver register interface收集光模块信息。
然后向H3C技术支持工程师反馈光模块上的条码,确认光模块的渠道来源,明确是否是H3C光模块。如果确认不是H3C光模块,可通过更换为H3C光模块来检查故障是否排除。
如果上述检查完成后确认是H3C光模块,但故障仍无法排除,请联系H3C的技术支持工程师。
通过display transceiver diagnosis interface命令查看光模块诊断信息时,系统提示光模块不支持数字诊断故障。显示如下:
<Sysname> display transceiver diagnosis interface fortygige 1/0/1
The transceiver does not support this function.
图9 故障诊断流程图
(1) 通过display transceiver interface命令,查看Vendor Name是否是H3C。
(2) 通过display transceiver manuinfo interface命令,确认光模块的渠道来源,向H3C返回光模块上的条码,收集光模块的信息,明确是否是H3C光模块。
通过display transceiver interface命令,查看Digital Diagnostic Monitoring(对数字诊断功能的支持情况)是否是Yes,并向H3C人员咨询这款光模块是否支持数字诊断功能。
<Sysname> display transceiver interface fortygige 1/0/1
FortyGigE 1/0/1 transceiver information:
Transceiver Type : 40G_BASE_LR4_QSFP_PLUS
Connector Type : LC
Wavelength(nm) : 1301
Transfer Distance(km) : 10(SMF)
Digital Diagnostic Monitoring : YES
Vendor Name : H3C
Ordering Name : QSFP-40G-LR4-WDM1300
如果上述检查完成后确认是H3C光模块,并支持数字诊断功能,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师。
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
通过display interface查看到端口存在CRC等错误统计故障。
图1-1 故障诊断流程图
通过display interface命令,查看端口出入方向的错包统计具体是哪项在增长,从而判断故障问题。为方便查看,也可以在用户视图下使用reset counter interface清空端口统计报文再观察。
通过display transceiver diagnosis interface查看光口所插光模块的数字诊断参数的当前测量值。若该光模块的光功率不正常,请更换同一型号的正常光模块。
[Sysname] display transceiver diagnosis interface fortygige 1/0/1
FortyGigE1/0/1 transceiver diagnostic information:
Current diagnostic parameters:
Temp.(°C) Voltage(V) Bias(mA) RX power(dBm) TX power(dBm)
43 3.31 6.23 -6.50 -2.15
Alarm thresholds:
Temp(°C) Voltage(V) Bias(mA) RX power(dBM) TX power(dBM)
High 75 -63 10.50 2.00 1.50
Low -5 2.97 2.00 -13.90 -11
通过display interface brief命令,查看端口配置是否有异常,其中两端的协商状态双工模式,端口速率是否一致。若端口速率不一致或存在半双工模式,请通过speed命令和duplex命令分别配置端口的速率和双工模式。
更换到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,可更换光模块测试。
通过display interface命令,查看端口pauses帧计数,如果在不断增长,表明端口发出或者收到了大量的流控帧。检查下端口出入流量是否过大及对端设备的流量处理能力。
如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师。
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
端口状态为UP,但不接收报文。
图10 故障诊断流程图
检查两端端口状态是否一直UP,并使用display interface 命令查看入方向的报文统计是否增长。为方便查看,也可以使用reset counter interface清空当前端口的报文统计结果再进行观察。同时,查看对端是否有发送报文统计。检查端口错包统计是否持续增长。
可通过以下步骤检查端口配置是否影响报文的接收:
(1) 通过display interface brief命令,查看端口配置是否有异常。其中包括两端的端口双工模式、端口速率、端口类型以及VLAN等配置。若有异常,请更改端口属性的配置查看该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令,再次查看端口是否能恢复正常。
(2) 如果配置了STP功能,通过display stp brief命令,查看端口是否为 discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。
(3) 如果该端口加入了聚合组,通过display link-aggregation summary命令查看该端口是否为Selected选中状态。当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。
更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接。如果为光口,可更换光模块测试。
如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
端口状态为UP,但不发送收报文。
图11 故障诊断流程图
检查两端端口状态是否一直UP,并使用display interface 命令查看出方向的报文统计是否增长。为方便查看,也可以使用reset counter interface命令清空端口当前的报文统计结果再进行观察。检查端口错包统计是否持续增长。
可通过以下步骤检查端口配置是否影响报文的发送:
(1) 通过display interface brief命令,查看端口配置是否有异常。其中包括两端端口的双工模式、端口速率、端口类型以及VLAN等配置。若有异常,请更改端口属性的配置查看该故障端口是否能恢复正常。如果不能,请先执行shutdown命令后,再执行undo shutdown命令,再次查看端口是否能恢复正常。
(2) 如果配置了STP功能,使用display stp brief命令查看故障端口是否为discarding状态。如果端口被STP设置为discarding状态,请根据STP的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的STP功能。
(3) 如果该端口加入了聚合组,使用display link-aggregation summary命令查看该端口是否为Selected选中状态。当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。
更换连接到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转接架,传输等设备)及传输介质(网线,光纤,光模块等)是否正常。如果为电口,使用PC替代对接测试。如果为光口,可更换光模块测试。
如果上述检查完成后确认配置、对端以及链路都没有问题,但故障仍无法排除,通过display diagnostic-information命令收集设备的diagnostic-information后,请联系H3C的技术支持工程师
<Sysname> display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y
命令 |
说明 |
display diagnostic-information |
显示或保存系统当前多个功能模块运行的统计信息 |
display interface |
显示以太网端口的相关信息 |
display interface brief |
显示接口的概要信息 |
display link-aggregation summary |
显示所有聚合组的摘要信息 |
display logbuffer |
显示系统日志缓冲区的状态和缓冲区记录的日志信息 |
display stp brief |
显示生成树状态和统计的简要信息 |
display transceiver alarm interface |
显示可插拔接口模块的当前故障告警信息 |
display transceiver diagnosis |
显示可插拔光模块的数字诊断参数的当前测量值 |
display transceiver interface |
显示接口上插入的可插拔接口模块的主要特征参数 |
display transceiver manuinfo interface |
显示可插拔接口模块的部分电子标签信息 |
EBGP/IBGP邻居状态异常,不能建立邻居。
图12 故障处理流程图
通过display bgp peer l2vpn evpn命令检查基础配置是否正确:
· 检查两端配置的AS号是否匹配。如果不匹配,则执行peer as-number命令修改AS号,确保本端设备上配置的对等体的AS号与对等体所在的AS号相同。
· 检查两端的Router ID是否相同。如果相同,则需要执行router-id命令修改其中一端的Router ID。
执行ping命令判断是否可以ping通对端。如果无法ping通,则检查链路是否故障、路由是否可达。
通过display memory-threshold命令检查设备的内存情况。设备处于内存门限告警状态时不能建立BGP连接,只有三级门限告警解除10分钟后才能建立BGP连接。如果三级门限告警无法解除,请联系技术支持。
(1) 通过debugging bgp event命令查看无法建立邻居的原因,如本端是否发起连接,连接对端是否成功,连接是否冲突等。
(2) 通过debugging bgp open命令查看Open报文的发送和接收是否出错。
(3) 通过debugging tcp packet命令查看TCP报文是否能够交互成功。
(4) 通过display bgp peer l2vpn evpn verbose命令查看邻居的地址族协商情况,报文收发的历史记录。
(5) 通过display bgp peer l2vpn evpn log-info命令查看邻居的up/down记录,主要观察邻居down的原因。
(6) 通过display system internal bgp peer l2vpn evpn session statistics命令查看会话详细状态。
EVPN组网中,报文不能通过多条等价路由进行ECMP转发。
图13 故障处理流程图
通过display bgp l2vpn evpn route-distinguisher route-type ip-prefix命令查看是都存在到达同一目的网络RD相同、下一跳不同的多条路由。如果只有一条路由,则无法进行ECMP;如果存在多条路由,则继续进行以下操作。
通过display bgp l2vpn evpn route-distinguisher route-distinguisher evpn-route route-length命令查看EVPN路由的详细信息。判断到达同一目的网络的多条路由携带的BGP团体属性和扩展团体属性是否相同。如果不同,则修改通过配置修改路由的BGP团体属性和扩展团体属性;否则,无法形成ECMP。
通过display bgp l2vpn evpn route-distinguisher route-distinguisher evpn-route route-length命令查看EVPN路由的详细信息,判断路由中是否携带default-gateway扩展团体属性。若携带该扩展团体属性,则路由之间不能形成ECMP。
通过display ip routing-table vpn-instance命令查看是否存在其他路由协议生成的到达该目的网络的路由。如果存在,请通过preference命令修改BGP路由的优先级,使得BGP路由优于其他路由协议生成的路由(优先级数值越小表明优先级越高)。
通过display bgp routing-table ipv4 vpn-instance命令查看是否存在相同前缀的多条路由,如果存在多条,但是只有一条为最优路由(带有“>”标记),则执行display current-configuration configuration bgp命令检查BGP-VPN IPv4单播地址族视图下是否配置了balance命令。如果没有配置,则执行balance命令配置进行BGP负载分担的路由条数大于1。
命令 |
说明 |
display bgp peer l2vpn evpn |
显示BGP EVPN对等体的信息 |
display bgp l2vpn evpn |
显示BGP EVPN路由信息 |
display ip routing-table vpn-instance |
显示VPN实例的路由表信息 |
display bgp routing-table ipv4 vpn-instance |
显示VPN实例的BGP IPv4单播路由信息 |
display evpn auto-discovery |
显示EVPN通过BGP自动发现的邻居信息 |
debugging bgp event |
开启BGP的事件调试信息开关 |
debugging bgp open |
开启BGP的Open报文调试信息开关 |
debugging tcp packet |
开启TCP报文调试信息开关 |
设备运行中CPU占用率高。
图14 故障诊断流程图
连续使用命令display cpu-usage查看CPU的占用率。如果CPU占用率持续在80%以上,说明某个任务长时间占用CPU,需要确认CPU高的具体原因。
使用Probe视图下的display process cpu命令观察占用CPU最多的任务。
<Sysname> system-view
[Sysname] probe
[Sysname-probe] display process cpu slot 1
CPU utilization in 5 secs: 3.7%; 1 min: 3.1%; 5 mins: 3.8%
JID 5Sec 1Min 5Min Name
1 0.0% 0.0% 0.0% scmd
2 0.0% 0.0% 0.0% [kthreadd]
3 0.0% 0.0% 0.0% [migration/0]
4 0.0% 0.0% 0.0% [ksoftirqd/0]
5 0.0% 0.0% 0.0% [watchdog/0]
6 0.0% 0.0% 0.0% [migration/1]
7 0.0% 0.0% 0.0% [ksoftirqd/1]
8 0.0% 0.0% 0.0% [watchdog/1]
9 0.0% 0.0% 0.0% [migration/2]
10 0.0% 0.0% 0.0% [ksoftirqd/2]
11 0.0% 0.0% 0.0% [watchdog/2]
12 0.0% 0.0% 0.0% [migration/3]
13 0.0% 0.0% 0.0% [ksoftirqd/3]
14 0.0% 0.0% 0.0% [watchdog/3]
15 0.0% 0.0% 0.0% [migration/4]
16 0.0% 0.0% 0.0% [ksoftirqd/4]
17 0.0% 0.0% 0.0% [watchdog/4]
18 0.0% 0.0% 0.0% [migration/5]
19 0.0% 0.0% 0.0% [ksoftirqd/5]
20 0.0% 0.0% 0.0% [watchdog/5]
21 0.0% 0.0% 0.0% [migration/6]
---- More ----
各列分别表示某任务平均5sec、1min、5min实际占用CPU的百分比和任务名。某任务占用率越高,说明相应的任务占用CPU的资源越多。正常情况任务对CPU的占用率一般低于5%,这个命令可以查看明显高出正常占用率的任务。
通过Probe视图下的follow job job-id 命令确认异常任务的调用栈。此处以显示job 14的调用栈为例。
[Sysname-probe] follow job 14
Attaching to process 14 ([watchdog/3])
Iteration 1 of 5
------------------------------
Kernel stack:
[<80480754>] schedule+0x954/0x1250
[<8028f720>] watchdog+0xb0/0x410
[<802656d0>] kthread+0x130/0x140
[<8021d730>] kernel_thread_helper+0x10/0x20
Iteration 2 of 5
------------------------------
Kernel stack:
[<80480754>] schedule+0x954/0x1250
[<8028f720>] watchdog+0xb0/0x410
[<802656d0>] kthread+0x130/0x140
[<8021d730>] kernel_thread_helper+0x10/0x20
Iteration 3 of 5
------------------------------
Kernel stack:
[<80480754>] schedule+0x954/0x1250
[<8028f720>] watchdog+0xb0/0x410
[<802656d0>] kthread+0x130/0x140
[<8021d730>] kernel_thread_helper+0x10/0x20
Iteration 4 of 5
------------------------------
Kernel stack:
[<80480754>] schedule+0x954/0x1250
[<8028f720>] watchdog+0xb0/0x410
[<802656d0>] kthread+0x130/0x140
[<8021d730>] kernel_thread_helper+0x10/0x20
Iteration 5 of 5
------------------------------
Kernel stack:
[<80480754>] schedule+0x954/0x1250
[<8028f720>] watchdog+0xb0/0x410
[<802656d0>] kthread+0x130/0x140
[<8021d730>] kernel_thread_helper+0x10/0x20
记录上述三步所获得的信息,并使用display diagnostic-information命令收集设备的诊断信息。。将所有信息反馈给H3C技术人员寻求技术支持。
使用display memory命令查看设备内存信息。如果内存占用率在持续的一段时间内(一般为30分钟)高于60%,那么可能存在内存异常问题,需要关注。
图15 故障诊断流程图
使用Probe视图下的display system internal kernel memory pool命令查看各块内存使用情况,找出使用率不正常和不断增加的内存模块。
<Sysname> system-view
[Sysname] probe
[Sysname-probe]display system internal kernel memory pool slot 1
Active Number Size Align Slab Pg/Slab ASlabs NSlabs Name
2 10 3072 0 10 8 1 1 sgpool-128
0 0 900 0 34 8 0 0 LFIB_IlmEntryCache
0 0 656 0 23 4 0 0 MFW_FsCache
2 39 768 0 39 8 1 1 biovec-64
0 0 96 8 30 1 0 0 cfq_io_context
0 0 52 0 42 1 0 0 ARP_Static_Entry_Cachep
0 0 432 0 34 4 0 0 LFIB_IlmEntryCache
0 0 80 0 34 1 0 0 LFIB_NhlfeCacheCache
0 0 536 0 28 4 0 0 jffs2_i
11 92 52 4 46 1 2 2 pktpcb
1 26 576 0 26 4 1 1 shmem_inode_cache
515 650 256 8 25 2 24 26 kmalloc-256
0 0 1936 0 16 8 0 0 MFW_FsCache
0 42 4096 0 7 8 0 6 names_cache
0 0 1104 0 28 8 0 0 MFW_FsCache
0 0 336 4 21 2 0 0 ripcb
0 0 8 0 85 1 0 0 L2VFIB_Ac_Ctr_Cache
599 680 440 4 34 4 20 20 socket
0 0 104 0 28 1 0 0 memDSLITE
0 0 68 0 39 1 0 0 mfib_l2m_source_cache
16 26 108 0 26 1 1 1 ADJ4_Ext_Cachep
0 0 48 0 46 1 0 0 L2VFIB_LpwEntryCacheName(1)
---- More ----
请重点查看Number列和Size列的统计结果。如果发现某块内存在不停增加,那么表示该块内存在被不断使用。需要注意的是:
· 有些内存块使用率的增加是正常的,所以需要判断该块内存是否真正的异常。Number*Size是某个模块使用的内存大小。判断内存使用率是否正常可能需要持续观察内存增长速度和内存使用的多少综合分析判断。
· 有些内存的泄漏过程比较缓慢,所以需要比较长的时间(甚至是几周的时间)来对比观察。
通过上述步骤只是确定了出现问题的内存模块,但还需继续收集信息以确定具体是哪些代码有问题。由于后续信息收集要求较高,不建议用户操作,请与H3C的技术支持工程师联系。需要注意的是:此时,不得重启设备,否则设备重启后,由于缺少故障出现时的信息而给故障定位带来困难。
命令 |
说明 |
display cpu-usage |
显示CPU利用率的统计信息 |
display process cpu |
Probe视图下命令,显示各任务占用CPU的情况 |
display memory |
显示内存使用情况 |
display system internal kernel memory pool |
Probe视图下命令,查看各块内存使用情况 |
follow job job-id |
Probe视图下命令,显示异常任务的调用栈 |
设备二层转发丢包,即源端和目的端在同一二层网络的同一VLAN内,通信过程中有丢包。
图16 二层流量转发丢包故障诊断流程图
使用display interface命令查看端口下是否有错包。如果有错包,请前往步骤2,如果没有错包,请前往步骤3进行后续步骤的检查。
<Sysname>display interface hundredgige 1/0/32
HundredGigE1/0/32 current state: UP
Line protocol state: UP
IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 000f-e200-002b
……
Last 300 seconds input: 0 packets/sec 10 bytes/sec 0%
Last 300 seconds output: 0 packets/sec 10 bytes/sec 0%
Input (total): 1438 packets, 480292 bytes
0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses
Input (normal): 1438 packets, - bytes
0 unicasts, 0 broadcasts, 1438 multicasts, 0 pauses
Input: 0 input errors, 0 runts, 0 giants, 0 throttles
0 CRC, 0 frame, - overruns, 0 aborts
- ignored, - parity errors
Output (total): 1440 packets, 475200 bytes
0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses
Output (normal): 1440 packets, - bytes
0 unicasts, 0 broadcasts, 1440 multicasts, 0 pauses
Output: 0 output errors, - underruns, - buffer failures
0 aborts, 0 deferred, 0 collisions, 0 late collisions
0 lost carrier, - no carrier
端口下有错包有以下几种可能的故障原因,可使用排除法定位:
· 端口本身硬件故障:通过将连接端口的线缆连接到配置相同且可正常工作的端口查看是否端口本身硬件故障。如果是端口本身硬件故障,请将线缆连接到可正常工作的端口。
· 链路上光模块、光纤或以太网双绞线故障:通过更换完好的光模块、光纤或以太网双绞线定位是否光纤或以太网双绞线故障。如果是光模块、光纤或以太网双绞线故障,请更换完好的光模块、光纤或以太网双绞线。
· 对端配置问题,查看对端速率、双工模式的配置是否和本端一致。如果对端速率和双工模式的配置与本端不一致,请更新配置保证本端和对端速率和双工模式的配置一致。
· 当通过上述方法无法解决错包问题需要联系技术支持时,请先通过如下方法收集信息,然后前往步骤7。
# 使用probe命令进入Probe视图,在Probe视图下使用debug port map命令确认面板端口对应的芯片端口。
[Sysname-probe] debug port map slot 1
[Interface] [Unit] [Port] [Name] [Combo?] [Active?] [IfIndex] [MID] [Link] [Pipe
Num] [PhyAddr]
================================================================================
==============
HGE1/0/1 0 38 ce8 no no 0x1 64 down 1
161
HGE1/0/2 0 34 ce7 no no 0x6 64 down 1
160
WGE1/0/3:1 0 42 xe31 no no 0xc 64 down 1
162
WGE1/0/3:2 0 43 xe32 no no 0xd 64 down 1
162
WGE1/0/3:3 0 44 xe33 no no 0xe 64 down 1
162
WGE1/0/3:4 0 45 xe34 no no 0xf 64 down 1
162
HGE1/0/4 0 46 ce9 no no 0x10 64 down 1
163
HGE1/0/5 0 54 ce11 no no 0x15 64 down 1
21
HGE1/0/6 0 50 ce10 no no 0x1a 64 down 1
20
HGE1/0/7 0 58 ce12 no no 0x1f 64 down 1
22
HGE1/0/8 0 62 ce13 no no 0x24 64 down 1
23
HGE1/0/9 0 72 ce15 no no 0x29 64 down 2
1
HGE1/0/10 0 68 ce14 no no 0x2e 64 down 2
0
HGE1/0/11 0 76 ce16 no no 0x33 64 down 2
2
HGE1/0/12 0 80 ce17 no no 0x38 64 down 2
3
HGE1/0/13 0 88 ce19 no no 0x3d 64 down 2
121
HGE1/0/14 0 84 ce18 no no 0x42 64 down 2
120
HGE1/0/15 0 92 ce20 no no 0x47 64 down 2
122
HGE1/0/16 0 96 ce21 no no 0x4c 64 down 2
123
HGE1/0/17 0 106 ce23 no no 0x51 64 down 3
101
HGE1/0/18 0 102 ce22 no no 0x56 64 down 3
100
HGE1/0/19 0 110 ce24 no no 0x5b 64 down 3
102
HGE1/0/20 0 114 ce25 no no 0x60 64 down 3
103
HGE1/0/21 0 122 ce27 no no 0x65 64 down 3
61
HGE1/0/22 0 118 ce26 no no 0x6a 64 down 3
60
HGE1/0/23 0 126 ce28 no no 0x6f 64 down 3
62
HGE1/0/24 0 130 ce29 no no 0x74 64 down 3
63
HGE1/0/25 0 5 ce1 no no 0x79 64 down 0
85
HGE1/0/26 0 1 ce0 no no 0x7e 64 down 0
81
HGE1/0/27 0 9 ce2 no no 0x83 64 down 0
148
HGE1/0/28 0 13 ce3 no no 0x88 64 down 0
149
HGE1/0/29 0 21 ce5 no no 0x8d 64 down 0
41
HGE1/0/30 0 17 ce4 no no 0x92 64 down 0
40
XGE1/0/31:1 0 25 xe18 no no 0x98 64 down 0
42
XGE1/0/31:2 0 26 xe19 no no 0x99 64 down 0
42
XGE1/0/31:3 0 27 xe20 no no 0x9a 64 down 0
42
XGE1/0/31:4 0 28 xe21 no no 0x9b 64 down 0
42
HGE1/0/32 0 29 ce6 no no 0x9c 64 down 0
43
XGE1/0/33 0 66 xe50 no no 0xa1 64 up 1
5c
XGE1/0/34 0 100 xe75 no no 0xa2 64 down 2
58
# 查到HundredGigE1/0/1对应的芯片端口名字为ce8,然后执行下面命令两次或两次以上,查看是否有接收丢包统计(RDBGC)和发送丢包统计(TDBGC)计数。如果有将相关信息反馈技术支持。
[Sysname-probe] bcm slot 1 chip 0 show/c/ce8
RDBGC2.xe0 : 8,118 +8,118
R511.xe0 : 8,118 +8,118
RPKT.xe0 : 8,118 +8,118
RMCA.xe0 : 8,118 +8,118
RPOK.xe0 : 8,118 +8,118
RBYT.xe0 : 2,726,553 +2,726,553
T511.xe0 : 8,208 +8,208
TPOK.xe0 : 8,208 +8,208
TPKT.xe0 : 8,208 +8,208
TMCA.xe0 : 8,208 +8,208
TBYT.xe0 : 2,741,472 +2,741,472
PERQ_PKT(3).xe0 : 8,208 +8,208
PERQ_BYTE(3).xe0 : 2,741,472 +2,741,472 330/s
(1) 检查端口、VLAN以及全局下是否配置了ACL或QoS策略,如果配置了ACL或QoS策略,请检查端口进入的报文是否因匹配了ACL或QoS策略的流分类而被丢弃,包括端口下的packet-filter(使用display packet-filter查看)、qos policy(使用display qos policy查看),vlan policy(使用display qos vlan-policy查看)以及global policy(使用display qos policy global查看)。如果报文因匹配了ACL或QoS策略的流分类而被丢弃,请参考ACL或QoS的配置方法通过更新配置使报文不被丢弃。
(2) 检查是否因匹配一些特性自动创建的的ACL而被过滤,在以太网接口视图下使用display this命令查看端口下是否配置了下面特性或使用特性相关的具体命令查看:
· 端口是否配置ip source binding或ip verify source,使用display ip source binding/ display ipv6 source binding可以查看绑定表项信息。如果端口配置了ip source guard且通过上述 display命令发现没有匹配报文的表项,请根据您使用的绑定表项的生成方法进一步排查。
· 查看端口是否配置了Portal认证,没有通过Portal认证的用户,报文会被该端口丢弃。使用display portal interface可以显示指定VLAN接口的Portal配置信息。请用户根据实际情况确定是否可以取消Portal认证。在端口所属VLAN的对应VLAN虚接口下使用undo portal server server-name可以取消Portal认证。
· 使用display stp brief命令查看端口是否被stp设置为discarding状态。如果端口被stp设置为discarding状态,请根据stp的相关配置进一步排查。H3C建议您将连接终端设备的端口配置为边缘端口或关闭该端口的stp功能。
· 如果端口属于某个聚合组,使用display link-aggregation verbose命令查看聚合口的详细信息,当该端口Status为Unselected状态时,该端口无法收发数据报文。请定位端口成为Unselected状态的原因,如聚合组内成员端口的属性类配置与参考端口不一致,进一步排查解决。
· 查看端口是否被Smartlink阻塞:使用display smart-link group命令查看端口状态,当State为STANDBY或DOWN时端口不能转发数据。如果State为DOWN,请定为端口成为DOWN状态的原因,如上行链路上的设备配置了Monitor Link功能造成该端口DOWN,或该端口所在链路连接发生故障或端口被shutdown,进一步排查解决;如果State为STANDBY,请将该设备Smart Link组的主、从端口互换。
· 在以太网接口视图下使用display this命令查看端口是否在报文所属VLAN中。如果端口不在报文所属VLAN中,请将端口加入该VLAN。
· 使用display mac-address blackhole命令查看是否因为匹配了黑洞MAC地址表项被丢包。请根据实际情况确定是否可以取消该黑洞MAC。如果需要删除该黑洞MAC,请使用undo mac-address blackhole mac-address vlan vlan-id命令删除。
· 使用display qos lr interface查看是否有端口限速的配置。如果端口有限速的配置,请查看令牌生成速度和突发流量配置值是否合理,可以通过使用qos lr { inbound | outbound } cir committed-information-rate [ cbs committed-burst-size ]命令调整令牌生成速度和突发流量配置值定位解决。
· 在以太网接口视图下使用display this命令查看端口是否有风暴抑制相关配置,包括广播风暴抑制比(broadcast-suppression),组播风暴抑制比(multicast-suppression),未知单播风暴抑制比(unicast-suppression)。如果端口下配置了风暴抑制比,可以通过将风暴抑制比的数值调大定位解决。
通过display qos queue-statistics interface命令查看端口是否有拥塞丢包。请参考拥塞管理的相关内容定位解决拥塞问题。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
命令 |
说明 |
display interface |
显示以太网端口的相关信息 |
display packet-filter |
显示ACL在报文过滤中的应用情况 |
显示用户定义策略的配置信息 |
|
display qos policy interface |
显示指定端口或所有端口上QoS策略的配置信息和运行情况 |
display qos vlan-policy |
显示基于VLAN应用QoS策略的信息 |
display qos policy global |
显示基于全局应用QoS策略的信息 |
display this |
在以太网接口视图下使用此命令查看接口的当前配置 |
display ip source binding/ display ipv6 source binding |
查看IP Source Guard绑定表项信息 |
display portal interface |
显示指定接口的Portal配置信息 |
display link-aggregation verbose |
查看聚合口的详细信息 |
display smart-link group |
查看Smart Link组的信息 |
display mac-address blackhole |
查看黑洞MAC地址表项信息 |
display qos lr interface |
显示端口限速配置情况 |
display qos queue-statistics interface |
显示端口队列统计信息 |
设备三层转发丢包,即发送端IP地址和目的端IP地址不在同一网段内,通信过程中有丢包。
图17 三层转发丢包故障诊断流程图
根据9.1 二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):
· 如果是端口故障,请按照9.1 二层流量转发丢包节的故障处理思路进行处理。
· 如果不是端口故障,则执行步骤2。
使用display arp命令查看设备上是否学习到网关设备的ARP表项、学习到的ARP表项是否正确:
· 如果设备上未学习到ARP表项或学习到的表项错误,通过打开debugging arp packet查看设备ARP表项学习情况,来定位ARP问题的原因。对于未学习到ARP表项,可以使用arp static命令手工添加静态ARP表项。
· 使用display mac-address命令查看对应的MAC地址表项的出接口和ARP表项中的出接口是否一致,如果不一致,使用reset命令清除ARP表项,让设备重新学习表项。
· 如果设备上ARP表项学习正确,请执行步骤3。
使用display ip routing-table命令查看设备上学习的路由信息是否正确:
· 如果设备上学习到的路由信息不正确,请根据您使用的具体的路由协议进行进一步排查。
· 使用display fib命令查看对应的FIB表项的出接口和路由表项中的出接口是否一致,如果不一致,使用reset命令清除路由表项,让设备重新学习表项。
· 如果设备上的路由信息正确,请执行步骤4。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
命令 |
说明 |
debugging arp packet |
打开ARP的报文调试信息开关 |
display arp |
显示ARP表项 |
display ip routing-table |
显示路由表中当前激活路由的摘要信息 |
display mac-address |
显示MAC地址表信息 |
display fib |
显示FIB表项的信息 |
协议震荡一般都是协议报文交互时不通导致的。
图18 协议震荡故障诊断流程图
根据9.1 二层流量转发丢包一节的故障定位处理方法,定位是否是设备端口故障(包括端口硬件故障和端口配置故障):
· 如果是端口故障,请按照9.1 二层流量转发丢包一节的故障处理思路进行处理。
· 如果不是端口故障,则执行步骤2。
根据9.2 三层转发丢包故障一节的故障定位处理方法,定位是否为三层故障(包括ARP表项错误和路由表项错误):
· 如果是三层故障,请按照9.2 三层转发丢包故障一节的故障处理思路进行处理。
· 如果不是三层故障,则执行步骤3。
# 进入Probe视图。
[Sysname-probe] debug rxtx softcar show slot 1
ID Type RcvPps Rcv_All DisPkt_All Pps Dyn Swi Hash ACLmax
0 ROOT 0 0 0 300 S On SMAC 0
1 ISIS 0 0 0 200 D On SMAC 8
2 ESIS 0 0 0 100 S On SMAC 8
3 CLNP 0 0 0 100 S On SMAC 8
4 VRRP 0 0 0 1024 S On SMAC 8
5 UNKNOWN_IPV4MC 0 0 0 100 S On SMAC 8
6 UNKNOWN_IPV6MC 0 0 0 100 S On SMAC 8
7 IPV4_MC_RIP 0 0 0 150 D On SMAC 8
8 IPV4_BC_RIP 0 0 0 150 D On SMAC 8
......(省略部分显示信息)
如果发现有丢包发生,请收集信息,然后前往步骤4。
如果上述检查完成后故障仍无法排除,请联系H3C的技术支持工程师。
不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!