• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

H3C CR16000-F 故障处理手册-R7153-6W710

整本手册

本章节下载  (570.74 KB)

整本手册

H3C CR16000-F故障处理手册

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Copyright © 2015 杭州华三通信技术有限公司 版权所有,保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,

并不得以任何形式传播。本文档中的信息可能变动,恕不另行通知。

H3C_彩色.emf

 


  录

1 简介

1.1 故障处理注意事项

1.2 收集设备运行信息

1.2.1 logfile日志

1.2.2 diagfile日志

1.2.3 诊断信息

1.3 故障处理求助方式

2 密码遗忘问题处理

2.1 遗忘Console口密码

2.1.1 通过Telnet登录设备修改Console口密码

2.1.2 通过BootWare菜单修改Console 口密码

2.2 遗忘Telnet登录密码

3 使用配置文件恢复配置

4 硬件类故障处理

4.1 配置系统故障

4.1.1 终端无显示故障处理

4.1.2 终端显示乱码故障处理

4.2 单板故障

4.2.1 故障描述

4.2.2 故障处理步骤

4.3 电源故障

4.3.1 故障描述

4.3.2 故障处理步骤

4.4 风扇故障

4.4.1 故障描述

4.4.2 故障处理步骤

4.5 温度告警

4.5.1 故障描述

4.5.2 故障处理步骤

4.6 故障诊断命令

5 IRF类故障处理

5.1 IRF无法形成

5.1.1 故障描述

5.1.2 故障处理步骤

5.2 IRF出现分裂

5.2.1 故障描述

5.2.2 故障处理步骤

5.3 故障诊断命令

6 系统管理维护类故障处理

6.1 CPU占用率高

6.1.1 故障描述

6.1.2 故障处理步骤

6.2 内存占用率高

6.2.1 故障描述

6.2.2 故障处理步骤

6.3 资源不足

6.3.1 故障描述

6.3.2 故障处理步骤

7 报文转发故障处理

7.1 ping不通或丢包

7.1.1 故障描述

7.1.2 故障处理步骤

7.2 L3转发故障

7.2.1 故障描述

7.2.2 故障处理步骤

7.3 MPLS转发故障

7.3.1 故障描述

7.3.2 故障处理步骤

7.4 BFD转发故障

7.4.1 故障描述

7.4.2 故障处理步骤

7.5 PPPoE转发故障

7.5.1 故障描述

7.5.2 故障处理步骤

7.6 L2TP转发故障

7.6.1 故障描述

7.6.2 故障处理步骤

7.7 NAT/NS故障

7.7.1 故障描述

7.7.2 NAT/NS故障处理步骤

7.8 L2MC转发故障

7.8.1 故障描述

7.8.2 故障处理步骤

7.9 L3MC转发故障

7.9.1 故障描述

7.9.2 故障处理步骤

7.10 QACL业务故障

7.10.1 故障描述

7.10.2 故障处理步骤

8 链路端口故障处理

8.1 端口错包

8.1.1 故障描述

8.1.2 故障处理步骤

8.2 端口无法up

8.2.1 故障描述

8.2.2 故障处理步骤

8.3 端口由up变成down

8.3.1 故障描述

8.3.2 故障处理步骤

8.4 端口频繁up/down

8.4.1 故障描述

8.4.2 故障处理步骤

8.5 光模块故障

8.5.1 故障描述

8.5.2 故障处理步骤

8.6 端口不可见

8.6.1 故障描述

8.6.2 故障处理步骤

8.7 WAN口协议不up

8.7.1 故障描述

8.7.2 故障处理步骤

8.8 WAN口打印告警信息

8.8.1 故障描述

8.8.2 故障处理步骤

8.9 故障诊断命令

9 硬件转发故障

9.1 故障描述

9.2 故障处理步骤

 


1 简介

本文档介绍CR16000-F产品软、硬件常见故障的诊断及处理措施。

本文档适用于Release CR16000-CMW710-R7153

1.1  故障处理注意事项

注意

设备正常运行时,建议您在完成重要功能的配置后,及时保存并备份当前配置,以免设备出现故障后配置丢失。建议您定期将配置文件备份至远程服务器上,以便故障发生后能够迅速恢复配置。

 

在进行故障诊断和处理时,请注意以下事项:

·     设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),收集信息越全面、越详细,越有利于故障的快速定位。

¡     记录具体的故障现象、故障时间、配置信息。

¡     记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

¡     收集设备的日志信息和诊断信息(收集方法见1.2  收集设备运行信息)。

¡     记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。

¡     记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

¡     记录故障处理过程中配置的所有命令行显示信息。

·     更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。

·     故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。

1.2  收集设备运行信息

说明

为方便故障快速定位,请使用命令info-center enable开启信息中心。缺省情况下信息中心处于开启状态。

 

设备运行过程中会产生logfile、diagfile日志信息及记录设备运行状态的诊断信息。这些信息存储在主控板的Flash或CF卡中,可以通过FTP、TFTP、USB等方式导出。不同主控板中导出的logfile、diagfile、诊断信息文件请按照一定规则存放,避免不同主控板的运行信息相互混淆,以方便查询。

表1     设备运行信息介绍

分类

文件名

内容

logfile日志

logfile.log

命令行记录、设备运行中产生的记录信息

diagfile日志

diagfile.log

设备运行中产生的诊断日志信息,如系统运行到错误流程时的参数值、单板无法启动时的信息、主控板与接口板通信异常时的握手信息。

诊断信息

XXX.gz

系统当前多个功能模块运行的统计信息,包括设备状态、CPU状态、内存状态、配置情况、软件表项、硬件表项等

 

1.2.1  logfile日志

(1)     执行logfile save命令将日志文件缓冲区中的内容全部保存到日志文件中。日志文件缺省存储在存储设备根目录下的的logfile文件夹中。

·     在设备上收集对应的日志文件。

<Sysname> logfile save

The contents in the log file buffer have been saved to the file cfa0:/logfile/logfile.log

(2)     查看设备上主用主控板、备用主控板、IRF中主设备/从设备上各主用/备用主控板的日志文件数目和名称。

·     主用主控板logfile日志:

<Sysname> dir cfa0:/logfile/

Directory of cfa0:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

1021104 KB total (421552 KB free)

 

·     备用主控板logfile日志:

<Sysname> dir slot1#cfa0:/logfile/

Directory of slot1#cfa0:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

1021104 KB total (421552 KB free)

·     IRF备框主控板logfile日志,如备框有两块主控板,则两块都需要检查:

<Sysname> dir chassis2#slot0#cfa0:/logfile/

Directory of chassis2#slot0#cfa0:/logfile

   0 -rw-       21863 Jul 11 2013 16:00:37   logfile.log

 

1021104 KB total (421552 KB free)

(3)     使用FTP、TFTP或者USB接口将日志文件传输到指定位置。

1.2.2  diagfile日志

(1)     执行diagnostic-logfile save命令将诊断日志文件缓冲区中的内容全部保存到诊断日志文件中。诊断日志文件缺省存储在存储设备根目录下的diagfile文件夹中。

·     在设备上收集对应的诊断日志文件。

<Sysname> diagnostic-logfile save

The contents in the diagnostic log file buffer have been saved to the file cfa0:/diagfile/diagfile.log

(2)     查看设备上主用主控板、备用主控板、IRF中主设备/从设备上各主用/备用主控板的诊断日志文件数目和名称。

·     主用主控板diagfile日志:

<Sysname> dir cfa0:/diagfile/

Directory of cfa0:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

1021104 KB total (421416 KB free)

 

·     备用主控板diagfile日志:

<Sysname> dir slot1#cfa0:/diagfile/

Directory of slot1#cfa0:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

1021104 KB total (421416 KB free)

·     IRF各成员设备主控板diagfile日志,如果成员设备有两块主控板,则两块都需要检查:

<Sysname> dir chassis2#slot0#cfa0:/diagfile/

Directory of chassis2#slot0#cfa0:/diagfile

   0 -rw-      161321 Jul 11 2013 16:16:00   diagfile.log

 

1021104 KB total (421416 KB free)

(3)     使用FTP、TFTP或者USB接口将日志文件传输到指定位置。

1.2.3  诊断信息

诊断信息可以通过两种方式收集:将诊断信息保存到文件,或者将诊断信息直接显示在屏幕上。为保证信息收集的完整性,建议您使用将诊断信息保存到文件的方式收集诊断信息。

需要注意的是,设备上单板越多,诊断信息收集的时间越长,信息收集期间不能输入命令,请耐心等待。

说明

通过Console口收集诊断信息所用的时间比通过业务网口收集所用的时间要长。在有可用业务网口或管理口的情况下,建议通过业务网口或管理口登录和传输文件。

 

(1)     执行screen-length disable命令,以避免屏幕输出被打断(如果是将诊断信息保存到文件中,则忽略此步骤)。

<Sysname>  screen-length disable

(2)     执行display diagnostic-information命令收集诊断信息。

<Sysname> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N] :

(3)     选择将诊断信息保存至文件中,还是将直接在屏幕上显示

·     输入“Y”,以及保存诊断信息的路径和名称,将诊断信息保存至文件中。

Save or display diagnostic information (Y=save, N=display)? [Y/N] : Y

Please input the file name(*.tar.gz)[flash:/diag.tar.gz] :cfa0:/diag.tar.gz

Diagnostic information is outputting to cfa0:/diag.tar.gz.

Please wait...

Save successfully.

<Sysname> dir cfa0:/

Directory of cfa0:

……

   6 -rw-      898180 Jun 26 2013 09:23:51   diag.tar.gz

……

 

1021808 KB total (259072 KB free)

·     输入“N”,将诊断信息直接显示在屏幕上。

Save or display diagnostic information (Y=save, N=display)? [Y/N] :N

===========================================================

  ===============display alarm===============

No alarm information.

=========================================================

  ===============display boot-loader===============

Software images on slot 0:

Current software images:

  cfa0:/ CR16000-CMW710-BOOT-R7153.bin

  cfa0:/ CR16000-CMW710-SYSTEM-R7153.bin

Main startup software images:

  cfa0:/ CR16000-CMW710-BOOT-R7153.bin

  cfa0:/ CR16000-CMW710-SYSTEM-R7153.bin

Backup startup software images:

  None

=========================================================

  ===============display counters inbound interface===============

Interface         Total (pkts)   Broadcast (pkts)   Multicast (pkts)  Err (pkts)

BAGG1                        0                  0                  0           0

GE4/0/1                      0                  0                  0           0

GE4/0/2                      2                  2                  0           0

GE4/0/3                      0                  0                  0           0

GE4/0/4                      0                  0                  0           0

GE4/0/5                      0                  0                  0           0

GE4/0/6                      0                  0                  0           0

GE4/0/7                      0                  0                  0           0

GE4/0/8                      0                  0                  0           0

GE4/0/9                      0                  0                  0           0

GE4/0/10                     0                  0                  0           0

……

1.3  故障处理求助方式

当故障无法自行解决时,请准备好设备运行信息、故障现象等材料,发送给H3C技术支持人员进行故障定位分析。

用户支持邮箱:service@h3c.com

技术支持热线电话:400-810-0504(手机、固话均可拨打)


2 密码遗忘问题处理

2.1  遗忘Console口密码

您可以通过如下方法恢复Console口密码。

·     方法一:通过Telnet登录设备修改Console口密码。请优先使用该方法。

·     方法二:通过BootWare菜单修改Console口密码。

2.1.1  通过Telnet登录设备修改Console口密码

使用本方法需满足以下条件:

·     用户可以通过Telnet登录设备(比如忘记了Telnet登录密码,就不符合本条件;此时建议联系技术支持进行协助)

·     用户角色名为network-admin或level-15

(1)     通过Telnet方式登录设备,并确认当前VTY用户的用户角色名。

# 查看当前正在使用的用户线及用户的相关信息。

<Sysname> display users

  Idx  Line    Idle       Time              Pid     Type

  0    CON 0   00:01:13   Feb 19 17:34:43   543

+ 28   VTY 0   00:00:00   Nov 11 11:38:55   1865    TEL

 

Following are more details.

VTY 0   :

        Location: 192.168.33.13

 +    : Current operation user.

 F    : Current operation user works in async mode.

以上显示信息表明,当前有两个用户已经登录设备,用户自己使用的是VTY 0用户线,用户的IP地址为192.168.33.13;另一个用户使用的是CON 0用户线。

# 在VTY 0用户视图下查看配置、确认该用户的权限:可看到 VTY 0的用户角色权限为level-15,有权限修改Console口密码。

[Sysname] line vty 0

[Sysname-line-vty0] display this

#

line aux 0

 user-role network-operator

#

line con 0

 user-role network-admin

#

line vty 0

 authentication-mode none

 user-role level-15

 user-role network-admin

 user-role network-operator

#

return

(2)     修改Console用户的密码(假设认证方式为password方式)。

<Sysname> system-view

[Sysname] line console 0

[Sysname-line-console0] user-role level-15

[Sysname-line-console0] user-role network-admin

[Sysname-line-console0] authentication-mode password

[Sysname-line-console0] set authentication password simple 12345678

[Sysname-line-console0] return

(3)     为了防止重启后配置丢失,请保存配置。

<Sysname> save

The current configuration will be written to the device. Are you sure? [Y/N] :y

Please input the file name(*.cfg)[flash:/default.cfg]

(To leave the existing filename unchanged, press the enter key):default.cfg

Validating file. Please wait....

Saved the current configuration to mainboard device successfully.

2.1.2  通过BootWare菜单修改Console 口密码

通过BootWare菜单解决Console口密码遗忘问题的方式与设备上是否使能了密码恢复功能相关,可通过以下方法判断设备是否使能了密码恢复功能:

·     通过进入BootWare主菜单后的显示信息来判断

·     telnet登录当前设备后,通过查看当前设备上的配置信息来判断

# 查看当前设备上的配置信息。

<Sysname> display current-configuration

#

 version 7.1.045, Release 7328

#

mdc Admin id 1

#

 sysname Sysname

#

 command-alias enable

 command-alias mapping undo no

 command-alias mapping quit exit

 command-alias mapping return end

#

system-working-mode bridgee

 password-recovery enable

#

以上显示信息表明,当前设备使能了密码恢复功能。

1. 密码恢复功能处于使能状态

使能密码恢复功能后,设备的BootWare菜单支持配置“Skip Authentication for Console Login”选项,选择该选项并重启设备后,设备以下次启动配置文件启动,登录Console口时会跳过认证密码,进入到命令行操作界面。

注意

·     进入BootWare菜单需要重启设备,会导致业务中断,请视具体情况做好业务备份,并尽量选择业务量较少的时间操作。

·     跳过Console口密码登录后请马上配置新的密码,否则登录超时或重启后,仍需要跳过密码来登录。

·     在此操作过程中不要对设备下电。

 

(1)     用串口线连接配置终端和设备,然后重启设备,当终端屏幕上出现“Press Ctrl+B to access EXTENDED-BOOTWARE MENU... 的3秒钟之内,键入<Ctrl+B>,系统将进入BootWare主菜单。

System is starting...

Press Ctrl+D to access BASIC-BOOTWARE MENU...

Press Ctrl+T to start memory test

Booting Normal Extended BootWare

The Extended BootWare is self-decompressing.........Done.

 

****************************************************************************

*                                                                          *

*                       H3C BootWare, Version 1.13                         *

*                                                                          *

****************************************************************************

Compiled Date         : Mar 10 2014

CPU Type              : XLP316

CPU Clock Speed       : 1200MHz

Memory Type           : DDR3 SDRAM

Memory Size           : 8192MB

Memory Speed          : 667MHz

BootWare Size         : 1536KB

Flash Size            : 500MB

BASIC CPLD Version    : 1.0

EXTENDED CPLD Version : 1.0

PCB Version           : Ver.A

 

 

BootWare Validating...

Press Ctrl+B to access EXTENDED-BOOTWARE MENU...

(2)     键入“8”并回车,跳过Console口密码登录。

Password recovery capability is enabled.

Note: The current operating device is flash

Enter < Storage Device Operation > to select device.

 

==========================<EXTENDED-BOOTWARE MENU>==========================

|<1> Boot System                                                           |

|<2> Enter Serial SubMenu                                                  |

|<3> Enter Ethernet SubMenu                                                |

|<4> File Control                                                          |

|<5> Restore to Factory Default Configuration                              |

|<6> Skip Current System Configuration                                     |

|<7> BootWare Operation Menu                                               |

|<8> Skip Authentication for Console Login                                 |

|<9> Storage Device Operation                                              |

|<0> Reboot                                                                |

============================================================================

Ctrl+Z: Access EXTENDED ASSISTANT MENU

Ctrl+F: Format File System

Enter your choice(0-9): 8

Clear Image Password Success!

(3)     重启设备。

==========================<EXTENDED-BOOTWARE MENU>==========================

|<1> Boot System                                                           |

|<2> Enter Serial SubMenu                                                  |

|<3> Enter Ethernet SubMenu                                                |

|<4> File Control                                                          |

|<5> Restore to Factory Default Configuration                              |

|<6> Skip Current System Configuration                                     |

|<7> BootWare Operation Menu                                               |

|<8> Skip Authentication for Console Login                                 |

|<9> Storage Device Operation                                              |

|<0> Reboot                                                                |

============================================================================

Ctrl+Z: Access EXTENDED ASSISTANT MENU

Ctrl+F: Format File System

Enter your choice(0-9):  0

System is starting...

Booting Normal Extend BootWare

The Extend BootWare is self-decompressing.................................

Done.

(4)     完成设备启动后,通过Console口登录时不需要认证。登录后请及时修改Console口密码(假设认证方式为password方式)。

<Sysname> system-view

[Sysname] line console 0

[Sysname-line-console0] authentication-mode password

[Sysname-line-console0] set authentication password simple 12345678

[Sysname-line-console0] return

(5)     为防止重启后配置丢失,请保存配置。

<Sysname> save

The current configuration will be written to the device. Are you sure? [Y/N] :y

Please input the file name(*.cfg)[flash:/default.cfg]

(To leave the existing filename unchanged, press the enter key):default.cfg

Validating file. Please wait....

Saved the current configuration to mainboard device successfully.

2. 密码恢复功能处于关闭状态

密码恢复功能处于关闭状态时,设备的BootWare菜单支持配置“Restore to Factory Default Configuration”选项,选择该选项并重启设备后,设备会先自动删除下次启动配置文件,再以出厂配置启动。

 

注意

·     恢复出厂配置后原有配置会丢失,造成业务中断,请谨慎。

·     在此操作过程中不要对设备进行下电。

 

(1)     用串口线连接配置终端和设备,然后重启设备,当终端屏幕上出现“Press Ctrl+B to access EXTENDED-BOOTWARE MENU... 的3秒钟之内,键入<Ctrl+B>,系统将进入BootWare主菜单。

System is starting...

Press Ctrl+D to access BASIC-BOOTWARE MENU...

Press Ctrl+T to start memory test

Booting Normal Extended BootWare

The Extended BootWare is self-decompressing.........Done.

 

****************************************************************************

*                                                                          *

*                       H3C BootWare, Version 1.13                         *

*                                                                          *

****************************************************************************

Compiled Date         : Mar 10 2014

CPU Type              : XLP316

CPU Clock Speed       : 1200MHz

Memory Type           : DDR3 SDRAM

Memory Size           : 8192MB

Memory Speed          : 667MHz

BootWare Size         : 1536KB

Flash Size            : 500MB

BASIC CPLD Version    : 1.0

EXTENDED CPLD Version : 1.0

PCB Version           : Ver.A

 

 

BootWare Validating...

Press Ctrl+B to access EXTENDED-BOOTWARE MENU...

(2)     键入“5”并回车,恢复出厂默认配置。

Password recovery capability is disabled.

Note: The current operating device is flash

Enter < Storage Device Operation > to select device.

 

==========================<EXTENDED-BOOTWARE MENU>==========================

|<1> Boot System                                                           |

|<2> Enter Serial SubMenu                                                  |

|<3> Enter Ethernet SubMenu                                                |

|<4> File Control                                                          |

|<5> Restore to Factory Default Configuration                              |

|<6> Skip Current System Configuration                                     |

|<7> BootWare Operation Menu                                               |

|<8> Skip Authentication for Console Login                                 |

|<9> Storage Device Operation                                              |

|<0> Reboot                                                                |

============================================================================

Ctrl+Z: Access EXTENDED ASSISTANT MENU

Ctrl+F: Format File System

Enter your choice(0-9): 5

Because the password recovery capability is disabled, this operation can

cause the configuration files to be deleted, and the system will start up

with factory defaults. Are you sure to continue?[Y/N]Y

Setting...Done.

(3)     重启设备,以出厂默认配置启动。

==========================<EXTENDED-BOOTWARE MENU>==========================

|<1> Boot System                                                           |

|<2> Enter Serial SubMenu                                                  |

|<3> Enter Ethernet SubMenu                                                |

|<4> File Control                                                          |

|<5> Restore to Factory Default Configuration                              |

|<6> Skip Current System Configuration                                     |

|<7> BootWare Operation Menu                                               |

|<8> Skip Authentication for Console Login                                 |

|<9> Storage Device Operation                                              |

|<0> Reboot                                                                |

============================================================================

Ctrl+Z: Access EXTENDED ASSISTANT MENU

Ctrl+F: Format File System

Enter your choice(0-9):  0

System is starting...

Booting Normal Extend BootWare

The Extend BootWare is self-decompressing.................................

Done.

(4)     设备以出厂默认配置启动后,通过Console口登录时不需要认证。登录后请及时修改Console口密码(假设认证方式为password方式)。

<Sysname> system-view

[Sysname] line console 0

[Sysname-line-console0] authentication-mode password

[Sysname-line-console0] set authentication password simple 12345678

[Sysname-line-console0] return

(5)     为防止重启后配置丢失,请保存配置。

<Sysname> save

The current configuration will be written to the device. Are you sure? [Y/N] :y

Please input the file name(*.cfg)[flash:/default.cfg]

(To leave the existing filename unchanged, press the enter key):default.cfg

Validating file. Please wait....

Saved the current configuration to mainboard device successfully.

2.2  遗忘Telnet登录密码

如果Telnet登录密码丢失,可以通过Console口登录设备后重新配置Telnet登录密码。

(1)     通过Console口登录设备。

(2)     对VTY用户(下面以VTY0~63为例)配置密码123456,并保存配置。

<Sysname> system-view

[Sysname] line vty 0 63

[Sysname-line-vty0-63] authentication-mode password

[Sysname-line-vty0-63] set authentication password simple 123456

[Sysname-line-vty0-63] return

<Sysname> save

The current configuration will be written to the device. Are you sure? [Y/N] :y

Please input the file name(*.cfg)[flash:/default.cfg]

(To leave the existing filename unchanged, press the enter key):default.cfg

Validating file. Please wait....

Saved the current configuration to mainboard device successfully


3 使用配置文件恢复配置

缺省情况下,设备的启动配置文件为flash:/config.cfg。设备上电时,从缺省存储路径中读取config.cfg文件进行设备的初始化操作。如果缺省存储路径中没有配置文件,则设备采用缺省参数进行初始化配置。

如果想要将设备当前配置恢复成以前保存过的某个配置,可以通过下面的步骤完成。

(1)     通过FTP或TFTP方式将用于恢复的配置文件上传到设备的所有主控板上(以FTP方式举例,上传的配置文件名为config.cfg

# 将用于恢复的配置文件上传到主用主控板。

<Sysname> ftp 192.168.33.13

Press CTRL+C to abort.

Connected to 192.168.33.13 (192.168.33.13).

220 WFTPD 2.0 service (by Texas Imperial Software) ready for new user

User (192.168.33.13:(none)): 1

331 Give me your password, please

Password:

230 Logged in successfully

Remote system type is MSDOS.

ftp> binary

200 Type is Image (Binary)

ftp> get config.cfg

227 Entering Passive Mode (192,168,33,13,209,24)

150 "F:\config.cfg" file ready to send (18494 bytes) in IMAGE / Binary mode

226 Transfer finished successfully.

18494 bytes received in 0.0383 seconds (471.1 kbyte/s)

ftp> quit

221 Windows FTP Server (WFTPD, by Texas Imperial Software) says goodbye

# 将主用主控板的config.cfg配置文件拷贝到备用主控板。

<Sysname> copy config.cfg slot1#cfa0:/config.cfg

Copy cfa0:/config.cfg to slot1#cfa0:/config.cfg?[Y/N] :y

.

%Copy file cfa0:/config.cfg to slot1#cfa0:/config.cfg...Done.

(2)     设置下次启动时使用的配置文件,以便下次启动后设备恢复到此配置。

<Sysname> startup saved-configuration config.cfg

需要注意的是,如果用于恢复的配置文件名为config.cfg(和设备缺省启动的配置文件名相同),则本步骤可选;如果不是config.cfg,则本步骤必选。

(3)     重启设备,重启完成后设备会以上面设置的配置文件恢复配置。

说明

上述步骤的操作过程中,不能进行save命令的操作,否则设备将以当前保存的配置启动。

 


4 硬件类故障处理

说明

关于设备各部件指示灯的详细情况,请参见《H3C CR16000-F核心路由器安装指导》。

 

4.1  配置系统故障

路由器上电后,如果系统正常,将在配置终端上显示启动信息;如果配置系统出现故障,配置终端可能无显示或者显示乱码。

4.1.1  终端无显示故障处理

如果上电后配置终端无显示信息,首先要做以下检查:

·     电源系统是否正常工作。

·     主控板是否正常工作。

·     是否已将配置电缆接到主控板的配置口(Console口或USB Console口)。

如果以上检查未发现问题,很可能有如下原因:

·     配置电缆连接的串口错误(实际选择的串口与终端设置的串口不符)。

·     配置终端参数设置错误(参数要求:设置波特率为9600,数据位为8,奇偶校验为无,停止位为1,流量控制为无,选择终端仿真为VT100)。

·     配置电缆本身有问题,可以尝试更换配置电缆。

4.1.2  终端显示乱码故障处理

如果配置终端上显示乱码,很可能是配置终端参数设置错误(设置波特率为9600,数据位为8,奇偶校验为无,停止位为1,流量控制为无,选择终端仿真为VT100),请进行相应检查。

4.2  单板故障

4.2.1  故障描述

说明

假如设备上出现Forwarding faultBoard fault: chassis X slot Y, please check it等日志信息,请参考“9 硬件转发故障”。

 

1. 单板状态异常

·     单板状态指示灯出现如下情况,则有可能是单板异常:

¡     对于 CSR05SRP1L1CSR05SRP1L3主控板,单板状态指示灯RUNALM灯同时灯灭、闪烁或者常亮。

¡     对于CR16000-F路由器,B类和D类交换网板上的RUN指示灯灭或者ALM灯常亮。

·     通过display device命令查看设备,如果发现单板状态出现FaultOffOfflineIllegal,或该槽位存在单板但状态却是Absent的,说明单板可能出现故障,请参考4.2.2  故障处理步骤处理。

<Sysname> display device

Slot No. Brd Type         Brd Status   Software Version

 0       CSR05SRP1L3      Master       CR16000-CMW710-R7153

 1       CSR05SRP1L3      Standby      NONE

 2       CSPC-XP8LB       Normal       CR16000-CMW710-R7153

 3       CMPE-1104        Normal       CR16000-CMW710-R7153

   Sub1  MIC-SP4L         Normal

   Sub2  MIC-SP4L         Normal

   Sub3  MIC-CLP2L        Normal

   Sub4  MIC-GP4L         Normal

 4       CSPC-XP8LB       Normal       CR16000-CMW710-R7153

 5       NONE             Absent       NONE

 6       CSFC-04D         Normal       CR16000-CMW710-R7153

 7       NONE             Absent       NONE

 8       NONE             Absent       NONE

 9       NONE             Absent       NONE

2. 单板重启异常

单板出现异常重启或不断重启等故障时,可以通过logfile日志、display versiondisplay kernel reboot查看设备启动后运行时间来确认单板有没有出现过重启,出现过重启的单板运行时间会明显短于设备上其他单板。如果有单板出现过重启,请参考4.2.2  故障处理步骤

4.2.2  故障处理步骤

1. 单板状态异常

·     单板状态Absent

(1)     确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重插入。

(2)     将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板故障。

(3)     检查单板面板的指示灯是否发光。

(4)     确认电源模块输出功率是否充足。比如增加电源模块,看该单板状态是否恢复正常。

(5)     确认主机软件版本是否支持该单板

a.     通过display version命令查看主机软件版本;

b.     联系技术支持,确认当前主机软件版本是否支持该单板;

c.     如果当前软件版本不支持该单板,请升级到正确版本。

(6)     如果单板是主控板,通过系统复位键(RESET)进行主控板复位,待主控板启动完成后,再次查看主控板状态指示灯是否恢复正常。

(7)     如果单板是业务板,请先确保主控板处于正常工作状态。

(8)     如果单板是主控板、B类或者D类网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。

(9)     如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。

·     单板状态Power-off

(10)     确认用户有无通过debug sysm power-down命令对单板执行下电操作。如果是用户操作导致,请通过debug sysm power-up命令对单板重新上电。

(11)     否则,单板存在电源故障,请更换单板并将故障信息发送技术支持人员分析。

·     单板状态Fault

(12)     等待一段时间(大约10分钟左右)确认下单板是一直Fault还是Normal后又再次重启。如单板是Normal后又自动重启,请将故障信息发送技术支持人员分析。

(13)     如果单板是主控板、B类或者D类网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。如下述主控板启动时出现内存读写测试失败而不断重启,需要检查主控板内存条是否插稳。

readed value is 55555555 , expected value is aaaaaaaa

DRAM test fails at: 080ffff8

DRAM test fails at: 080ffff8

Fatal error! Please reboot the board.

(14)     将单板放到别的槽位,进一步确认是不是单板故障。

(15)     如确认为单板故障,请更换单板并将故障信息发送技术支持人员分析。

2. 单板重启异常

这里的单板重启是指单板出现过重启,而当前单板状态是Normal

(1)     通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行reboot重启或进行单板上下电等操作。

(2)     display version命令支持查询单板最近一次重启的原因。比如“Last reboot reason”表示单板最近一次重启原因是设备上电。

<Sysname> display version

H3C Comware Software, Version 7.1.048, Release 7153

Copyright (c) 2004-2014 Hangzhou H3C Tech. Co., Ltd. All rights reserved.

H3C CR16006-F uptime is 0 weeks, 0 days, 4 hours, 24 minutes

Last reboot reason : Cold reboot……

(3)     如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电,电源进线是否插稳、是否出现松动。

(4)     确认日志中重启时有无出现类似“Warning: Standby board on slot 1 is not compatible with master board.”或“Warning: The LPU board on slot 1 is not compatible with MPU board.”提示信息,这种情况是业务板、备用主控板或网板与主用主控板的设备标识不一致,请联系技术支持人员更换。

(5)     如无法确认,请搜集故障信息并发送技术支持人员分析。

4.3  电源故障

4.3.1  故障描述

当CR16000-F设备的电源模块指示灯出现如下情况,表示电源模块可能出现故障:

·     交流电源模块的指示灯,AC灯灭或者DC灯为红色常亮。

·     直流电源模块的指示灯,INP OK灯灭或者DC/FLT灯为红色常亮。

4.3.2  故障处理步骤

(1)     Power是电源模块。请检查模块是否在位并插稳,电源模块状态指示灯是否正常。如某个模块不正常,请对怀疑的故障模块拔插、与正常的模块更换做交叉验证。

(2)     检查电源线的连接:拔下再重新连接电源线,确认电源线是否松动;更换电源线,然后查看电源模块指示灯是否恢复正常。

(3)     检查路由器连接的供电系统:确认供电系统正常供电,电压正常。

(4)     检查电源模块是否存在输出短路、输出过流、输出过压、输入欠压、温度过热等问题。

(5)     通过display power命令检查Power State状态是否是Normal,如果物理上电源模块实际是在位的,但是却显示为空或者Absent,则说明存在问题。

<Sysname> display power

 Power        0 State: Normal

 Power        1 State: Absent

 Power        2 State: Absent

 Power        3 State: Absent

(6)     如电源模块故障,请更换对应的模块;如故障无法确认,请将信息发送给技术支持人员协助分析。

4.4  风扇故障

4.4.1  故障描述

风扇框指示灯异常:

风扇框OK指示灯灭且FAIL指示灯常亮,表示风扇框可能出现故障。

4.4.2  故障处理步骤

(1)     如果所有指示灯都为灭,请确认电源模块是否正常工作,具体请参见“4.3电源故障”。

(2)     风扇框在位时,用手放在设备出风口,判断是否有出风,如果出风口无风,则风扇异常。

(3)     检查风扇的入风口、出风口是否被挡住或积累太多灰尘。

(4)     检查风扇框是否正常在位,各个风扇的状态是否正常、转速是否相差达到50%以上。如存在异常,建议通过风扇框拔插、更换交叉进一步确认。

<Sysname> display fan

Fan Frame 0  State: Normal

<Sysname> system-view

[Sysname] probe

[Sysname-probe] debug sysm fan 0 get-speed

 

Frame 0 fan 1 speed is 2854 (R.P.M)

Frame 0 fan 2 speed is 2841 (R.P.M)

Frame 0 fan 3 speed is 3348 (R.P.M)

Frame 0 fan 4 speed is 3412 (R.P.M)

Frame 0 fan 5 speed is 3343 (R.P.M)

Frame 0 fan 6 speed is 3345 (R.P.M)

Frame 0 fan 7 speed is 3379 (R.P.M)

Frame 0 fan 8 speed is 3376 (R.P.M)

(5)     如果故障不能恢复,需要更换该风扇框,但当前没有风扇框,请关闭设备以免发生温度高导致单板烧坏;如果有降温措施保证系统工作在50度以下,可以暂时继续使用设备。

(6)     如果通过上述步骤仍然无法排除故障,请联系代理商或当地用服工程师进行处理。

4.5  温度告警

4.5.1  故障描述

设备打印温度过低、过高等告警信息,如:

%Jun 26 10:13:46:233 2013 H3C DRVPLAT/4/DrvDebug: Temperature of the board is too high!

4.5.2  故障处理步骤

(1)     检查环境温度是否正常。如果环境温度较高,请确认原因,比如机房通风不畅、空调制冷故障等。

(2)     检查设备当前的temperature温度是否超出上下的Warning、Alarm门限。也可以用手触摸单板,确认单板是不是很烫,如单板温度很高,请立即检查原因。持续处于较高的温度下,可能会导致单板损坏。

·     如果温度过高,请参照4.4  风扇故障确认是否风扇故障导致。

·     如果温度值为error或出现明显不合实际的值,可能是通过I2C总线访问单板温度传感器异常。设备光模块信息访问也是通过相同的I2C总线,请继续检查单板读取光模块信息是否正常。如光模块访问正常,请使用下面命令重新设置单板温度,并通过display environment查看是否设置成功。

[Sysname] temperature-limit slot 1 hotspot 1 -5 85 100

[Sysname] display environment

System temperature information (degree centigrade):

 ----------------------------------------------------------------------

 Slot  Sensor    Temperature  Lower  Warning  Alarm  Shutdown

 3     hotspot 1 39           0      80       97     NA

 3     hotspot 2 50           0      80       97     NA

 7     inflow  1 31           0      71       90     NA

 7     outflow 1 45           0      80       99     NA

 7     hotspot 1 53           0      88       107    NA

(3)     如果仍然无法确认故障原因,请搜集信息并发送给技术支持人员协助分析。

4.6  故障诊断命令

命令

说明

display device

显示设备信息,检查各单板的状态是否正常

display environment

显示路由器的温度信息,检查环境温度是否正常(是否超出温度告警阈值)

display fan

显示设备内置风扇的工作状态

display power

显示设备内置电源的工作状态

display version

显示系统版本信息、单板的运行时间以及最后一次重启的原因

save

将当前配置保存到指定文件

temperature-limit

设置设备的温度告警门限

 

5 IRF类故障处理

5.1  IRF无法形成

5.1.1  故障描述

IRF无法正常建立。

5.1.2  故障处理步骤

通常为配置错误引起,请检查以下配置是否正确:

(1)     仅CR16000-F路由器之间可以建立IRF,其他路由器暂不支持建立IRF。

(2)     确认成员设备的软件版本、主控板类型是否一致,使用的交换网板是否为B类或D类交换网板。

<Sysname-1> display device

Chassis   Slot No. Brd Type         Brd Status   Software Version

1         0        NONE             Absent       NONE

1         1        CSR05SRP1L3      Master       CR16000-CMW710-R7153

1         2        NONE             Absent       NONE

1         3        NONE             Absent       NONE

1         4        CSPC-XP8LB       Normal       CR16000-CMW710-R7153

1         5        CSPC-XP8LB       Normal       CR16000-CMW710-R7153

1         6        CSFC-04D         Normal       CR16000-CMW710-R7153

1         7        NONE             Absent       NONE

1         8        NONE             Absent       NONE

1         9        NONE             Absent       NONE

<Sysname-2> display device

Chassis   Slot No. Brd Type         Brd Status   Software Version

2         0        NONE             Absent       NONE

2         1        CSPC-CP1LCX      Normal       CR16000-CMW710-R7153

2         2        NONE             Absent       NONE

2         3        NONE             Absent       NONE

2         4        CSR05SRP1L3      Standby      CR16000-CMW710-R7153

2         5        CSR05SRP1L3      Standby      CR16000-CMW710-R7153

2         6        NONE             Absent       NONE

2         7        CSPC-XP8LB       Normal       CR16000-CMW710-R7153

2         8        NONE             Absent       NONE

2         9        NONE             Absent       NONE

2         10       CSFC-08B         Normal       CR16000-CMW710-R7153

2         11       NONE             Absent       NONE

2         12       NONE             Absent       NONE

2         13       NONE             Absent       NONE

(3)     确认IRF物理端口是否UP。

通过display interface查询IRF物理端口状态是否UP:

<Sysname> display interface Ten-GigabitEthernet 2/7/0/1

Ten-GigabitEthernet2/7/0/1

Current state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 80f6-5665-4302

Description: Ten-GigabitEthernet2/7/0/1 Interface

Bandwidth: 10000000kbps

Loopback is not set

Media type is optical fiber,Port hardware type is 10G_BASE_SR_SFP

……

(4)     确认IRF端口连接是否异常,一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接。

<Sysname> display irf configuration

 MemberID NewID    IRF-Port1                     IRF-Port2

 1        1        Ten-GigabitEthernet1/5/0/1    disable

                   Ten-GigabitEthernet1/5/0/2

                   Ten-GigabitEthernet1/5/0/5

2        2        disable                       Ten-GigabitEthernet2/7/0/1

(5)     CR16000-F设备在只有1块网板的条件下,确认该网板未插在网板的第二槽位。

(6)     CR16000-F设备确认已UP的IRF物理口和IRF物理口对接,不存在一侧已配置成IRF物理口且UP,但对接的另一侧为非IRF物理口的情况。

5.2  IRF出现分裂

5.2.1  故障描述

IRF运行过程中出现分裂。

5.2.2  故障处理步骤

(1)     IRF分裂时会打印IRF端口down,可以确定IRF分裂的时间。

%Jun 26 10:13:46:233 2014 H3C STM/2/STM_LINK_STATUS_TIMEOUT: IRF port 1 is down because heartbeat timed out.

%Jun 26 10:13:46:436 2014 H3C STM/3/STM_LINK_STATUS_DOWN: -MDC=1; IRF port 2 is down.

(2)     IRF物理端口所在接口板的状态是否正常,若不正常,请参照4.2  单板故障排查是否单板故障。

(3)     检查各个IRF物理端口的状态是否正常。若端口状态不正常,请按照确认故障原因。

<Sysname> display interface Ten-GigabitEthernet 2/7/0/1

Ten-GigabitEthernet2/7/0/1

Current state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 80f6-5665-4302

Description: Ten-GigabitEthernet2/7/0/1 Interface

Bandwidth: 10000000kbps

Loopback is not set

Media type is optical fiber,Port hardware type is 10G_BASE_SR_SFP

……

(4)     通过设备运行时间或日志检查IRF中各个成员设备及IRF物理端口所在的接口板在IRF分裂时是否重启过,并参照4.3  电源故障确认是否为电源故障导致。

<Sysname> display version

H3C Comware Software, Version 7.1.048, Release 7153

Copyright (c) 2004-2014 Hangzhou H3C Tech. Co., Ltd. All rights reserved.

H3C CR16006-F uptime is 0 weeks, 0 days, 4 hours, 49 minutes

Last reboot reason : USER reboot

 

Boot image: cfa0:/CR16000-CMW710-BOOT-R7153.bin

Boot image version: 7.1.048, Release 7153

  Compiled Nov 11 2014 08:49:26, Release SOFTWARE

System image: cfa0:/CR16000-CMW710-SYSTEM-R7153.bin

System image version: 7.1.048, Release 7153

  Compiled Nov 11 2014 08:49:26, Release SOFTWARE

Feature image(s) list:

 

MPU(M) Chassis 1 Slot 1:

Uptime is 0 weeks,0 days,5 hours,2 minutes

BOARD TYPE:         CSR05SRP1L3

DRAM:               8192M bytes

CFCARD:             4002M bytes

FLASH:              500M bytes

NVRAM:              1M bytes

PCB 1 Version:      VER.A

Bootrom Version:    116

CPLD 1 Version:     001

CPLD 2 Version:     001

CPLD 3 Version:     001

Release Version:    H3C CR16006-F-7153

Patch Version  :    None

Reboot Cause  :     UserReboot

Clock card:

  Type        : SR07CK3C

  PCB         : Ver.A

  FPGA version: 100

 

LPU Chassis 1 Slot 4:

Uptime is 0 weeks,0 days,2 hours,32 minutes

BOARD TYPE:         CSPC-GP44XP4LCX

DRAM:               4096M bytes

PCB 1 Version:      VER.A

Bootrom Version:    116

CPLD 1 Version:     002

Release Version:    H3C CR16006-F-7153

Patch Version  :    None

Reboot Cause  :     ColdReboot

 Number of Exist Subcards: 0

 

 

LPU Chassis 1 Slot 5:

Uptime is 0 weeks,0 days,4 hours,56 minutes

BOARD TYPE:         CSPC-XP12LAX

DRAM:               4096M bytes

PCB 1 Version:      VER.A

Bootrom Version:    116

CPLD 1 Version:     001

Release Version:    H3C CR16006-F-7153

Patch Version  :    None

Reboot Cause  :     UserReboot

 Number of Exist Subcards: 0

 

 

NPU Chassis 1 Slot 6:

Uptime is 0 weeks,0 days,4 hours,56 minutes

BOARD TYPE:         CSFC-04D

DRAM:               1024M bytes

PCB 1 Version:      VER.B

Bootrom Version:    512

CPLD 1 Version:     002

Release Version:    H3C CR16006-F-7153

Patch Version  :    None

Reboot Cause  :     UserReboot

 

LPU Chassis 2 Slot 1:

Uptime is 0 weeks,0 days,4 hours,38 minutes

BOARD TYPE:         CSPC-CP1LCX

DRAM:               4096M bytes

PCB 1 Version:      VER.A

Bootrom Version:    116

CPLD 1 Version:     001

Release Version:    H3C CR16006-F-7153

Patch Version  :    None

Reboot Cause  :     UserReboot

 Number of Exist Subcards: 0

 

 

MPU(S) Chassis 2 Slot 4:

Uptime is 0 weeks,0 days,3 hours,56 minutes

BOARD TYPE:         CSR05SRP1L3

DRAM:               8192M bytes

CFCARD:             4002M bytes

FLASH:              500M bytes

NVRAM:              1M bytes

PCB 1 Version:      VER.A

Bootrom Version:    116

CPLD 1 Version:     001

CPLD 2 Version:     001

CPLD 3 Version:     001

Release Version:    H3C CR16010-F-7153

Patch Version  :    None

Reboot Cause  :     UserReboot

Clock card:

  Type        : SR07CK3C

  PCB         : Ver.A

  FPGA version: 100

 

MPU(S) Chassis 2 Slot 5:

Uptime is 0 weeks,0 days,5 hours,2 minutes

BOARD TYPE:         CSR05SRP1L3

DRAM:               8192M bytes

CFCARD:             4002M bytes

FLASH:              500M bytes

NVRAM:              1M bytes

PCB 1 Version:      VER.A

Bootrom Version:    116

CPLD 1 Version:     001

CPLD 2 Version:     001

CPLD 3 Version:     001

Release Version:    H3C CR16010-F-7153

Patch Version  :    None

Reboot Cause  :     UserReboot

Clock card:

  Type        : SR07CK3C

  PCB         : Ver.A

  FPGA version: 100

 

LPU Chassis 2 Slot 7:

Uptime is 0 weeks,0 days,4 hours,55 minutes

BOARD TYPE:         CSPC-XP24LCX

DRAM:               4096M bytes

PCB 1 Version:      VER.A

Bootrom Version:    116

CPLD 1 Version:     001

Release Version:    H3C CR16006-F-7153

Patch Version  :    None

Reboot Cause  :     UserReboot

 Number of Exist Subcards: 0

 

 

NPU Chassis 2 Slot 10:

Uptime is 0 weeks,0 days,4 hours,56 minutes

BOARD TYPE:         CSFC-08B

DRAM:               1024M bytes

PCB 1 Version:      VER.B

Bootrom Version:    514

CPLD 1 Version:     005

Release Version:    H3C CR16006-F-7153

Patch Version  :    None

Reboot Cause  :     UserReboot

 

(5)     如故障确认,可以通过如更换光模块、更换单板的方式使设备重新形成IRF;如故障无法确认,请搜集各个成员设备的信息,并将信息发送给技术支持人员协助分析。

5.3  故障诊断命令

命令

说明

display device

显示设备信息。用于检查各成员设备的软件版本、主控板类型是否一致

display interface

显示指定接口的相关信息。用于检查IRF物理端口状态是否UP

display irf configuration

显示所有成员设备的IRF配置信息。用于检查IRF端口连接是否异常,一台设备的IRF-Port1口只能与另一台设备的IRF-Port2口连接

display version

显示系统版本信息、单板的运行时间。通过设备运行时间确认IRF中各个成员设备是否重启过,主控板及IRF端口所在接口板是否发生重启

6 系统管理维护类故障处理

6.1  CPU占用率高

6.1.1  故障描述

设备单板CPU占用率持续在60%以上,配置命令时设备反应很慢。

<Sysname> display cpu-usage

Slot 1 CPU 0 CPU usage:

      60% in last 5 seconds

      60% in last 1 minute

      60% in last 5 minutes

 

Slot 4 CPU 0 CPU usage:

       3% in last 5 seconds

       3% in last 1 minute

       3% in last 5 minutes

 

Slot 5 CPU 0 CPU usage:

       2% in last 5 seconds

       2% in last 1 minute

       2% in last 5 minutes

 

Slot 6 CPU 0 CPU usage:

       3% in last 5 seconds

       3% in last 1 minute

       3% in last 5 minutes

通过display cpu-usage history命令可以查看单板最近60分钟的cpu占用情况。如横坐标时间为20,则表示20分钟前的CPU使用率。

<Sysname> display cpu-usage history slot 1

100%|

 95%|

 90%|

 85%|

 80%|

 75%|

 70%|

 65%|

 60%|

 55%|

 50%|

 45%|

 40%|

 35%|

 30%|

 25%|                                   # #

 20%|############################################################

 15%|############################################################

 10%|############################################################

  5%|############################################################

     ------------------------------------------------------------

              10        20        30        40        50        60  (minutes)

                   cpu-usage (CPU 0) last 60 minutes (SYSTEM)

 

6.1.2  故障处理步骤

CPU占用率高的原因通常有:

·     路由振荡

·     配置过多的路由策略

·     报文攻击

·     链路环路

1. 路由策略排查

通过display route-policy命令可以查看设备配置的路由策略,请检查配置的路由策略是否过多,导致CPU处理的负担增加。

<Sysname> display route-policy

Route-policy: policy1

  permit : 1

          if-match cost 10

          continue: next node 11

          apply comm-list a delete

2. 报文攻击排查

在设备端口抓包,使用报文捕获工具(如Sniffer、Wireshark、WinNetCap等)分析报文特征,确认攻击源。然后针对攻击源配置报文防攻击。

3. 链路环路

以太网接口工作在二层模式并且链路存在环路时,可能出现广播风暴和网络振荡,大量的协议报文上送CPU处理可能导致CPU占用率升高,设备很多端口的流量会变得很大,端口使用率达到90%以上:

<Sysname> display interface gigabitethernet2/0/1

GigabitEthernet2/0/1

Current state: UP

Line protocol current state: UP

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0000-e80d-c000

Description: GigabitEthernet2/0/1 Interface

Bandwidth: 1000000kbps

Loopback is not set

Media type is twisted pair

Port hardware type is 1000_BASE_T

Unknown-speed mode, unknown-duplex mode

Link speed type is autonegotiation, link duplex type is autonegotiation

……

Last clearing of counters: Never

 Peak value of input: 123241940 bytes/sec, at 2014-02-27 14:33:15

 Peak value of output: 80 bytes/sec, at 2014-02-27 14:13:00

 Last 300 seconds input:  26560 packets/sec 123241940 bytes/sec 99%

 Last 300 seconds output:  0 packets/sec 80 bytes/sec 0%

……

如链路出现环路:

·     排查链路连接、端口配置是否正确

·     是否使能STP协议,配置是否正确

·     邻接设备STP状态是否正常

·     如以上配置均正确,可能为STP协议计算错误或协议计算正确但端口驱动层没有正常Block阻塞,可以shutdown环路上端口、拔插端口让STP重新计算来快速恢复业务,并将故障信息反馈给技术支持人员分析。

4. 进程调用栈搜集

如果通过上述处理还是无法确认具体原因,请再搜集CPU占用率高的进程的调用栈信息,一起发送给技术支持人员分析,搜集方法如下:

(1)     通过display process cpu命令确认CPU占用率高的进程JID,如此处2号槽位单板的DFRS进程CPU占用率较高,其对应的JID为28:

<Sysname> display process cpu slot 2

CPU utilization in 5 secs: 6.2%; 1 min: 6.1%; 5 mins: 6.1%

    JID      5Sec      1Min      5Min    Name

      1      0.0%      0.0%      0.0%    scmd

      2      0.0%      0.0%      0.0%    [kthreadd]

      3      0.0%      0.0%      0.0%    [migration/0]

      4      0.0%      0.0%      0.0%    [ksoftirqd/0]

      5      0.0%      0.0%      0.0%    [watchdog/0]

……

(2)     查询JID为28的DFRS进程的调用栈信息,请查询5次以上,发送给技术支持人员分析,以便于分析该进程具体在做什么处理导致CPU占用率持续升高。

<Sysname> system-view

[Sysname] probe

[Sysname-probe] follow process 28 slot 2

Attaching to process 28 ([ksoftirqd/8])

Iteration 1 of 5

------------------------------

Kernel stack:

[<ffffffff8045aaa8>] schedule+0x6b8/0xff0

[<ffffffff8024a9f0>] ksoftirqd+0x120/0x170

[<ffffffff8025e4d0>] kthread+0x130/0x140

[<ffffffff80218b50>] kernel_thread_helper+0x10/0x20

 

Iteration 2 of 5

------------------------------

Kernel stack:

[<ffffffff8045aaa8>] schedule+0x6b8/0xff0

[<ffffffff8024a9f0>] ksoftirqd+0x120/0x170

[<ffffffff8025e4d0>] kthread+0x130/0x140

[<ffffffff80218b50>] kernel_thread_helper+0x10/0x20

 

Iteration 3 of 5

------------------------------

Kernel stack:

[<ffffffff8045aaa8>] schedule+0x6b8/0xff0

[<ffffffff8024a9f0>] ksoftirqd+0x120/0x170

[<ffffffff8025e4d0>] kthread+0x130/0x140

[<ffffffff80218b50>] kernel_thread_helper+0x10/0x20

 

Iteration 4 of 5

------------------------------

Kernel stack:

[<ffffffff8045aaa8>] schedule+0x6b8/0xff0

[<ffffffff8024a9f0>] ksoftirqd+0x120/0x170

[<ffffffff8025e4d0>] kthread+0x130/0x140

[<ffffffff80218b50>] kernel_thread_helper+0x10/0x20

 

Iteration 5 of 5

------------------------------

Kernel stack:

[<ffffffff8045aaa8>] schedule+0x6b8/0xff0

[<ffffffff8024a9f0>] ksoftirqd+0x120/0x170

[<ffffffff8025e4d0>] kthread+0x130/0x140

[<ffffffff80218b50>] kernel_thread_helper+0x10/0x20

6.2  内存占用率

6.2.1  故障描述

多次查看单板内存占用率,发现内存占用率持续偏高,始终处于70%以上(未使用的内存占用率低于30%)。Total表示总的内存,Used表示当前使用的内存,FreeRatio表示未使用的内存占用率。

<Sysname> display memory slot 2

The statistics about memory is measured in KB:

Slot 2:

             Total      Used      Free    Shared   Buffers    Cached   FreeRatio

Mem:        774280    591932    182348         0         0      6548       23.6%

-/+ Buffers/Cache:    175800    598480

Swap:           0         0         0

6.2.2  故障处理步骤

这类问题通常为软件问题引起,如内存泄露,也可能是路由数目过多导致。请按照下面步骤进一步搜集信息发送给技术支持人员分析。

1. 查询单板各进程的内存使用信息

通过display process memory命令多次查询单板各进程的内存使用信息。Dynamic类型的内存为设备动态申请的,在内存出现泄露时会变得很大,通过前后比较观察可以确认哪个进程的内存占用持续增加。如果持续增加,说明该进程可能发生了泄露,请记录下进程的JID。下面以查询JID为78的diagd进程为例说明。

<Sysname> display process memory slot 2

   JID       Text      Data      Stack    Dynamic    Name

     1        116      8808         32         92    scmd

     2          0         0          0          0    [kthreadd]

     3          0         0          0          0    [migration/0]

     4          0         0          0          0    [ksoftirqd/0]

     5          0         0          0          0    [watchdog/0]

     6          0         0          0          0    [migration/1]

     7          0         0          0          0    [ksoftirqd/1]

     8          0         0          0          0    [watchdog/1]

……

2. 确认哪种字节大小的内存块发生泄露

再进一步确认JID为78的diagd进程的哪种字节大小的内存块发生泄露。如下命令所示,Size表示内存块的字节大小,Total表示总的申请个数,Used表示使用数目,Free表示未使用的数目,Free Ratio表示未使用的内存块百分比。通过多次查询并比较查询值可以看出哪个Size的内存块Used个数持续增加。查询完毕后,请将搜集到的信息发送给技术支持人员分析。

<Sysname> display process memory heap job 1 verbose

Heap usage:

Size      Free      Used      Total      Free Ratio

32        1         340       341        0.3%

48        1         97        98         1.0%

64        0         108       108        0.0%

80        1         15        16         6.3%

96        0         53        53         0.0%

112       0         4         4          0.0%

144       0         3         3          0.0%

160       0         1         1          0.0%

176       0         50        50         0.0%

208       1         53        54         1.9%

224       0         5         5          0.0%

256       23        1         24         95.8%

288       2         1         3          66.7%

304       0         2         2          0.0%

320       1         0         1          100.0%

336       0         2         2          0.0%

512       7         0         7          100.0%

528       0         3         3          0.0%

704       0         152       152        0.0%

768       5         0         5          100.0%

896       0         9         9          0.0%

1056      0         2         2          0.0%

1248      1         0         1          100.0%

2080      0         1         1          0.0%

4112      0         1         1          0.0%

4208      1         0         1          100.0%

7264      1         0         1          100.0%

Summary:

Total virtual memory heap space(in bytes)  :  204800

Total physical memory heap space(in bytes) :  204800

Total allocated memory(in bytes)           :  177504

6.3  资源不足

6.3.1  故障描述

资源使用超规格时会打印包含以下内容的日志信息和告警信息:

The resources are insufficient.

No enough resource!

Not enough resources are available to complete the operation.

典型的系统资源包括:

·     ACL

·     FIB

·     MAC

·     MPLS LSP

·     组播

·     ARP

6.3.2  故障处理步骤

1. ACL资源

下列这些特性会占用ACL资源:

·     QoS策略

·     Packet filter

·     策略路由

·     IPoE

·     Portal

·     URPF

·     DHCP Snooping

·     LLDP

(1)     通过display qos-acl resource命令查看单板ACL资源使用情况,其中Total表示总的资源数,Configured表示使用资源数,Remaining表示剩余的资源数,Usage表示使用的百分比。

<Sysname> display qos-acl resource slot 3

Interfaces: GE3/3/1 to GE3/3/8, Pos3/4/1 to Pos3/4/4

---------------------------------------------------------------------

 Type             Total      Reserved   Configured Remaining  Usage

---------------------------------------------------------------------

 IPv4Acl          65536      0          2          65534      0%

 IPv6Acl          16384      0          0          16384      0%

 Car&Cnt          32768      0          1          32767      0%

 InBRASCar        65536      0          0          65536      0%

 OutBRASCar       65536      0          0          65536      0%

 TCPCar           16384      0          0          16384      0%

 CarProf          220        0          2          218        0%

 Sampler          32768      0          0          32768      0%

(2)     如果ACL资源使用率超过95%,请根据具体情况进行优化,比如删除或合并ACL规则。如果无法优化,请将信息发送给技术支持人员协助分析。

2. FIB资源

(1)     使用命令行查看FIB表项资源使用情况。

·     CMPE-1104和CSPC:

[Sysname-probe] debug ipv4-drv show statistics slot 2

 

 

**********************************************************

- IPv4 Statistics        Slot 2

**********************************************************

- ROUTE TOTAL COUNT:             40

- ECMP COUNT:                    0

- ARP NH COUNT:                  8

- IPV4 NH CHANGE NUM:            16

- ARP Prefix ADD NUM:            12

- ARP Prefix MODIFY NUM:         2

- ARP Prefix DEL NUM:            0

- ARP Prefix AddSuccessed NUM:   0

- ARP Prefix ModSuccessed NUM:   0

- ARP Prefix DelSuccessed NUM:   0

- IPV6 NH CHANGE NUM:            0

- IPV4 Plat ARP Demand NUM:      16

- IPV4 ARP Successed NUM:        16

- IPV4 Plat Route Demand NUM:    47

- IPV4 Route Successed NUM:      47

-----------------------------------------------

- IPv4Uc_Sm Owner:               -1

- IPv4Uc_Sm Count:               0

- L3UcPbr_Sm Owner:              -1

- L3UcPbr_Sm Count:              0

……略

[Sysname-probe] debug ipv4-drv show config slot 2

 

 

**********************************************************

- IPv4 Config    Slot 2

**********************************************************

- ARP SIZE:              16384

- ArpCanNotSetToHW:      NO

- IPV4 ROUTE SIZE:       65536

- ECMP SIZE:             8

- ND SIZE:               8192

- IPV6 ROUTE SIZE:       8192

- IPV6 LongPrefRT:       128

- VLAN INTF MODE:        2

- NH SIZE:               16384

- ECMPGP SIZE:           256

- L3INTF SIZE:           4096

- VLAN INTF SIZE:        4096

- SUBVLAN SIZE:          3072

- MC INTF SIZE:          4005

- MPLS INTF SIZE:        4000

- TUNNEL INTF SIZE:      511

- VMAC SIZE:             256

- VMAC PER INTF SIZE:    16

- VLAN MAPPING SIZE:     4094

- ARP SET TO DEFIP:      1

- HG PROXY FLAG:         0

- BOARD TYPE:            0

- Is Set CPUPktPri:      1

- L3uc Opt:              NO

- NetMFw FLAG:           Fw_Hw

 

- RESERVED EGRESS:

- CPU EGRESS:            100001

- BLACKHOLE EGRESS:      100002

- HG PROXY EGRESS:

- UINT:0

          0: Egress:100003  Mod:63  port:27

          1: Egress:100004  Mod:63  port:27

 

- L3VPN SPECS:

- GLOBAL VRF NUM:        2048

 

- UPRF SPECS:

- URPF GLOBAL SUPPORT:   YES

- URPF INTF SUPPORT:     NO

- DEFAULT ROUTE DENY:    NO

- IPv4 MaxRoute:         65536

- IPv6 MaxRoute:         4096

- CHIP SUPPORT TYPE:     TRIUMPHV4EXT

……略

ROUTE TOTAL COUNT表示实际占用的IPv4表项资源,IPv4 MaxRoute表示IPv4表项总的资源。

·     CSPEX-1204:

[Sysname-probe] display hardware internal pe table all slot 3

 

=============================Table Instruction =================================

============

 PID:        PES Table ID

 PTY:        PES Table type

 KAL:        PES Key Align len

 RAL:        PES Result Align Len

 SID:        SDK TABLE ID

 TableName:  SDK Table name

 STY:        SDK Table type

 LOCA:       SDK Location

 MaxEntry:   SDK Max Entries

 ES:         SDK Entry_size

 MID:        SDK Moudle ID

 CID:        SDK DDR CTRL ID

 CNAME:      SDK DDR CTRL NAME

 KSZ:        SDK Key Size

 RSZ:        SDK Result Size

================================================================================

============

 PID PTY KAL RAL SID TABLENAME                      STY LOCA MAXENTRY ES MID CID

 CNAME  KSZ RSZ

 0   TAB 4   16  1   ipct                           TBL REG  256      16 0   255

 NULL   0   16

 1   TAB 4   16  2   remote-ipct                    TBL DDR  131072   16 72  18

 DDR7   0   16

 2   TAB 4   4   3   v4_vrrp                        BMP BRAM 32768    1  0   255

 NULL   0   1

 3   TAB 4   4   4   v6_vrrp                        BMP BRAM 32768    1  0   255

 NULL   0   1

 4   TAB 4   4   5   ipv4-vrrp-e                    BMP BRAM 524288   1  0   255

 NULL   0   1

 5   TAB 4   4   6   ipv6-vrrp-e                    BMP BRAM 524288   1  0   255

 NULL   0   1

 6   HAS 8   32  144 rpr-mac-hash                   DLH DDR  147456   32 99  30

 DDR2   6   32

                 8   rpr-mac(Dhash Res)             TBL DDR  131072   32 100 30

 DDR2   0   32

 7   HAS 8   8   145 rpr-node-mac-hash              DSH DDR  131072   16 80  24

 DDR6_0 8   16

                 9   rpr-node-mac(Dhash Res)        TBL DDR  65536    16 81  24

 DDR6_0 0   16

 8   TAB 4   32  10  inlif                          TBL DDR  1048576  32 88  27

 NULL   0   32

 9   HAS 4   32  132 remote-inlif-hash              SHA DDR  163840   32 66  16

 DDR0_0 4   3

 10  CSD 8   32  129 Ve-QinQ-inlif-hash             SHA DDR  294912   32 72  18

 DDR7   6   3

 11  TAB 4   32  12  Ve-QinQ-inlif(CSD Res)         TBL DDR  262144   32 88  27

 NULL   0   32

 12  LPM 8   8   118 ipv4-lpm                       LP4 CPU  0        8  0   255

 NULL   0   8

 13  TAB 4   16  119 ftn                            TBL DDR  4194304  16 64  16

 DDR0_0 0   16

IPv4表项总的资源为3000000条。使用display hardware internal pe table命令查找ftn对应的表项的PID,再使用display hardware internal pe table entrycount命令可以查看该表项实际占用的IPv4表项资源。

[Sysname-probe] display hardware internal pe table 13 entrycount slot 3

 

 There are 16 entries!

(2)     如果FIB资源使用率超过95%,请搜集信息并发送给技术支持人员协助分析。

3. MAC资源

MAC资源不足在大型二层网络中容易出现,MAC地址过多,老的MAC还没有老化,导致新的MAC地址学习不到。

<Sysname> display mac-address count

 49 mac address(es) found

建议:

·     减小学习到的MAC的老化时间,便于MAC地址快速老化

·     优化组网,根据不同的业务或部门等划分VLAN,不同VLAN间采用三层互联。

4. MPLS LSP资源

(1)     查看MPLS LSP资源使用情况。

<Sysname> display mpls lsp statistics

LSP Type      Ingress/Transit/Egress  Active

Static LSP    0/0/0                   0/0/0

Static CRLSP  0/0/0                   0/0/0

LDP LSP       0/0/1                   0/0/1

RSVP CRLSP    0/0/0                   0/0/0

BGP LSP       0/0/0                   0/0/0

Local LSP     0/0/0                   0/0/0

-----------------------------------------------------

Total         0/0/1                   0/0/1

(2)     如MPLS LSP资源使用过多导致资源不足,请搜集信息并发送给技术支持人员协助分析。

5. 其他系统资源

其他系统资源的使用情况需要专业技术支持人员进行分析,请联系技术支持处理。

7 报文转发故障处理

7.1  ping不通或丢包

7.1.1  故障描述

报文转发丢包,ping不通或ping丢包,tracert异常。

<Sysname> ping 10.0.0.5

PING 10.0.0.5 (10.0.0.5): 56 data bytes, press CTRL_C to break

Request time out

Request time out

Request time out

Request time out

Request time out

 

--- 10.0.0.5 ping statistics ---

5 packet(s) transmitted, 0 packet(s) received, 100.0% packet loss

7.1.2  故障处理步骤

1. 查看ICMP调试信息

使用debugging ip icmp命令打开ICMP调试信息开关,当对端ping本设备时,可以看到下列调试信息。如果未显示ICMP请求报文信息,则说明未接收到请求报文;如果未显示ICMP应答报文,则说明本设备未应答ICMP请求。

# 打开ICMP的调试信息开关。对端ping本设备时,本设备会输出下列调试信息。

<Sysname> debugging ip icmp

*Feb  8 18:28:47:417 2011 Sysname SOCKET/7/ICMP:

ICMP Input:

 ICMP Packet: src = 192.168.20.14, dst = 192.168.20.13

              type = 8, code = 0 (echo)

// 接收ICMP请求报文,报文源IP地址为192.168.20.14,报文目的IP地址为192.168.20.13

*Feb  8 18:28:47:451 2011 Sysname SOCKET/7/ICMP:

ICMP Output:

 ICMP Packet: src = 192.168.20.13, dst = 192.168.20.14

              type = 0, code = 0 (echo-reply)

// 发送ICMP应答报文,报文源IP地址为192.168.20.13,报文目的IP地址为192.168.20.14

2. 设备入出报文统计

报文转发异常通常会涉及多台设备,需要逐一排查。为方便排查,排查前建议先明确报文的转发走向,如经过哪些中间设备,在设备的哪些接口进入设备,又会从哪些接口出去。通过镜像抓包或配置ACL规则统计设备有没有收到或发出相应的业务报文,以配置ACL规则统计端口入方向Ping报文为例:

(1)     定义相关的ACL

[Sysname] acl number 3000

[Sysname-acl-adv-3000] rule 1 permit ip destination 1.1.1.1 0

(2)     定义流分类和流行为

[Sysname] traffic classifier  statistic_1

[Sysname-classifier-static] if-match acl 3000

[Sysname] traffic behavior statistic_1

[Sysname-classifier-static] accounting packet

(3)     定义策略

[Sysname] qos policy statistic_1

[Sysname-classifier-static] classifier statistic_1 behavior statistic_1

(4)     将策略应用到端口入方向

[Sysname] interface gigabitehternet 8/0/1

[Sysname-GigabitEthernet8/0/1] qos apply policy statistic_1 inbound

(5)     检查入方向报文统计计数,可以通过reset counter interface命令清除计数

<Sysname> display qos policy interface gigabitethernet8/0/1

Interface: GigabitEthernet8/0/1

 

  Direction: Inbound

 

  Policy: statistic_1

   Classifier: statistic_1

     Operator: AND

     Rule(s) : If-match acl 3000

     Behavior: statistic_1

      Accounting Enable:

        1000 (Packets)

3. 报文计数分析

如果设备未收到Ping报文,请排查上游的相邻设备;如果设备发送的Ping报文计数正确,建议排查下游的相邻设备;如果Ping报文入出计数不正确,请参照L3转发故障MPLS转发故障继续排查。

7.2  L3转发故障

7.2.1  故障描述

故障现象通常有三层业务异常、ping/tracert丢包/不通。

7.2.2  故障处理步骤

1. 报文目的MAC检查

报文在路由器上进行三层转发的条件是报文的目的MAC为路由器本身的MAC。通过镜像或抓包确认这个条件是否满足,“镜像”的详细介绍,请参见“网络管理和监控配置指导”中的“镜像”。如下图,报文的目的MAC为路由器接口的MAC,说明报文目的MAC正确。

图7-1 报文目的MAC

 

 

<Sysname> display interface GigabitEthernet 3/2/2

GigabitEthernet3/2/2

Current state: UP

Line protocol state: UP

Description: GigabitEthernet3/2/2 Interface

Bandwidth: 1000000kbps

Maximum Transmit Unit: 1500

Internet Address is 10.0.0.1/24 Primary

IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 7425-8a02-4d00

IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 7425-8a02-4d00

Media type is not sure, Port hardware type is 10G_BASE_SR_SFP

Port priority: 0

Last clearing of counters: Never

 Last 300 seconds input:  20 packets/sec 2565 bytes/sec  0%

 Last 300 seconds output: 0 packets/sec 30 bytes/sec  0%

 Input  (total): 219479 packets, 28092544 bytes

          219476 broadcasts, 0 multicasts, - pauses

 Input  (normal): 219479 packets, 28092544 bytes

          - broadcasts, - multicasts, 0 pauses

 Input: 0 input errors, 0 runts, 0 giants, 0 throttles

          0 CRC, 0 frame, 0 overruns, - aborts

          0 ignored, - parity errors

 Output  (total): 4608 packets, 316764 bytes

          3378 broadcasts, 1154 multicasts, - pauses

2. 路由表检查

检查设备到某一目的IP网段的路由是否存在,如路由不存在,请检查路由协议配置、状态是否正确。

<Sysname> display ip routing-table 1.1.1.0

Summary Count : 1

Destination/Mask    Proto  Pre  Cost         NextHop         Interface

1.1.1.0/24          Static 60   0            10.0.0.2        GE3/2/2

需要注意的是,当32位掩码的主机路由与ARP表项的出接口不一致时,以主机路由的出接口为准。

3. FIB表检查

检查设备到某一目的IP网段的FIB表项是否存在,如路由存在、FIB表项异常,请将故障信息发送技术支持人员分析。

<Sysname> display fib 1.1.1.0

Destination count: 1 FIB entry count: 1

Flag:

  U:Useable   G:Gateway   H:Host   B:Blackhole   D:Dynamic   S:Static

  R:Relay     F:FRR

Destination/Mask   Nexthop         Flag     OutInterface/Token       Label

1.1.1.0/24         10.0.0.2        USG      GE3/2/2                   Null

4. ARP检查

检查设备ARP学习的接口是否正确,如学习接口不正确,请通过reset arp命令重新学习ARP,必要时可以使用arp static命令配置静态ARP。如ARP学习的接口一直不正确,请将故障信息发送技术支持人员分析。

<Sysname> display arp 10.0.0.2

Type: S-Static    D-Dynamic    M-Multiport    I-Invalid

IP address      MAC address    VLAN     Interface                Aging Type

10.0.0.2        0000-0000-0001 N/A       GE3/2/2                  N/A   S

7.3  MPLS转发故障

7.3.1  故障描述

MPLS常见故障现象有:

·     目的不可达

·     没有相关的路由

·     LSP未正常建立

·     报文发送接收错误

7.3.2  故障处理步骤

VLL、VPLS、L3VPN是基于LSP建立的。在LSP入节点(下图中的PE1)上通过下列方式来检查、确认MPLS网络中哪台设备存在配置错误。

图7-2 MPLS组网图

 

1. MPLS LSP

(1)     检查配置的LSP是否存在,如不存在,请检查MPLS  LSP配置是否正确。

[PE1] display mpls lsp

FEC                         Proto    In/Out Label    Interface/Out NHLFE

100.100.100.100/32          LDP      3/-             -

4.4.4.4/32                  LDP      NULL/3          GE3/0/1

90.0.0.0/24                 LDP      NULL/3          GE3/0/1

1.1.1.1/32                  LDP      3/NULL          InLoop0

50.0.0.0/24                 LDP      NULL/3          GE3/0/1

70.0.0.0/24                 LDP      NULL/3          GE3/0/1

3.3.3.3/32                  LDP      NULL/1025       GE3/0/1

(2)     检查MPLS LDP会话,如果状态不是Operational,说明会话存在错误,请转步骤(3)、(4);如果MPLS LDP会话正常,请转步骤(5)。

[PE1] display mpls ldp peer

Total number of peers: 1

Peer LDP ID             State         Role     GR   MD5  KA Sent/Rcvd

4.4.4.4:0               Operational   Passive  Off  Off  39/39

 

(3)     通过display mpls ldp interface命令查看LDP接口的相关信息。如配置信息不正确,请检查MPLS LDP配置。

[PE1] display mpls ldp interface

Interface                 MPLS         LDP             Auto-config

Vlan103                   Enabled      Configured      -

GE3/0/2                   Enabled      Configured      -

XGE2/0/6                  Enabled      Configured      -

(4)     检查接口下是否使能MPLS、MPLS LDP。如未使能,请使能MPLS和MPLS LDP。建立LSP的所有接口上均需要使能MPLS和MPLS LDP。

[PE1] interface gigabitethernet 3/0/1

[PE1-GigabitEthernet3/0/1] display this

#

interface GigabitEthernet3/0/1

 ip address 1.1.1.2 255.255.255.0

 mpls enable

 mpls ldp enable

#

return

(5)     检查配置的mpls lsr-id是不是等于Loopback接口IP地址。推荐使用设备上某个Loopback接口的地址作为LSR ID。

<PE1> display current-configuration | include lsr-id

 mpls lsr-id 2.2.2.2

<PE1> display ip interface brief

*down: administratively down

(s): spoofing

Interface                    Physical Protocol IP Address      Description

Loop0                        up       up(s)    100.100.100.100 LoopBack0..

Loop2                        up       up(s)    100.100.100.102 LoopBack2..

M-E0/0/0                     up       up       192.168.147.7   M-Etherne..

<PE1> system-view

[PE1] mpls lsr-id 100.100.100.100

2. 路由排查

(1)     检查路由表中PE1、P、PE2的环回口IP及远端VLAN接口的IP表项是否存在,如不存在,请检查路由协议配置。

[PE1] display ip routing-table

         Destinations : 10       Routes : 10

 

Destination/Mask    Proto  Pre  Cost         NextHop         Interface

 

1.1.1.1/32          Direct  0    0            127.0.0.1       InLoop0

3.3.3.3/32          O_INTER 10   2            103.0.0.4       GE3/0/1

4.4.4.4/32          O_INTER 10   1            103.0.0.4       GE3/0/1

50.0.0.0/24         O_INTER 10   2            103.0.0.4       GE3/0/1

70.0.0.0/24         O_INTER 10   2            103.0.0.4       GE3/0/1

90.0.0.0/24         O_INTER 10   2            103.0.0.4       GE3/0/1

103.0.0.0/24        Direct  0    0            103.0.0.1       GE3/0/1

103.0.0.1/32        Direct  0    0            127.0.0.1       InLoop0

127.0.0.0/8         Direct  0    0            127.0.0.1       InLoop0

127.0.0.1/32        Direct  0    0            127.0.0.1       InLoop0

(2)     检查路由协议状态是否正常(下面以查看OSPF协议状态为例),如不正常,请检查路由协议配置。

[PE1] display ospf peer

 

                   OSPF Process 1 with Router ID 1.1.1.1

                        Neighbor Brief Information

 

 Area: 0.0.0.0

 Router ID       Address         Pri Dead-Time Interface       State

 4.4.4.4         103.0.0.4       1   37        Vlan103         Full/BDR

(3)     检查协议中环回口、VLAN接口的路由是否通告,LDP接口上是否已使能路由协议,如不正确,请添加配置。

[PE1-ospf-1] display this

#

ospf 1

 area 0.0.0.0

  network 103.0.0.0 0.0.0.255

  network 1.1.1.1 0.0.0.0

#

return

(4)     如仍不正常,请检查本端、对端设备的路由协议配置。

(5)     如仍无法确认,请将故障信息发送技术支持人员分析。

7.4  BFD转发故障

7.4.1  故障描述

·     BFD会话没有创建

·     BFD会话一直显示状态为DOWN

·     BFD会话震荡

7.4.2  故障处理步骤

BFD配置配在两台设备或两个节点上,首先要保证两个节点在物理链路上可达,检查两节点之间的连接是否正确。

1. 协议配置

(1)     首先检查各个节点之间的可达性,如不可达,请检查物理连接或接口上的配置。

<Sysname> ping 50.1.1.2

Ping 50.1.1.2 (50.1.1.2): 56 data bytes, press CTRL_C to break

56 bytes from 50.1.1.2: icmp_seq=0 ttl=255 time=1.722 ms

56 bytes from 50.1.1.2: icmp_seq=1 ttl=255 time=5.531 ms

56 bytes from 50.1.1.2: icmp_seq=2 ttl=255 time=1.553 ms

56 bytes from 50.1.1.2: icmp_seq=3 ttl=255 time=1.646 ms

56 bytes from 50.1.1.2: icmp_seq=4 ttl=255 time=1.561 ms

 

--- Ping statistics for 50.1.1.2 ---

5 packet(s) transmitted, 5 packet(s) received, 0.0% packet loss

round-trip min/avg/max/std-dev = 1.553/2.403/5.531/1.565 ms

5 packet(s) transmitted, 5 packet(s) received, 0.0% packet loss, round-trip min/avg/max/std-dev = 1.553/2.403/5.531/1.565 ms.

(2)     查看BFD服务的上层协议是否UP,如果没有UP,请检查相关协议的配置。

如果配置和路由协议联动的BFD,请检查路由协议的状态,如下(此处以OSPF为例):

<Sysname> display ospf peer

 

          OSPF Process 1 with Router ID 43.43.43.43

               Neighbor Brief Information

 

 Area: 0.0.0.0

 Router ID       Address         Pri Dead-Time  State             Interface

 15.15.15.22     50.1.1.2        1   36         Full/BDR          GE3/1/4

 

如果是和隧道进行联动,请查看隧道的状态,如下(此处以TE隧道为例):

<Sysname> display interface Tunnel brief

Brief information on interface(s) under route mode:

Link: ADM - administratively down; Stby - standby

Protocol: (s) - spoofing

Interface            Link Protocol Main IP         Description

Tun22                UP   UP       --

2. BFD配置

(1)     检查是否配置了BFD会话的使能配置。(以TE BFD为例)

对于BFD会话,和不同的上层协议联动,BFD使能的配置不一样,配置的视图也不一样,如TE BFD会话的使能配置是在系统视图下和tunnel接口视图下,如下:

[Sysname] mpls bfd enable

[Sysname] interface tunnel 22 mode mpls-te

[Sysname-Tunnel22] mpls bfd

(2)     其它的配置对BFD会话的影响。

URPF配置:当echo报文源IP地址不是本设备上的IP地址时,不能配置uRPF功能。

Easy IP:配置BFD功能的接口不能开启Easy IP 功能,否则可能导致BFD功能不能正常使用。

QinQ终结:配置BFD功能的三层以太网子接口、三层聚合子接口不能配置QinQ终结功能。

QoS配置:BFD会话建立后,需要在CSPEX-1204单板上查询转发表项,此时在该单板上的接口配置QoS策略如使用qos lr命令配置限速,会导致对端收到BFD报文有延时而出现BFD出现震荡的现象。

VLAN配置:对于VLAN口上的BFD会话,某些STP配置(如接口不允许BFD所在VLAN的报文通过)也会导致BFD报文在设备内部进行转发时出现丢弃。

如果链路一端配置了ECHO BFD会话,建议在对端接口上使用qos trust命令配置优先级信任模式。否则,当对端接口上出现拥塞时,ECHO BFD报文在对端可能会因为优先级较低而出现丢包的现象。

7.5  PPPoE转发故障

7.5.1  故障描述

PPPoE常见故障现象有:

·     从客户端往公网侧的上行流量转发不通

·     从公网侧往客户端的下行流量转发不通

7.5.2  故障处理步骤

(1)     查看PPPoE会话信息,观察会话是否正常,MAC地址是否正确。

[Sysname] display pppoe-server session summary slot 3

Total PPPoE sessions on slot 3: 1

Local PPPoE sessions on slot 3: 1

 

  Ethernet interface: GE3/1/1                 Session ID: 1

  PPP interface: VA0                                State: OPEN

  Remote MAC: 0010-9400-0001            Local MAC: 5866-baf1-c4f4

  Service VLAN: N/A                               Customer VLAN: N/A

 

(2)     查看PPPoE用户分配的IP地址与VPN信息,对信息的正确性进行检查。

[Sysname] display ppp access-user user-type pppoe

Interface  Username        MAC address     IP address       IPv6 address

VA0        pppoe           0010-9400-0042  170.0.0.3        130::B520:4E93:2:A834

[Sysname] display ppp access-user ip-address 170.0.0.3

Basic:

  Interface: VA0

  User ID: 0x20000001

  Username: rzyf

  Domain: system

  Access interface: GE3/1/1

  Service-VLAN/Customer-VLAN: -/-

  MAC address: 0010-9400-0001

  IP address: 170.0.0.3

  IPv6 address: 130::B520:4E93:2:A834

  IPv6 PD prefix: -

  VPN instance: -

  Access type: PPPoE

  Authentication type: CHAP

 

(3)     查看PPPoE用户的VA口IP与下一跳IP路由是否在同一fib表内

[Sysname] display fib

Destination/Mask   Nexthop         Flag     OutInterface/Token       Label

0.0.0.0/32         127.0.0.1       UH       InLoop0                  Null

90.1.1.0/24        90.1.1.1        U        GE3/1/1                  Null

90.1.1.0/32        90.1.1.1        UBH      GE3/1/1                  Null

90.1.1.1/32        127.0.0.1       UH       InLoop0                  Null

90.1.1.255/32      90.1.1.1        UBH      GE3/1/1                  Null

127.0.0.0/8        127.0.0.1       U        InLoop0                  Null

127.0.0.0/32       127.0.0.1       UH       InLoop0                  Null

127.0.0.1/32       127.0.0.1       UH       InLoop0                  Null

127.255.255.255/32 127.0.0.1       UH       InLoop0                  Null

170.0.0.1/32       127.0.0.1       UH       InLoop0                  Null

170.0.0.3/32       170.0.0.3       UH       VA0                      Null

192.167.21.0/24    192.167.21.33   U        M-E0/0/0                 Null

7.6  L2TP转发故障

7.6.1  故障描述

L2TP常见故障现象有:

·     从客户端往LNS内网的上行流量转发不通

·     从LNS内网往客户端的下行流量转发不通

7.6.2  故障处理步骤

·     构造客户端与LNS内网的数据流量,观察LAC侧PPPoE拨入口与L2TP隧道口的流量统计,观察LNS侧L2TP隧道口与内网目的接口的流量统计,判断流量在LAC侧还是LNS侧丢包

<Sysname> display counters inbound interface GigabitEthernet 2/2/1

Interface         Total (pkts)   Broadcast (pkts)   Multicast (pkts)  Err (pkts)

GE2/2/1                     0                  0                  0           0

 

 Overflow: More than 14 digits (7 digits for column "Err").

       --: Not supported.

<Sysname> display counters outbound interface GigabitEthernet 2/2/1

Interface         Total (pkts)   Broadcast (pkts)   Multicast (pkts)  Err (pkts)

GE2/2/1                     9                  4                  5           0

 

(1)     如果流量在LAC侧丢包,查看PPPoE会话信息与L2TP隧道会话信息

<Sysname> display pppoe-server session summary slot 3

Total PPPoE sessions on slot 3: 1

Local PPPoE sessions on slot 3: 1

 

  Ethernet interface: GE3/1/1                  Session ID: 1

  PPP interface: VA0                                State: OPEN

  Remote MAC: 0010-9400-0001            Local MAC: 5866-baf1-c4f4

  Service VLAN: N/A                               Customer VLAN: N/A

 

<Sysname> display l2tp tunnel

LocalTID RemoteTID State        Sessions RemoteAddress   RemotePort RemoteName

29827    232       Established  1        6.1.1.1         1701       rzyflns

 

[Sysname]display l2tp session

LocalSID    RemoteSID    LocalTID    State

3912        11517        29827       Established

 

(2)     如果流量在LNS侧丢包,查看L2TP隧道会话信息、PPP用户分配的IP地址与VPN信息,查看PPP用户 VA口IP与下一条IP路由是否在同一FIB表内

<Sysname> display l2tp tunnel

LocalTID RemoteTID State        Sessions RemoteAddress   RemotePort RemoteName

232      29827     Established  1        6.1.1.2         1701       rzyflac

 

<Sysname> display l2tp session

LocalSID    RemoteSID    LocalTID    State

11517       3912         232         Established

 

<Sysname> display ppp access-user user-type pppoe

Interface  Username        MAC address     IP address       IPv6 address

VA0          pppoe              0010-9400-0042  170.0.0.3        130::B520:4E93:2:A834

<Sysname> display ppp access-user ip-address 170.0.0.3

Basic:

  Interface: VA0

  User ID: 0x20000001

  Username: rzyf

  Domain: system

  Access interface: GE3/1/1

  Service-VLAN/Customer-VLAN: -/-

  MAC address: 0010-9400-0001

  IP address: 170.0.0.3

  IPv6 address: 130::B520:4E93:2:A834

  IPv6 PD prefix: -

  VPN instance: -

  Access type: PPPoE

  Authentication type: CHAP

 

<Sysname> display fib

Destination/Mask   Nexthop         Flag     OutInterface/Token       Label

0.0.0.0/32         127.0.0.1         UH     InLoop0                  Null

90.1.1.0/24        90.1.1.1          U      GE3/1/1                  Null

90.1.1.0/32        90.1.1.1          UBH    GE3/1/1                  Null

90.1.1.1/32        127.0.0.1         UH     InLoop0                  Null

90.1.1.255/32      90.1.1.1          UBH    GE3/1/1                  Null

127.0.0.0/8        127.0.0.1         U      InLoop0                  Null

127.0.0.0/32       127.0.0.1         UH     InLoop0                  Null

127.0.0.1/32       127.0.0.1         UH     InLoop0                  Null

127.255.255.255/32 127.0.0.1         UH     InLoop0                  Null

170.0.0.1/32       127.0.0.1         UH     InLoop0                  Null

170.0.0.3/32       170.0.0.3         UH     VA0                      Null

192.167.21.0/24    192.167.21.33     U      M-E0/0/0                 Null

7.7  NAT/NS故障

7.7.1  故障描述

NAT常见故障:NAT报文无法正常转发

NS常见故障:NS报文无法统计

7.7.2  NAT/NS故障处理步骤

当NAT/NS业务出现故障时,请按如下步骤处理。

1. 检查NAT/NS报文是否上送到CPU

通过检查报文上送到CPU的计数,可以判断报文上送路径是否正常。

如果没有Input 计数或者Output计数,说明报文未上送到CPU,可能是上送过程故障导致;如果有计数并且有Error计数,说明报文上送失败被丢弃,需要打开调试开关检查,详见“7.7.2  3. 检查业务驱动流程处理”;如果有计数并且没有Error计数,说明报文没做NAT而是正常转发,可能是配置错误导致。

例如:

<Sysname> display nat service slot 2

 

 

**********************************************************

- NAT SERVICE CALCULATION        Slot 2

**********************************************************

 input packet of each VCPU:

 

        0             0             0             0

        0             0             0             0

        0             1             0             3723834

        0             0             0             1730064

 output packet of each VCPU:

 

        0             0             0             0

        0             0             0             0

        0             0             0             3723833

        0             0             0             1730064

 Input  packet count: total 5453899         error 1

 Output packet count: total 5453897         error 0

[Sysname-probe] display hardware internal netstream service slot  2

 

 

**********************************************************

- Netstream SERVICE CALCULATION  Slot 2

**********************************************************

NS input packet of each VCPU:

 

        0             0             0             0

        0             0             0             0

        0             0             0             0

        0             0             0             0

 input  packet count: total 0               error 0

**********************************************************

2. 检查报文上送/下发的路径

如果报文未上送到CPU,或者已做完NAT/NS,并且CPU未有ERROR计数,对于CSPC单板和CMPE-1104单板,可以检查SP口、入端口、出端口是否有计数或者丢包;对于CSPEX-1204单板,可以通过检查芯片是否有丢包来判断。

例如:

对于CSPC单板和CMPE-1104单板,可以查看SP口是否有丢包。如果有丢包,则会显示RDBG3.ge36或者RDBG6.ge36计数。

[Sysname-probe] bcm 2 0 show/counter/ge36

RIPC4.ge36        :             5,837,338          +5,837,338             378/s

RUC.ge36          :             5,837,338          +5,837,338             378/s

ING_NIV_RX_FRAMES_VLAN_TAGGED.ge5,837,339:             5,837,339          +5,837,339             378/s

R255.ge36         :             5,837,341          +5,837,341             379/s

RPKT.ge36         :             5,837,341          +5,837,341             379/s

RUCA.ge36         :             5,837,341          +5,837,341             379/s

RPRM.ge36         :             5,837,341          +5,837,341             379/s

RVLN.ge36         :             5,837,341          +5,837,341             379/s

RPOK.ge36         :             5,837,341          +5,837,341             379/s

RBYT.ge36         :         1,263,402,252      +1,263,402,252          94,642/s

T511.ge36         :         1,824,924,761      +1,824,924,761             445/s

TPOK.ge36         :         1,824,924,761      +1,824,924,761             445/s

TPKT.ge36         :         1,824,924,761      +1,824,924,761             445/s

TUCA.ge36         :         1,824,924,761      +1,824,924,761             445/s

TVLN.ge36         :         1,824,924,761      +1,824,924,761             445/s

TBYT.ge36         :       478,747,107,094    +478,747,107,094         172,806/s

PERQ_PKT(2).ge36  :         1,824,914,112      +1,824,914,112           6,909/s

PERQ_BYTE(2).ge36 :       453,194,156,416    +453,194,156,416       2,590,192/s

PERQ_DROP_PKT(2).ge36:                 3,691              +3,691

PERQ_DROP_BYTE(2).ge36:               841,548            +841,548

对于CSPEX-1204单板,可以查看芯片是否存在drop计数。

[Sysname-probe] display np pkt drop slot 10

 

 Current Mcode Type: NP5_METRO

 The NP 0 is Both NP

 Drop packet statistics

  3244                     0 parsing engine all discarded pkts

  3246                     0 parsing engine all multicast pkts

  3483               1530299 resolving engine all discarded pkts

  3485                     0 resolving engine all multicast pkts

  3981                     0 modifing engine all discarded pkts

  3983                     0 modifing engine all multicast pkts

  600                1530291 total drop packets in TOPresolve

  64A                  36429 in egress multicast, BROADCAST table no match

  65C                1493858 in bras, outbound ARP table no match

3. 检查业务驱动流程处理

如果上送CPU有Error计数,则需要打开驱动调试开关检查驱动代码处理流程。

例如对于CSPEX-1204单板,调试开关为:

[H3C-probe] debugging hardware internal ic ddp dpfunc slot 10 cpu 0

例如对于CSPC单板和CMPE-1104单板单板,调试开关为:

[H3C-probe] debugging hardware internal ic dpnat dpnatdebug slot 2 cpu 0

[H3C-probe] debugging hardware internal ic dpnat dpnat slot 2 cpu 0

[H3C-probe] debugging hardware internal dp 2

7.8  L2MC转发故障

7.8.1  故障描述

L2MC常见故障现象有:

·     组播转发表项未建立

·     组播转发表项未添加下游出接口

7.8.2  故障处理步骤

(1)     查看二层组播转发表项是否下发

[Sysname] display igmp-snooping group

Total 1 entries.

 

VLAN 10: Total 1 entries.

  (0.0.0.0, 226.1.1.1)

    Host slots (1 in total):

      3

    Host ports (1 in total):

      GE3/0/1

(2)     查看VLAN上是否正确配置二层组播

[Sysname-vlan10] display this

#

vlan 10

 igmp-snooping enable

 igmp-snooping drop-unknown

#

(3)     查看二层组播表项是否添加下游出接口

[Sysname] display igmp-snooping group

Total 1 entries.

 

VLAN 10: Total 1 entries.

  (0.0.0.0, 226.1.1.1)

    Host slots (1 in total):

      3

    Host ports (1 in total):

      GE3/0/1

(4)     查看出接口上是否接收到IGMP REPORT报文

<Sysname> terminal monitor

<Sysname> terminal debugging

<Sysname> debugging igmp report

<Sysname>*Feb 19 14:01:59:422 2013 Sysname MCS/7/PACKET: -MDC=1-Slot=3; Receive IGMPv2 report packet from port GE3/0/1 on VLAN 10.

*Feb 19 14:01:59:436 2013 Sysname MCS/7/PACKET: -MDC=1; Receive IGMPv2 report packet from another slot, the packet receive from port

 GE3/0/1 on VLAN 10.

*Feb 19 14:01:59:437 2013 Sysname MCS/7/PACKET: -MDC=1; Forward the IGMP packet locally.

*Feb 19 14:01:59:437 2013 Sysname MCS/7/PACKET: -MDC=1; Forward the IGMP membership packet which destination IP address is 226.1.1.1

 and source IP address is 192.85.1.3 on VLAN 10.

*Feb 19 14:01:59:449 2013 Sysname MCS/7/PACKET: -MDC=1; Send the IGMP packet up to IP.

*Feb 19 14:01:59:453 2013 Sysname MCS/7/PACKET: -MDC=1-Slot=5; Forward the IGMP membership packet which destination IP address is 22

6.1.1.1 and source IP address is 192.85.1.3 on VLAN 10.

*Feb 19 14:01:59:457 2013 Sysname MCS/7/PACKET: -MDC=1-Slot=3; Forward the IGMP membership packet which destination IP address is 22

6.1.1.1 and source IP address is 192.85.1.3 on VLAN 10.

7.9  L3MC转发故障

7.9.1  故障描述

L3MC常见故障现象有:

·     组播转发表项未建立

·     组播转发表项未添加下游出接口

7.9.2  故障处理步骤

1. 组播转发表项未建立处理步骤

(1)     查看三层组播转发表项是否下发

[Sysname] display multicast forwarding-table

Total 1 entries, 1 matched

 

00001. (11.1.1.2, 226.1.1.1)

     Flags: 0x0

     Uptime: 00:35:00, Timeout in: 00:03:21

     Incoming interface: GigabitEthernet3/0/2

     Matched 193 packets(5970 bytes), Wrong If 0 packets

     Forwarded 140 packets(140 bytes)

(2)     检查接口是否配置PIM协议

interface GigabitEthernet3/0/2

 port link-mode route

 ip address 11.1.1.1 255.255.255.0

 pim sm

(3)     检查设备是否学习到BSR

[Sysname] display pim bsr-info

 Scope: non-scoped

     State: Elected

     Bootstrap timer: 00:00:18

     Elected BSR address: 11.1.1.1

       Priority: 64

       Hash mask length: 30

       Uptime: 00:23:52

     Candidate BSR address: 11.1.1.1

       Priority: 64

       Hash mask length: 30

(4)     检查设备是否学习到RP

[Sysname] display pim rp

 BSR RP information:

   Scope: non-scoped

     Group/MaskLen: 224.0.0.0/4

       RP address               Priority  HoldTime  Uptime    Expires

       11.1.1.1 (local)         192       180       00:24:22  00:02:38

(5)     如果组播表项建立但入接口不正确,则利用组播源IP检查其RPF口是否正确

[Sysname] display multicast rpf-info 11.1.1.2

 RPF information about source 11.1.1.2:

     RPF interface: GigabitEthernet3/0/2

     Referenced route/mask: 11.1.1.0/24

     Referenced route type: unicast (direct)

     Route selection rule: preference-preferred

     Load splitting rule: disable

2. 组播转发表项未添加下游出接口处理步骤

(1)     查看三层组播转发表项是否生成下游出接口

[Sysname]display multicast forwarding-table

Total 1 entries, 1 matched

 

00001. (11.1.1.2, 226.1.1.1)

     Flags: 0x0

     Uptime: 00:36:10, Timeout in: 00:03:26

     Incoming interface: GigabitEthernet3/0/2

     List of 1 outgoing interfaces:

       1: GigabitEthernet3/0/1

     Matched 198 packets(5975 bytes), Wrong If 0 packets

     Forwarded 145 packets(145 bytes)

(2)     检查下游出接口是否配置IGMP或者PIM SM

·     下游直连主机

interface GigabitEthernet3/0/1

 port link-mode route

 ip address 12.1.1.1 255.255.255.0

 igmp enable

·     下游链接其它路由设备

interface GigabitEthernet3/0/1

 port link-mode route

 ip address 12.1.1.1 255.255.255.0

 pim sm

(3)     查看下游出接口上是否收到IGMP加入协议报文或者PIM JOIN协议报文

·     下游直连主机

<Sysname> terminal monitor

<Sysname> terminal debugging

<Sysname>debugging igmp report

<Sysname>*Feb 19 13:26:11:796 2013 Sysname IGMP/7/REPORT: -MDC=1; Received IGMPv2 report for group 226.1.1.1 on interface GigabitEthernet3/0/1(12.1.1.1) (G161021)

*Feb 19 13:26:11:797 2013 Sysname IGMP/7/REPORT: -MDC=1; Process IS_EX packet for INCLUDE group(226.1.1.1) on interface GigabitEthernet3/0/1(12.1.1.1) (G116517)

·     下游链接其它路由设备

<Sysname> terminal monitor

<Sysname> terminal debugging

<Sysname>debugging pim join-prune

<Sysname>*Feb 19 13:35:55:780 2013 Sysname PIM/7/JP: -MDC=1; PIM ver 2 JP received 12.1.1.2 -> 224.0.0.13 on interface GigabitEthernet3/0/1 (SM141304)

*Feb 19 13:35:55:781 2013 Sysname PIM/7/JP: -MDC=1;  Upstream: 12.1.1.1, Number of groups: 2, Holdtime: 210 (SM141306)

*Feb 19 13:35:55:781 2013 Sysname PIM/7/JP: -MDC=1;  Group: 226.1.1.1 --- 1 joins 0 prunes (SM141312)

*Feb 19 13:35:55:782 2013 Sysname PIM/7/JP: -MDC=1;   Join: 11.1.1.1 --- Flags: SWR (SM141316)

*Feb 19 13:35:55:783 2013 Sysname PIM/7/JP: -MDC=1;  Group: 239.1.1.1 --- 1 joins 0 prunes (SM141312)

*Feb 19 13:35:55:784 2013 Sysname PIM/7/JP: -MDC=1;   Join: 11.1.1.1 --- Flags: SWR (SM141316)

7.10  QACL业务故障

本节中描述的“QACL业务”是指通过预先配置的规则、对匹配规则的报文进行过滤的各种业务的统称,包括:报文过滤、策略路由、QoS策略、DHCP Snooping、Portal。

7.10.1  故障描述

用户配置的QACL业务功能没有达到预期的配置效果。

7.10.2  故障处理步骤

当QACL业务出现故障时,请按如下步骤处理。

1. 检查报文是否被高优先级的QACL业务误匹配

路由器支持将多种QACL业务,不同QACL业务的优先级不同,优先级顺序依次为:uRPF > 全局应用的报文过滤 > 接口应用的报文过滤 > VLAN应用的报文过滤 > 全局上送cpu的规则 > 端口上送cpu的规则 > vlan上送cpu的规则 > dhcp snooping > Portal免认证规则 > 接口应用的策略路由 > VLAN应用的策略路由 > 全局应用的QoS策略 > 接口应用的QoS策略 > VLAN应用的QoS策略 > portal其它规则。

如果某类报文同时匹配了多个不同优先级的QACL业务规则,只有优先级最高的QACL业务规则匹配成功。因此,如果QACL业务下发后,实际功能没有生效,需要排查其他更高优先级的QACL业务规则中是否已匹配了该类报文。对于此类问题,请结合实际需求,修改相关QACL业务的规则,达到预期的匹配效果。

2. 检查QoS策略的配置是否已正确应用

在QoS策略的配置中,有很多配置不支持或配置之间存在冲突。如果在配置过程中,路由器上未开启terminal debuggingterminal monitor功能,即使有冲突的配置下发了,路由器也不会有提示。此时,您可以通过以下两种方法进行排查:

·     在设备上开启terminal debuggingterminal monitor功能,并重新应用QoS策略(重新应用之前请先执行undo命令取消之前的QoS策略应用),查看路由器是否打印配置冲突或配置不支持的提示信息。

·     通过display命令查看QoS策略应用是否成功。

常见的QoS策略的配置未正确下发的提示信息分为以下几类:

(1)     and类型的类中,定义的规则存在冲突。

<Sysname> terminal debugging

<Sysname> terminal monitor

[Sysname] system-view

[Sysname] undo qos apply policy p1 global inbound

[Sysname] qos apply policy p1 global inbound

[Sysname] %Mar 19 15:44:53:648 2014 Sysname QOS/4/QOS_POLICY_APPLYGLOBAL_CBFAIL:-MDC=1-Slot=6; Failed to apply classifier-behavior c1 in policy p1 to the inbound direction globally. In a classifier with AND operator, you cannot configure multiple ACL match rules.

上例中的提示信息说明and类型的类c1不支持定义多条ACL规则。此时也可以通过display命令也可以查看到当前QoS策略应用失败:

[Sysname] display qos policy global slot 3 inbound

 

  Direction: Inbound

 

  Policy: p1

   Classifier: c1 (Failed)

     Operator: AND

     Rule(s) :

      If-match acl 3000

      If-match acl 3001

     Behavior: b1

      Filter enable: Deny

对于此类问题,应该重新定义该类,并指定该类下的规则之间的逻辑为or。

(2)     类中定义的某条规则不支持。

<Sysname> terminal debugging

<Sysname> terminal monitor

[Sysname] system-view

[Sysname] undo qos apply policy p1 global inbound

[Sysname] qos apply policy p1 global inbound

[Sysname] %Aug  3 18:53:41:817 2024 Sysname QOS/4/QOS_POLICY_APPLYGLOBAL_CBFAIL: -MDC=1-Slot=3; Failed to apply classifier-behavior c1 in policy p1 to the inbound direction globally. Customer-VLAN match rule is not supported.

上例中的提示信息说明不支持在全局QoS策略的入方向匹配customer-vlan-id。此时也可以通过display命令也可以查看到当前QoS策略应用失败:

[Sysname] display qos policy global slot 3

 

  Direction: Inbound

 

  Policy: p1

   Classifier: c1 (Failed)

     Operator: AND

     Rule(s) :

      If-match customer-vlan-id 100

      If-match acl 3000

     Behavior: b1

      Marking:

        Remark service-vlan-id 201

对于此类问题,应该删除类中不支持的规则。

(3)     流行为中的动作冲突。

<Sysname> terminal debugging

<Sysname> terminal monitor

[Sysname] system-view

[Sysname] interface gigabitethernet6/0/12

[Sysname-GigabitEthernet6/0/12] undo qos apply policy p1 inbound

[Sysname-GigabitEthernet6/0/12] qos apply policy p1 inbound

[Sysname-GigabitEthernet6/0/12] %Mar 19 16:58:41:624 2014 Sysname QOS/4/QOS_POLICY_APPLYIF_CBFAIL: -MDC=1-Slot=6; Failed to apply classifier-behavior c1 in policy p1 to the inbound direction of interface GigabitEthernet6/0/12.Filter deny conflicts with redirect to CPU.

上例中的提示信息说明流行为中的filter  deny动作和redirect to cpu动作冲突。此时也可以通过display命令也可以查看到当前QoS策略应用失败:

[Sysname] display qos policy interface inbound

 

Interface: GigabitEthernet6/0/12

 

  Direction: Inbound

 

  Policy: p1

   Classifier: c1 (Failed)

     Operator: AND

     Rule(s) :

      If-match acl 3000

     Behavior: b1

      Filter enable: Deny

      Redirecting:

        Redirect to the CPU

对于此类问题,应该删除流行为中冲突的动作。

3. 检查规则中的时间段

用户可以通过设置time-range字段来设定规则生效的时间范围。如果发现表项功能不生效,并且表项中带time-range字段,需要检查time-range配置的时间范围是否正确,检查方法介绍如下:

[Sysname] display time-range t1

Current time is 09:59:37 8/14/2013 Wednesday

Time-range: t1 (Inactive)

 09:25 to 09:30 working-day

此时发现时间段t1的状态是Inactive,说明系统当前时间在所设置的时间内未生效,需要修改时间段的时间范围。

4. 检查QoS和ACL资源的使用情况

通过检查QoS和ACL资源的使用情况可以用来判断当前功能失效的原因是否是由于资源不足,下面介绍下资源检查的方法:

[Sysname] display qos-acl resource slot 3

Interfaces: GE3/3/1 to GE3/3/8, Pos3/4/1 to Pos3/4/4

---------------------------------------------------------------------

 Type             Total      Reserved   Configured Remaining  Usage

---------------------------------------------------------------------

 IPv4Acl          65536      0          2          65534      0%

 IPv6Acl          16384      0          0          16384      0%

 Car&Cnt          32768      0          1          32767      0%

 InBRASCar        65536      0          0          65536      0%

 OutBRASCar       65536      0          0          65536      0%

 TCPCar           16384      0          0          16384      0%

 CarProf          220        0          2          218        0%

 Sampler          32768      0          0          32768      0%

显示信息中Type表示资源类型,Total表示总的资源数,Configured表示使用资源数,Remaining表示剩余的资源数,Usage表示使用的百分比。

当剩余的资源数为0或者使用的百分比达到100%时,表示该类表项的资源不足。对于此类故障,请直接联系技术支持。

5. 如仍还无法排查,请把故障信息发送给技术支持人员分析

8 链路端口故障处理

8.1  端口错包

8.1.1  故障描述

使用display interface命令查询端口的入、出方向流量统计信息,发现错包统计计数不为0

<Sysname> display interface gigabitethernet3/1/1

GigabitEthernet3/1/1

Current state: UP

Line protocol state: UP

Description: GigabitEthernet3/1/1 Interface

Bandwidth: 1000000kbps

Maximum Transmit Unit: 1500

Internet protocol processing: disabled

IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 0cda-41b1-d1c3

IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 0cda-41b1-d1c3

Media type is not sure,Port hardware type is No connector

Port priority: 0

Last clearing of counters: Never

 Peak value of input: 70 bytes/sec, at 2013-03-19 13:04:15

 Peak value of output: 210 bytes/sec, at 2013-03-19 13:04:15

 Last 300 seconds input:  0 packets/sec 70 bytes/sec 0%

 Last 300 seconds output:  0 packets/sec 210 bytes/sec 0%

 Input (total):  693897 packets, 72834962 bytes

         22196 unicasts, 584504 broadcasts, 87197 multicasts, - pauses

 Input (normal):  693897 packets, 72834962 bytes

         22196 unicasts, 584504 broadcasts, 87197 multicasts, 152536 pauses

 Input:  0 input errors, 0 runts, 0 giants, 0 throttles

         0 CRC, 0 frame, 0 overruns, - aborts

         - ignored, - parity errors

 Output (total): 7515164 packets, 14001669469 bytes

         20811 unicasts, 6228300 broadcasts, 1266053 multicasts, - pauses

 Output (normal): 7515164 packets, 14001669469 bytes

         20811 unicasts, 6228300 broadcasts, 1266053 multicasts, 0 pauses

 Output: 0 output errors, - underruns, - buffer failures

         0 aborts, 0 deferred, 0 collisions, 0 late collisions

         - lost carrier, - no carrier

1. 端口入方向报文计数错误字段解释

·     input errors:端口接收的错误报文的统计值。

·     runts:表示接收到的超小帧个数。超小帧即超小帧是指长度小于64字节、格式正确且包含有效的CRC字段的帧。

·     giants:接收到的超大帧的数量。超大帧即有效长度大于端口允许通过最大报文长度的帧。

·     CRC:接收到的CRC校验错误、长度正常的帧的数量。

·     frame:接收到的CRC校验错误、且长度不是整字节数的帧的数量。

·     throttles:超小而且CRC错误的帧的数量。

2. 端口出方向报文计数错误字段解释

·     output errors:各种发送错误的报文总数。

·     aborts:表示发送失败的报文总数。

·     deferred:表示延迟报文的总数。报文延迟是指因延迟过长的周期而导致发送失败的报文,而这些报文由于发送媒质繁忙而等待了超过2倍的最大报文发送时间。

·     collisions:表示冲突帧总数,即在发送过程中检测到冲突而停止发送的报文。

·     late collisions:表示延迟冲突帧,即发送过程中发生延迟冲突超过512bit时间的帧。

8.1.2  故障处理步骤

1. 端口入方向出现CRC、frame、throttles错包且计数持续增加

(1)     使用仪器测试链路,链路质量差或者线路光信号衰减过大会导致报文在传输过程中出错。如链路故障请更换网线或光纤。

(2)     如端口使用光模块,参照8.5  光模块故障确认是否光模块故障导致。

(3)     与别的正常的端口更换网线或光纤光模块,如端口更换后错包消失,端口更换回来错包又再次出现端口相关,应为单板端口故障,请更换端口并将故障信息发送技术支持人员分析;如更换到其他正常端口仍会出现错包,则对端设备、中间传输链路故障的可能性较大,请排查。

(4)     排查对端设备或者中间的传输设备。

(5)     如故障无法确认,请将故障信息发送技术支持人员分析。

2. 端口入方向出现Overrun错包且计数持续增加

Overrun计数是由于端口输入速率超出本端口处理能力,导致丢包。

(1)     如果只有某一个端口收发包异常,或者某一个端口下挂设备的业务不通,同时这个单板上的其他端口都是正常的,可以多次查询display interface命令,如果input errors有增加,且等于overruns的增加,那么可以怀疑是单板内部拥塞或堵死,请将故障信息发送技术支持人员分析。

[Sysname] display interface ten-gigabitEthernet9/0/2

Ten-GigabitEthernet9/0/2

Current state: UP

Line protocol state: UP

Description: Ten-GigabitEthernet9/0/2 Interface

Bandwidth: 10000000kbps

Maximum Transmit Unit: 1500

Internet protocol processing: disabled

IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 3822-d686-f104

IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 3822-d686-f104

Media type is optical fiber, Port hardware type is 10G_BASE_SR_SFP

Port priority: 2

Loopback is not set

10Gbps-speed mode, full-duplex mode

Last clearing of counters: Never

Ethernet port mode: LAN

 Peak value of input: 841808630 bytes/sec, at 2014-05-27 15:52:42

 Peak value of output: 554625950 bytes/sec, at 2014-05-28 03:38:38

 Last 300 seconds input:  48680 packets/sec 21092930 bytes/sec 2%

 Last 300 seconds output:  52080 packets/sec 33332610 bytes/sec 3%

 Input (total):  97729359314 packets, 63655956072038 bytes

         97726935204 unicasts, 2 broadcasts, 2424089 multicasts, - pauses

 Input (normal):  97729359295 packets, 63655956063178 bytes

         97726935204 unicasts, 2 broadcasts, 2424089 multicasts, 0 pauses

 Input:  310725 input errors, 0 runts, 0 giants, 0 throttles

         19 CRC, 0 frame, 310706 overruns, - aborts

         - ignored, - parity errors

 Output (total): 71345708434 packets, 44140292463570 bytes

         71343294485 unicasts, 6 broadcasts, 2413943 multicasts, - pauses

 Output (normal): 71345708434 packets, 44140292463570 bytes

         71343294485 unicasts, 6 broadcasts, 2413943 multicasts, 0 pauses

 Output: 0 output errors, - underruns, - buffer failures

         0 aborts, 0 deferred, 0 collisions, 0 late collisions

         - lost carrier, - no carrier

[Sysname] display interface ten-gigabitEthernet9/0/2

Ten-GigabitEthernet9/0/2

Current state: UP

Line protocol state: UP

Description: Ten-GigabitEthernet9/0/2 Interface

Bandwidth: 10000000kbps

Maximum Transmit Unit: 1500

Internet protocol processing: disabled

IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 3822-d686-f104

IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 3822-d686-f104

Media type is optical fiber, Port hardware type is 10G_BASE_SR_SFP

Port priority: 2

Loopback is not set

10Gbps-speed mode, full-duplex mode

Last clearing of counters: Never

Ethernet port mode: LAN

 Peak value of input: 841808630 bytes/sec, at 2014-05-27 15:52:42

 Peak value of output: 554625950 bytes/sec, at 2014-05-28 03:38:38

 Last 300 seconds input:  70770 packets/sec 33576640 bytes/sec 3%

 Last 300 seconds output:  72470 packets/sec 55305930 bytes/sec 5%

 Input (total):  98328093731 packets, 63907821689032 bytes

         98325667167 unicasts, 2 broadcasts, 2426543 multicasts, - pauses

 Input (normal):  98328093712 packets, 63907821680172 bytes

         98325667167 unicasts, 2 broadcasts, 2426543 multicasts, 0 pauses

 Input:  321168 input errors, 0 runts, 0 giants, 0 throttles

         19 CRC, 0 frame, 321149 overruns, - aborts

         - ignored, - parity errors

 Output (total): 71970434250 packets, 44556530752723 bytes

         71968017860 unicasts, 6 broadcasts, 2416384 multicasts, - pauses

 Output (normal): 71970434250 packets, 44556530752723 bytes

         71968017860 unicasts, 6 broadcasts, 2416384 multicasts, 0 pauses

 Output: 0 output errors, - underruns, - buffer failures

         0 aborts, 0 deferred, 0 collisions, 0 late collisions

         - lost carrier, - no carrier

(2)     如果仍然无法确认,请将故障信息发送技术支持人员分析。

3. 端口入方向出现giants错包且计数持续增加

(1)     检查两端的jumbo配置是否一致,如jumbo是否使能,端口默认的最大报文长度是否一致,允许最大报文长度是否一致。

(2)     如果仍然无法确认,请将故障信息发送技术支持人员分析。

4. 端口出方向出现错包且计数持续增加

(1)     检查端口是否配置为半双工模式,如为半双工,请更改为全双工模式。

(2)     如果仍然无法确认,请将故障信息发送技术支持人员分析。

8.2  端口无法up

8.2.1  故障描述

端口无法正常up。

8.2.2  故障处理步骤

1. 端口无法up

(1)     测试端口之间网线、光纤链路是否正常,光纤两端的发送/接收端是否错连;更换端口之间的网线、光纤或将网线、光纤放到别的正常端口,以确认是否中间传输链路故障。

(2)     通过display interface命令查看端口状态是否为UP,如果不是,请使用undo shutdown命令激活相应的以太网端口。

(3)     检查本端、对端端口配置是否正确,如端口是否shutdown,速率、双工、协商模式、MDI是否正确。

[Sysname] display current-configuration interface Ten-gigabitethernet 6/0/1

#

interface Ten-GigabitEthernet6/0/1

 port link-mode bridge

 port link-type trunk

 port trunk permit vlan 1 3102

 port link-aggregation group 1

#

return

说明

·     光类型接口和位于CSPEX-1204单板上的MIC-GP4L子卡的电口不支持半双工状态。

·     位于CSPEX-1204单板上的以太网MIC子卡的接口仅支持配置接口速率为1000Mbps。

·     当PIC-GP10L子卡的光口与以太网MIC子卡或千兆以太网CSPC单板(如CSPC-GP48LB)的光口直连时,如果配置一端接口速率为1000,另一端的速率请配置为auto。

 

(4)     如端口使用光模块,请检查两端光模块类型是否一致,如速率、波长、单模多模状态等;与正常的光模块交叉更换,并参照8.5  光模块故障排除是否为光模块故障导致。

[Sysname] display transceiver interface Ten-gigabitethernet 2/9/0/1

Ten-GigabitEthernet2/9/0/1 transceiver information:

  Transceiver Type              : 10G_BASE_SR_SFP

  Connector Type                : LC

  Wavelength(nm)                : 850

  Transfer Distance(km)         : 80(50um),20(62.5um),300(om3)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

  Ordering Name                 : SFP-XG-SX-MM850-A

(5)     如端口为WAN口。请检查WAN口的速率是否与光模块匹配,如果不匹配,请更换。

(6)     如确认为光模块故障,请更换光模块,并将故障信息发送技术支持人员分析。

8.3  端口由up变成down

8.3.1  故障描述

端口状态由up变成down。

8.3.2  故障处理步骤

(1)     查看本设备及对端设备日志,确认有无端口shutdown操作。

(2)     查看两端端口状态,确认是否为协议异常或在线诊断模块检测到异常将端口shutdown。如这里的GE2/6/0/1端口出现“Protect DOWN”,是由于hardware-failure-detection配置为isolate级别,当设备在线诊断模块检测到端口故障时,将端口shutdown隔离,以便流量切换到备份链路。请将故障信息发送技术支持人员分析。

[Sysname] display interface gigabitethernet2/6/0/1

GigabitEthernet2/6/0/1

current state: Protect DOWN

Line protocol current state: DOWN

IP Packet Frame Type: PKTFMT_ETHNT_2, Hardware Address: 0000-e80d-c000

Description: GigabitEthernet2/6/0/1 Interface

Loopback is not set

Media type is optical fiber, Port hardware type is 1000_BASE_SX_SFP

Unknown-speed mode, unknown-duplex mode

Link speed type is autonegotiation, link duplex type is autonegotiation

Flow-control is not enabled

The Maximum Frame Length is 9216

 ……

(3)     参照8.2  端口无法up,排查两端端口配置,网线、光模块、光纤等链路是否正常。

(4)     如仍无法确认,请搜集本端、对端设备信息,并将信息发送技术支持人员分析。

8.4  端口频繁up/down

8.4.1  故障描述

端口频繁up/down。

8.4.2  故障处理步骤

(1)     对于光口,请参照8.5  光模块故障确认光模块是否异常。查看光模块alarm信息来排查两端光模块以及中间光纤问题;对于支持诊断功能的光模块可以通过查看diagnosis信息确认光模块的光功率是否处于上下门限临界值。如发送光功率处于临界值,请更换光纤、光模块做交叉验证;如接收光功率处于临界值,请排查对端光模块及中间光纤链路。

(2)     对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率和双工模式。

(3)     对于WAN口,请检查两端时钟是否配置,需在主控板有时钟扣板的一端配置为Master,另一端配置为slave

(4)     如果故障依然存在,请排查链路、对端设备、中间设备。

(5)     如仍无法确认,请将故障信息发送技术支持人员分析。

8.5  光模块故障

8.5.1  故障描述

安装光模块的接口不能正常工作。

8.5.2  故障处理步骤

(1)     检查光模块Alarm告警信息。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。

<Sysname> display transceiver alarm interface GigabitEthernet 2/0/1

GigabitEthernet2/0/1 transceiver current alarm information:

  TX fault

  RX power high

表8-1 光模块告警信息说明

字段

描述

SFP/SFP+/CFP/QSFP+

RX loss of signal

接收信号丢失

RX power high

接收光功率高告警

RX power low

接收光功率低告警

TX fault

发送错误

TX bias high

偏置电流高告警

TX bias low

偏置电流低告警

TX power high

发送光功率高告警

TX power low

发送光功率低告警

Temp high

温度高告警

Temp low

温度低告警

Voltage high

电压高告警

Voltage low

电压低告警

Transceiver info I/O error

模块信息读写错误

Transceiver info checksum error

模块信息校验和错误

Transceiver type and port configuration mismatch

模块类型和端口配置不匹配

Transceiver type not supported by port hardware

端口不支持该模块类型

XFP

RX loss of signal

接收信号丢失

RX not ready

接收状态未就绪

RX CDR loss of lock

RX CDR时钟失锁

RX power high

接收光功率高告警

RX power low

接收光功率低告警

TX not ready

发送状态未就绪

TX fault

发送错误

TX CDR loss of lock

TX CDR时钟失锁

TX bias high

偏置电流高告警

TX bias low

偏置电流低告警

TX power high

发送光功率高告警

TX power low

发送光功率低告警

Module not ready

模块状态未就绪

APD supply fault

APD(Avalanche Photo Diode,雪崩光电二极管)错误

TEC fault

TEC(Thermoelectric Cooler,热电冷却器)错误

Wavelength unlocked

光信号波长失锁

Temp high

温度高告警

Temp low

温度低告警

Voltage high

电压高告警

Voltage low

电压低告警

Transceiver info I/O error

模块信息读写错误

Transceiver info checksum error

模块信息校验错误

Transceiver type and port configuration mismatch

模块类型和端口配置不匹配

Transceiver type not supported by port hardware

端口不支持该模块类型

 

(2)     检查光模块的接收、发送光功率是否正常(即在该光模块的光功率上下门限值之内)。

对于H3C定制且支持诊断功能的光模块,可以通过命令行查询光模块的接收、发送光功率是否超出其上下门限值;其他光模块可以使用同样命令尝试查询,但有可能查询不到。

a.     查看光模块的电子标签信息,Verdor Name显示为H3C表示是H3C定制光模块。

<Sysname> display transceiver manuinfo interface Ten-gigabitethernet 1/2/0/15

Ten-GigabitEthernet1/2/0/15 transceiver manufacture information:

  Manu. Serial Number : 213410A0000054000251

  Manufacturing Date  : 2012-10-26

  Vendor Name         : H3C

b.     通过下述命令确认光模块是否支持诊断功能,Digital Diagnostic MonitoringYES表示支持诊断功能。

<Sysname> display transceiver interface

Ten-GigabitEthernet1/2/0/15 transceiver information:

  Transceiver Type              : 10G_BASE_LR_XFP

  Connector Type                : LC

  Wavelength(nm)                : 1310

  Transfer Distance(km)         : 10(SMF)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C.

c.     通过命令display transceiver diagnosis interface查询光模块的实时接收、发送光功率。

<Sysname> display transceiver diagnosis interface

Ten-GigabitEthernet1/2/0/15 transceiver diagnostic information:

  Current diagnostic parameters:

    Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM)

    41         3.26        42.43     -40.00         -2.20

d.     通过display transceiver interface display transceiver diagnosis interface命令查询光模块的接收发送光功率的上下门限值。

有可能出现通过这两个命令行都可以查询、且查询出来的接收发送光功率上下门限值存在差异的情况,此时请以范围最小的上下门限值为准。

display transceiver diagnosis interface命令还可以查询实时的接收发送光功率、温度及其上下门限值、电压及其上下门限值、偏置电流及其上下门限值,命令行中Current diagnostic parameters下数据表示光模块当前的温度、电压、偏置电流、接收光功率、发送光功率,Alarm thresholdsHighLow数据表示温度、电压、偏置电流、接收光功率、发送光功率的上下门限值。

<Sysname> display transceiver interface Ten-GigabitEthernet 1/2/0/15

Ten-GigabitEthernet1/2/0/15 transceiver information:

  Transceiver Type              : 10G_BASE_SR_SFP

  Connector Type                : LC

  Wavelength(nm)                : 850

  Transfer Distance(km)         : 80(50um),20(62.5um),300(om3)

  Digital Diagnostic Monitoring : YES

  Vendor Name                   : H3C

  Ordering Name                 : SFP-XG-SX-MM850-A

<Sysname> display transceiver diagnosis interface Ten-GigabitEthernet 1/2/0/15

Ten-GigabitEthernet1/2/0/15 transceiver diagnostic information:

  Current diagnostic parameters:

    Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM

    43         3.35        46.33     -3.60          -2.38

  Alarm thresholds:

          Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBM)  TX power(dBM

    High  73         3.80        92.40     2.50           3.50

    Low   -3         2.81        1.00      -16.40         -11.20

  Parameters when first used on N/A:

    Temp.(°C) Voltage(V)  Bias(mA)  RX power(dBm)  TX power(dBm)

    N/A        N/A         N/A       N/A            N/A

  Total account of alarms: 0

  Latest occurrence of different alarms:

    Type       Date           Description

    Temp.      N/A            N/A

    Voltage    N/A            N/A

    Bias       N/A            N/A

    RX power   N/A            N/A

    TX power   N/A            N/A

    TX         N/A            N/A

    RX         N/A            N/A

    Others     N/A            N/A

  Latest three alarms:

    Date           Description

    N/A            N/A

    N/A            N/A

    N/A            N/A

(3)     对怀疑故障的光模块进行交叉验证,如更换端口、与正常的光模块互换,确认是光模块本身故障还是相邻设备或中间链路故障。

(4)     如仍无法确认,请将故障信息发送技术支持人员分析。

建议尽量使用H3C定制光模块。可通过display transceiver manuinfo命令来查询光模块的定制厂商信息,如果Vendor Name为H3C,说明是H3C定制光模块。

8.6  端口不可见

8.6.1  故障描述

端口不可见。

8.6.2  故障处理步骤

(1)     通过display device查看所在单板或子卡的状态,有可能是单板或子卡还处于启动状态,需保证单板和子卡状态为NORMAL。

<Sysname> display device

Slot No. Brd Type         Brd Status   Software Version

 0       CSR05SRP1L3      Master       CR16000-CMW710-R7153

 1       CSR05SRP1L3      Standby      NONE

 2       CSPC-XP8LB       Normal       CR16000-CMW710-R7153

 3       CMPE-1104        Normal       CR16000-CMW710-R7153

   Sub1  MIC-SP4L         Normal

   Sub2  MIC-SP4L         Normal

   Sub3  MIC-CLP2L        Normal

   Sub4  MIC-GP4L         Normal

 4       CSPC-XP8LB       Normal       CR16000-CMW710-R7153

 5       NONE             Absent       NONE

 6       CSFC-04D         Normal       CR16000-CMW710-R7153

 7       NONE             Absent       NONE

 8       NONE             Absent       NONE

 9       NONE             Absent       NONE

(2)     如果单板或子卡已经恢复配置,再查看当前的接口信息中是否有目标端口。

<Sysname> display interface brief

Brief information on interface(s) under route mode:

Link: ADM - administratively down; Stby - standby

Protocol: (s) - spoofing

Interface            Link Protocol Main IP         Description

GE5/1/1              DOWN DOWN     --

GE5/1/1.1            DOWN DOWN     110.0.1.1

GE5/1/1.2            DOWN DOWN     110.0.2.1

GE5/1/1.3            DOWN DOWN     110.0.3.1

GE5/1/1.4            DOWN DOWN     110.0.4.1

GE5/1/1.5            DOWN DOWN     110.0.5.1

GE5/1/1.6            DOWN DOWN     110.0.6.1

GE5/1/1.7            DOWN DOWN     110.0.7.1

GE5/1/1.8            DOWN DOWN     110.0.8.1

GE5/1/1.9            DOWN DOWN     110.0.9.1

GE5/1/1.10           DOWN DOWN     110.0.10.1

GE5/1/1.11           DOWN DOWN     110.0.11.1

GE5/1/1.12           DOWN DOWN     110.0.12.1

GE5/1/1.13           DOWN DOWN     110.0.13.1

(3)     如查不到端口,有可能是还在配置恢复过程中,需耐心等待一段时间,如过了较长时间后问题仍没有消除,请将故障信息发送技术支持人员分析。

8.7  WAN口协议不up

8.7.1  故障描述

WAN口物理链路能up,但协议不up

8.7.2  故障处理步骤

(1)     检查WAN口两端配置协议是否一致。如果不一致,需配置成相同的协议。

(2)     通过display interface查看两端端口上是否有错包,两端端口配置是否一致。如果有错包计数,请检查下光模块是否和该端口匹配,检查光纤和光模块是否良好。如果两端端口的配置不一致,请配置成一致。

(3)     如仍无法解决,请将故障信息发送技术支持人员分析

8.8  WAN口打印告警信息

8.8.1  故障描述

WAN口打印告警信息,如:

H3C WAN/4/ALARM: -MDC=1-Slot=5;

 Cpos5/1/1 : Path 1 Alarm AIS report! Start Time : 2014-04-04 11:40:53:533!

H3C WAN/4/ALARM: -MDC=1-Slot=5;

 Cpos5/1/1 : Path 1 Alarm AIS recover! Start Time : 2014-04-04 11:41:09:769!

8.8.2  故障处理步骤

1. 请检查光模块是否和该端口匹配,检查光纤和光模块是否良好。检查两端端口的配置是否配置一致

(1)     光模块故障定位,请参见“8.5  光模块故障”。

(2)     根据定位信息,参照用户日志手册,尝试告警恢复

2. 检查光纤是否正常

首先要确定光纤与光模块是否匹配。如果不匹配,可通过更换光纤来检查故障是否排除,关于光纤的具体描述请参见产品的安装手册。

3. 如仍无法确认,请将故障信息发送技术支持人员分析

如果上述检查完成后故障仍无法排除,可通过display diagnostic-information命令收集设备的diagnostic-information,联系H3C的技术支持工程师。

<H3C> display diagnostic-information

Save or display diagnostic information (Y=save, N=display)? [Y/N]:Y

8.9  故障诊断命令

命令

说明

display current-configuration

显示设备当前生效的配置,指定interface可以显示指定接口当前生效的配置

display interface

查询端口的入、出方向流量统计信息、端口状态。可查看是否存在错包及错包统计信息。

display transceiver alarm interface

显示可插拔接口模块的当前故障告警信息

display transceiver diagnosis

显示可插拔光模块的数字诊断参数的当前测量值,包括温度、电压、偏置电流、接收光功率、发送光功率

display transceiver interface

显示指定接口可插拔接口模块的主要特征参数。检查两端光模块类型是否一致,如速率、波长、单模多模状态等

display transceiver manuinfo

显示可插拔接口模块的电子标签信息。可用来查询光模块的定制厂商。

 

9 硬件转发故障

9.1  故障描述

在现网业务中,设备如果正常运行,转发通道是不会丢包的。但是如果某个时间,转发路径出现大量丢包或者直接不通的情况,需要排查内部转发通道是否出现故障。缺省情况下,路由器上已使能互连单板之间的转发通道检查功能,互连的单板之间会定时检测互连的转发通道是否正常。

·     对于CSPC单板和CMPE-1104单板可以通过display hgmonitor info命令用来显示指定槽位单板的指定芯片的转发通道检测记录。

如设备转发链路异常,则显示信息中会有Link状态为down的记录,例如:

[Sysname-probe] display hgmonitor info 4 0

  Link status change notice event:

  Unit    Port    Link    Clock                         Number

   0       hg0    up      08:08:03:755732 11/12/2014    1

   0       hg0    down    09:22:23:977918 11/12/2014    2

   0       hg1    up      08:12:19:398227 11/12/2014    1

   0       hg2    up      08:08:05:465720 11/12/2014    1

   0       hg3    up      08:12:21:391922 11/12/2014    1

可以通过查看Link状态为down的时间是否为发生故障的时间,如果时间一样则表示互连链路出现了故障。

·     对于CSPE-1204单板可以通过display hardware internal forward fpga counter命令用来显示CSPE-1204单板的转发通道检测记录。

如设备转发链路异常,则显示信息中HG部分会有HG端口状态为down的状态,例如:

[Sysname-probe] display hardware internal forward fpga counter slot 3

……

5 HG

--------------------------------------------------------------------------------

-------------------------

      Value(HEX)           Value(DEC)     |  Address   |             Description

--------------------------------------------------------------------------------

-------------------------

 0x0                 0                    | 0x005D0003 | SEND: HG_0 (DOWN)

 OUT

 0x0                 0                    | 0x00610003 | SEND: HG_1 (UP)

 OUT

 0x0                 0                    | 0x00650003 | SEND: HG_2 (DOWN)

 OUT

 0x0                 0                    | 0x00690003 | SEND: HG_3 (UP)

 OUT

--------------------------------------------------------------------------------

-------------------------

 0x0                 0                    | 0x005D0005 | RECV: HG_0 (DOWN)

 IN

 0x0                 0                    | 0x00610005 | RECV: HG_1 (UP)

 IN

 0x0                 0                    | 0x00650005 | RECV: HG_2 (DOWN)

 IN

 0xA27               2599                 | 0x00690005 | RECV: HG_3 (UP)

 IN

--------------------------------------------------------------------------------

-------------------------

……

9.2  故障处理步骤

由于主控板和交换网板分离,交换网板负责业务流量转发,流量在多块交换网板之间负载分担,而主控板仅负责控制管理,不参与业务流量转发。

(1)     CR16006-F路由器上使用的是交换网板型号为CSFC-04-1、CSFC-04-2、CSFC-04-3和CSFC-04-4,请直接联系技术支持人员;

(2)     如果流量的入端口和出端口在同一CSPC单板或CMPE-1104单板上,请直接联系技术支持人员;

(3)     如果流量的入端口和出端口在同一CSPEX-1204单板上或者流量的入端口和出端口不在同一单板上,请在probe视图下执行fabric-disable命令逐块隔离交换网板(确保交换网板数量大于等于1,且不能只剩余第二块交换网板),观察交换网板隔离后故障是否消失。以CR16010-F为例说明网板隔离步骤,其中1013槽位为交换网板:

a.     隔离10号槽位交换网板,隔离后等待一段时间(大约等待1分钟),观察故障是否消失。

b.     执行undo fabric-disable命令取消10号槽位交换网板隔离,待网板重启Normal后,再等待一段时间(大约等待3分钟以上),隔离11槽位网板并观察故障是否消失。

c.     按照上面的方法,依次隔离12~13槽位网板,直到所有网板隔离确认一遍。

(4)     如果隔离某块交换网板后故障消失,说明该交换网板故障;如果所有交换网板隔离一遍后故障仍存在,那么应该为接口板故障导致,建议将该接口板上的业务转移到其他接口板之后再通过单板隔离或更换接口板的方式进一步确认。

(5)     如仍还无法排查,请直接联系技术支持人员。

 

不同款型规格的资料略有差异, 详细信息请向具体销售和400咨询。H3C保留在没有任何通知或提示的情况下对资料内容进行修改的权利!

新华三官网
联系我们