S系列框式交换机(S75/S75E/S85)

S系列框式核心交换机是面向下一代IP城域网、大型园区网推出的新一代T比特运营级模块化核心交换机。
通用
{{sendMatomoQuery("S系列框式交换机(S75/S75E/S85)","S框式交换机故障排查指导")}}

S框式交换机故障排查指导

更新时间:2024-04-08

1故障排查

1.1故障处理注意事项

所有设备上电,必须先检查相关HG通道和管理通道,主控、备控、线卡都需要进行检查。

出现故障时,请尽可能全面、详细的记录现场信息,信息收集越全面、越详细,越有利于故障的快速定位。

更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全

故障处理过程中如需更换硬件部件,请参考与软件版本对应的版本说明书,确保新硬件部件和软件版本的兼容性。

因有些信息的查看权限需要进入诊断模式,以下是进入诊断模式的命令。

diagnosis 4100:DD2F:DA6B:AC22:9335:8C29:F4CE:DA44   //进入诊断模式

1.2故障反馈

所有故障都需收集:show versionshow version allshow runshow oir、现场拓扑信息、以及现场操作记录。

故障现象详细描述——例:我插拔了光纤、删除了哪些命令、输入了哪些命令、设备出现了某些打印后等,然后设备就重启了。

出现问题时间——例:刚上电的项目设备刚上电就出现、设备稳定运行了一段时间后出现、每隔五分钟出现一次等。

影响范围——例:单个用户、某个网段的用户、某张线卡下挂的业务、还是全部用户等

完整的拓扑——包括组网图、端口连接关系、故障位置等。

收集设备的日志信息:

某些硬件故障需要拍照记录设备故障时主控、线卡、SFU、电源、风扇的指示灯状态。现场故障时的处理措施(比如配置操作、插拔线缆、debug信息、抓取的报文、重启设备等)及实施后的现象效果。

某些故障还需要抓取正常时的报文或者状态信息与故障时的进行对比。

1.3收集设备日志信息

1.3.1logging buffered 

交换机默认不开启log日志,且设备重启前的日志信息无法保存。若有需要开启日志记录,请按要求配置上以下俩条命令:

logging on //开启日志记录功能

logging buffered XXX  //设置日志Buffer大小,若不设置buffer则无法记录

根据现场内存多少,配置合适的大小。在1G的内存上,可配置4M

logging buffered 4*1024*1024

1.3.2rawlog 

show rawlog     //rawlog能记录上次重启前的信息,此命令需要在诊断模式下执行(diagnosis 4100:DD2F:DA6B:AC22:9335:8C29:F4CE:DA44   //进入诊断模式)

具体操作见以下:

show rawlog ?时会显示以下信息

record_num:8,index:1,cur_index:1, info size:80000

valid record:2, max_record_num:8,min_record_num:7

所以收集时要收集 show rawlog 7 show rawlog 8

如果有7 8 9 10,那么7 8 9 10 都需要收集。比如是如下显示:

valid record:4, max_record_num:10,min_record_num:7

 

1.4用户名密码遗忘

1.4.1明文密码恢复

一、在条件允许的情况下重启交换机,在交换机重启的过程中一直不停的按crtl+p,设备将进入monitor# 模式,在monitor# 模式下输入 more startup-config

二、 输入以上命令后,可以查看当前交换机保存的配置,在该配置中查找一条username XXX password 0 XXX的命令,该命令就是关于交换机密码和用户名的配置命令。

三、输入reboot重启交换机,等重启完成输入上面查询到的用户名密码即可正常登陆交换机

1.4.2密文密码恢复

由于有的客户对安全的要求都比较高,一般会配置密文密码。这时可以在交换机上配置一条命令对之前配置的用户名和密码进行加密。

Switch_config#service password-encryption //对系统中的密码进行加密

一、在条件允许的情况下重启交换机,在交换机重启的过程中一直不停的按crtl+p,让设备进入monitor#模式,在monitor#模式下输入more startup-config

二、将more startup-config打印出来的所有信息复制(若底部出现--more--信息,说明底部还有信息未打印完,按空格可以打印将他们打印完),然后粘贴到一个txt文档中。在复制出来的配置中找到一条username XXX password 7 XXX,把这条命令删除掉。

三、此时我们设备还处在monitor#模式,在此模式下输入delete startup-config即可将交换机的配置删除。

四、输入reboot重启交换机,等重启完成,不需要输入用户名密码即可登陆交换机。将刚才粘贴到txt文档中的配置进行复制,然后进入交换机config#模式下,粘贴即可恢复之前的配置,然后可以自行配置用户名密码。(配置用户名密码的命令为:username XXX password XXX

1.5恢复出厂设置

进入设备在enable模式或者monitor模式下输入dir

例:startup-config为全局配置文件,bvss-config为堆叠配置文件,根据需要进行删除。

1.5.1记得设备用户名和密码

设备特权模式下:

Switch#delete startup-config(删除全局配置文件)

Switch#delete bvss-config(删除堆叠配置文件)

输入完以后根据提示输入Y,然后断电重启设备即可恢复设备出厂设置。

1.5.2忘记设备用户名和密码

在现场条件允许的情况下重启设备,在设备重启的过程中一直不停的按着ctrl+p让设备进入monitor模式,在monitor模式下输入:

monitor#delete startup-config(删除全局配置文件)

monitor#delete bvss-config(删除堆叠配置文件)

输入完以后根据提示输入Y,然后断电重启设备即可恢复设备出厂设置。

1.6硬件故障

1.6.1HG故障

1.6.1.1S75系列

请参考相关线速表进行对比

例:在S7506M6主控(单主控)、4万兆线卡的环境中。

Switch#show oir         //查看已注册的线卡以及槽位号

Slot 3 type LS_4TE_MPLS_L_CARD(present)

Switch#

Switch#diagnosis 4100:DD2F:DA6B:AC22:9335:8C29:F4CE:DA44        //进入诊断模式

Switch(D)#broadcom  vty         //进入芯片模式

BCM.0> ps hg            //查看hg通道up的数量

           ena/  speed/ link auto    STP                  lrn  inter   max  loop

      port link  duplex scan neg?   state   pause  discrd ops   face frame  back

       hg0  down    -      SW  Yes  Forward          None    F   GMII 16360      

       hg1  down    -      SW  Yes  Forward          None    F   GMII 16360      

       hg2  up    16G FD   SW  Yes  Forward          None    F  XGMII 16360      

       hg3  down    -      SW  Yes  Forward          None    F   GMII 16360      

       hg4  down    -      SW  Yes  Forward          None    F   GMII 16360      

       hg5  up    16G FD   SW  Yes  Forward          None    F  XGMII 16360      

       hg6  down    -      SW  Yes  Forward          None    F   GMII 16360      

       hg7  down    -      SW  Yes  Forward          None    F   GMII 16360      

       hg8  down    -      SW  Yes  Forward          None    F   GMII 16360      

       hg9  down    -      SW  Yes  Forward          None    F   GMII 16360      

      hg10  down    -      SW  Yes  Forward          None    F   GMII 16360      

      hg11  down    -      SW  Yes  Forward          None    F   GMII 16360      

      hg12  down    -      SW  Yes  Forward          None    F   GMII 16360      

      hg13  down    -      SW  Yes  Forward          None    F   GMII 16360      

      hg14  down    -      SW  Yes  Forward          None    F   GMII 16360      

      hg15  down    -      SW  Yes  Forward          None    F   GMII 16360      

BCM.0> exit

Switch(D)#

依照线速表,主控应有2HG通道up,故此为正常的状态。若是双主控,还需登陆到备控根据以上方法查看相关HG通道Up的数量。

Switch(D)#through-pass slot 3       //登陆到3槽位的线卡

Slot3#diagnosis 4100:DD2F:DA6B:AC22:9335:8C29:F4CE:DA44     //进入诊断模式

Slot3(D)#broadcom vty       //进入芯片模式

BCM.0> ps hg            //查看hg通道up的数量

           ena/  speed/ link auto    STP                  lrn  inter   max  loop

      port link  duplex scan neg?   state   pause  discrd ops   face frame  back

       hg0  down    -      SW  Yes  Forward          None   FA  XGMII 16360      

       hg1  up    16G FD   SW  Yes  Forward          None   FA  XGMII 16360      

       hg2  down    -      SW  Yes  Forward          None   FA  XGMII 16360      

       hg3  up    16G FD   SW  Yes  Forward          None   FA  XGMII 16360      

BCM.0> exit

Slot3(D)#

依照线速表,在单主控模式下,HG通道up2个为正常,若是双主控模式,根据线速表,此时HG端口应全部up且协商速率正常。

若现场出现HG通道up的数量不对,请按照以下步骤排查。

例:3槽位插B线卡,4槽位插A线卡,线卡类型都为12万兆线卡。

一、发现4槽位的A线卡,HG通道up的数量不对,但是3槽位同类型的B线卡上的HG通道up的数量正确。

那么将4槽位A线卡对调到3槽位,3槽位B线卡对调到4槽位(此时应是4槽位B线卡,3槽位A线卡),待线卡在主控注册上且正常工作后再进行查看hg通道。

若现象是3槽位A线卡的HG通道up数量不对,则是此线卡故障,需要维修。

若现象是4槽位B线卡的HG通道up数量不对,则往下第二步。

二、若此时主控为5槽位,那么将主控对调到6槽位,待机器正常工作后继续查看相关HG通道。

若现象为HG通道up数量正确,则是机框5槽位有问题,需要更换机框

若现象为HG通道up数量不正确,则往下第三步

三、若现场还有一台相同型号的机框B、主控和线卡,且相关HG通道up数量正确,将俩台机框上的主控对调。

若在机框B上现象为HG通道up数量正确,则是机框A故障,需要维修。

若在机框B上现象为HG通道up数量不正确,则是主控故障,需要维修。

1.6.1.2S85系列

S85系列如何诊断HG是否正常,排查时请拧紧SFU和线卡的螺丝,螺丝不拧紧会出现有的HG不能up

slot 7: hg-info :

 num     unit    port    rslot   runit   rport   status

 1       0       57      23      0       16      OK      

 2       0       58      23      0       15      OK      

 3       0       59      23      0       14      l(D)r(D)

 4       0       60      23      0       13      OK   

 lDrD)反应的是本地、远端SFU的状态,表示HGdown的,属故障状态。

现场使用HG诊断查看HG状态时,注意使用只要配置link-diagnostic enable all,不要去配置link-diagnostic enable all isolation-enable

 因为link-diagnostic enable all isolation-enable的隔离功能和系统软件设计、冗错性相关,不建议默认配置;需分析诊断结果后,由研发来建议

 单机情况下配置link-diagnostic enable all

 堆叠情况下配置如下

link-diagnostic chassis 1 enable all //开启成员1背板端口检测

link-diagnostic chassis 2 enable all //开启成员2背板端口检测

注:开启背板端口检查完HG后,必须将相关命令关闭,以免出现故障。

相关故障定位方法保持一个变量对调线卡和SFU进行定位。

1.6.2风扇故障

1.6.2.1S75系列

通过show fan 进行查看是否有风扇处于故障状态:

若发现故障现象,可以将风扇拔出,看看对应的风扇是否在转,若确认不在转,则可能是风扇故障,需要维修。

注:因风扇是一整块,最好是先申请故障备件,等备件到了之后,再发回故障件维修。

1.6.2.2S85系列

同样可以根据show fan 进行查看是否有风扇处于故障状态

若发现有故障,可以拿一个小纸片进行测试定位。

然后将相关故障风扇槽位的风扇与正常风扇槽位风扇进行对换测试,进一步定位是风扇问题还是槽位问题。若是风扇问题,则需要维修。

若是槽位问题,则需要在诊断模式下进行收集show fan_infoshow memory 0xbf000020 0x30diagnosis 4100:DD2F:DA6B:AC22:9335:8C29:F4CE:DA44   //进入诊断模式)

若故障为某个风扇的风力和其余风扇的风力不一致,使用小纸片在每个风扇下进行测试,此信息需要录制视频确认。

1.7电源风扇故障

用手靠近电源的风扇进行感受风力,若无风力,则是电源风扇故障,需要更换电源,否则会导致电源烧坏的风险。

1.8备控一直重启

1.8.1增加新备控时导致

检查新加入的备控版本与当前主控运行的版本是否一致。分别在主控和备控show version确认版本。

1.8.2升级版本后导致

检查升级后的版本文件大小是否和源文件大小一致。分别在主控和备控执行dir命令确认。

1.8.3新建项目出现

1.8.3.1S75系列

在诊断模式下

配置debug redu dont     //禁止重启

show break  在重启的那块MSU收集

以下信息主备控都收集

show ctrlrelay physical-channel(查看相关硬件通道报文收发统计)每隔30S左右收集一次,收集三次

end_status 1(查看主备控之间的相关收发包情况)每隔30S左右收集一次,收集三次

show redundancy switchover

show redundancy states

show redundancy clients

show redundancy diagnose

show redundancy history

1.8.3.2S85系列

在诊断模式下

配置debug redu dont     //禁止重启

以下信息主备控都收集

show redundancy switchover

show redundancy states

show redundancy clients

show redundancy diagnose

show redundancy history

1.9线卡在主控上无法注册

1.9.1S75系列

故障现象:如下例,在主控show oir 槽位1 插了线卡,但是状态显示(absent ABSENT)为没在主控上注册,或Slot 3 有插线卡,但是show oir 没有显示slot 3的线卡型号

Switch#show oir

Slot 1 type LS_4TE_MPLS_L_CARD(absent ABSENT)

Slot 2 type LS_12GE_COMB_CARD(present)

Slot 4 type LS_12GE_COMB_CARD(present)

在主控的诊断模式下

show ctrlrelay physical-channel(查看相关硬件通道报文收发统计)每隔30S左右收集一次,收集三次

在线卡上插上console进行热插拔收集重启的打印信息。注:若是在正常运行的过程中出现的线卡不在位,请不要热插拔线卡,以免造成无法复现故障,请直接跳到定位具体故障点方法开始排查。

如果线卡打印到

physical channel X change state to up

physical channel X change state to up

三分钟左右都没有继续往下打印,则按ctrlp键进入monitor

然后收集show ctrlrelay physical-channel 每隔30S左右收集一次,收集三次。

接着在能正常在主控上注册的线卡槽位进行对调故障线卡,然后观察现象以及上面的操作以确定是否为线卡故障。

定位具体故障点方法:

下载目前主控版本的map文件找到interface_hind_internal这个变量的内存值

然后在主控的诊断模式下将该内存值修改成0x00000000,例:chram 0x0223a084 0x00000000

在诊断模式下show int b 可以看到CX/X端口,看到相关Up的端口,将每个Up的端口多次收集 show int communication X/X (每隔30S左右收集一次,收集三次),以及每个up的端口收集bcm_statics X 例:如果是c5/2端口up,那么应该收集bcm_statics 3(每隔30S左右收集一次,收集三次)

show int communication X/X      //具体看GPL-DRVDRV-GPL的统计是否在增加,若是没有一直增加,此处定位为软件故障,请联系service

bcm_statics X       //具体看receivedtransmited的统计,若是没有一直在增加,此处定位为硬件故障,请将收集的相关信息反馈给service进行确认。

1.9.2S85系列

故障现象:如下例,在主控show oir 槽位6 插了线卡,但是状态显示(absent ABSENT)为没在主控上注册,或Slot 3 有插线卡,但是show oir 没有显示slot 3的线卡型号(SFU如果在主控无法主控,相关故障现象与线卡的一致)

Switch#show oir-information

Slot 6 type S85-LC-8QS(absent ABSENT)

Slot 7 type S85-LC-48TS(present)

Slot 21 type S85-SFC-M2(present)

Slot 22 type S85-SFC-M2(present)

Slot 23 type S85-SFC-M2(present)

进入诊断模式,然后进入芯片模式进行查看相关硬件通道

Switch(D)#broadcom  vty

BCM.0> ps       //查看相关硬件通道

BCM.0> exit     //退出芯片模式

确认线卡因为管理通道down了导致线卡不在位,需要进行以下操作确认故障点。

将正常上线的线卡和不能正常上线的线卡槽位做对调,然后查看相关通道确认是否为线卡故障。

若还是无法定位,请将相关主控槽位做对调,确认是主控故障还是机框槽位故障。(SFU的排查方法一致)

附相关硬件通道表

线卡槽位

主控管理通道

SLOT1

ge7

SLOT2

ge6

SLOT3

ge5

SLOT4

ge4

SLOT5

ge3

SLOT6

ge2

SLOT7

ge1

SLOT8

ge0

SLOT9

ge19

SLOT10

ge18

SLOT11

ge17

SLOT12

ge16

交换板槽位

主控管理通道

SFU21

ge8和ge9

SFU22

ge10和ge11

SFU23

ge12和ge13

SFU24

ge14和ge15

1.10生成树故障

例:出现丢包或者延迟大时,多次show spanning-tree时发现根桥在变化、根端口在反复在变化、端口角色或者根桥不正确等。

收集以下信息:

show spanning-tree (多次)

show spanning-tree detail (多次)

debug spanning-tree packet

show spanning-tree interface X/X(状态变化的端口,多次)

debug spanning-tree topo-change

debug spanning-tree state

1.11Web管理页面打不开

请查看以下信息:

ip http server是否打开

能否ping通交换机

show ip sockets 查看本地80端口是否打开

进阶信息收集:

debug ip socket//是否有处理80报文

debug ip packet //看是否有80报文送来(流量很小的情况下使用)可根据实际情况进行抓包

 

1.12Console无反应

l  查看电源灯是否常亮,确保电源输入正常,查看系统灯是否闪烁

l  console线/配置线出现问题或console驱动有问题

l  尝试CTRL+X

l  尝试CTRL+Y

l  如果能telnet/ssh/through-pass,收集show task I include tty0,找到第三列TID值,show task 0x+TID值,诊断模式下,收集rawlog,及versionversion all

l  执行串口热键(执行热键会导致设备重启,先询问好客户,现场是否能断网再按照实际情况去执行)

先输入ctrl+],再输入6

注意6来自于输入ctrl+]后的日志”console info”对应的数字,需要根据实际情况变通

menu:

1       mblk

2       region

3       double count

4       half count

5       debug info

6       console info

7       rpc info

8       dbg info

1.13内存泄漏

在设备console登录界面出现如下打印时:

%MBLK-4-OVERTIME: mblk ([hex1]) alloc at pc [hex2] tick [hex3], hold for 30 minutes, maybe leak

该打印为内存泄漏打印,需收集以下信息提供给研发分析:

show version

show version all

show run

show rawlog(诊断模式下)

show mem msgb [hex1]    /*查看mblk的详细信息,hex1为日志里对应的值*/(诊断模式下)

1.14CPU利用率高

在设备的console调试界面通过命令show cpu查看设备发现值都是在80-100之间波动时,需做以下操作:

在设备的特权模式下clear task以后在show task,查看是哪个模块导致设备CPU异常高。

Switch#show task

CPU utilization for one second: 100%; one minute: 95%; five minutes: 93%

NAME ENTRY TID PRI PC Stk Ptr SP lmt ERR.NO ST invoked CPU

----------------------------------------------------------------------------

tExc 51ecc0 03bbd798 000 558800 03bbd6b8 03bbb868 3d0001 P 0 0.00

tLog 52468c 03bbae10 000 558800 03bbad38 03bb9a98 000000 P 0 0.00

bcmL 25d1b0 03b57618 128 53294c 03b57530 03b53628 3d0004 R 34 8.26

LCHG 052760 03b3b220 127 53294c 03b3b148 03b37228 3d0004 PD 3 0.00

IDLE 1b1c10 03b90d80 255 1b1c1c 03b90d28 03b90988 000000 R 10 2.27 (空闲的CPU资源)

root 01a59c 03b90768 030 536250 03b906e0 03b8c770 3d0002 S 0 0.00

_NTM 1acb30 03b8c550 055 53717c 03b8c350 03b847f8 000000 R 350 0.00 (定时器,1100次调用)

DM 12828c 03b53400 128 558800 03b531b0 03b4b6a8 000000 P 0 0.00

TLII 0fc944 03a7ced0 128 53294c 03a7cca0 03a6d178 000000 R 36 2.27

FILT 109d3c 03b78d50 128 53294c 03b78b10 03b75ff8 3d0004 P 0 0.00

TSTP 48d564 03954380 128 558800 03954110 03950628 000000 P 3 0.00

Ttrk 10c054 0394a348 128 558800 0394a0e8 039465f0 000000 P 0 0.00

Tdtx 0db9c8 03940310 128 558800 0393fa98 0393c5b8 000000 P 0 0.00

GARP 0eeee4 03936098 128 558800 03935e28 03932340 000000 P 0 0.00

GVRP 0f15a8 03929e10 128 558800 03929bb0 039260b8 000000 P 0 0.00

TPDP 06618c 03925bf8 128 558800 03925998 03921ea0 000000 P 2 0.00

UDLD 4d2364 0390a4f0 128 558800 0390a2a0 03906798 000000 P 3 0.28

BCMP 05bf20 038f3878 128 558800 038f3620 038efb20 000004 P 0 0.00

EAPS 0e57b0 038e9840 060 558800 038e95f0 038e5ae8 000000 P 3 0.00

OAM 1d73b8 038df5c8 128 558800 038df368 038db870 000000 P 0 0.00

IPFA 162b88 038db3b0 128 558800 038db120 038d7658 000000 R 16 0.28

IPSL 162a2c 038d7198 128 558800 038d6f00 038d3440 000000 R 6 0.28

MYIP 14c780 038aef20 128 558800 038aec60 038ac9c8 000000 P 0 0.00

DHSN 0d2f54 0386e518 128 558800 0386e2b8 0376e7c0 000000 P 287 56.98 DHCP-SNOOPING

IG-S 0f99f0 03767848 128 558800 037675f0 03763af0 000000 P 3 0.00

SLOG 1bc844 0365f528 128 558800 0365f250 0365b7d0 000000 P 0 0.00

_USM 4d5a8c 03655250 128 558800 03655008 036514f8 000000 P 1 0.00

TELD 4c18b4 03650fd8 128 558800 03650d58 0364ea80 3d0002 P 13 0.00

RADU 1f2ba8 03648500 128 558800 036482b0 03645fa8 000000 P 0 0.00

TAC+ 4b996c 03645a60 128 558800 03645808 03643508 000000 P 0 0.00

TMRG 472ea8 03642f38 128 53294c 03642cf0 0363f1e0 3d0004 PD 0 0.00

HTTP 13b3cc 03602978 128 558800 03602728 035ff420 000000 P 0 0.00

SNMP 43318c 035feea0 128 53717c 035feac8 035ef148 000004 D 5 0.85

THAL 0229dc 0359a3f0 128 558800 0359a118 03596698 000000 P 54 11.11 (端口统计任务、keepalive任务,CABLE_DIAGNOSTIC诊断功能,

SYSTEM_ERROR_CHECK等,动态安全和端口svl处理)

SNTP 46b644 03593e80 128 558800 03593bc8 03592128 000000 P 0 0.00

RMON 18d8c0 035903e0 128 558800 03590190 0358c688 000000 P 0 0.00

TFTP 4cbc1c 0358c0f8 128 558800 0358ba50 035883a0 000000 P 0 0.00

TFTS 4cc35c 03587ee0 128 558800 035878f0 03584188 000000 P 0 0.00

SSHD 47330c 03571a58 128 558800 03571800 03567d00 000000 P 0 0.00

CHCK 1b2350 03567800 180 53717c 035675f8 03565aa8 000000 D 0 0.00

RCVR 1b2284 0355f7c8 060 558800 0355f578 0354fa70 000000 P 0 0.00

tty0 1c06dc 0354f510 128 53717c 0354eed0 0353f7b8 3d0002 R 19 0.00

SNMT 436f70 034ffe38 128 53717c 034ffc30 034fc0e0 000000 D 0 0.00

Tty0 1c06dc 034ac8e0 128 1b2848 034abb20 0349cb88 3d0002 R 12 2.27

Tty1 1c06dc 03479278 128 558800 03478a38 03469520 3d0002 PD 6 0.28

INTR 000000 007a2858 000 000000 00000000 00000000 000000 354 15.38

 

MLDS mld-snooping ,组播

tLog vx任务

IDLE 空闲CPU资源

RCVR OS关键区域重建,CHCK或其它任务操作中出现某些错误后会激活RCVR重建

ATDT OS关键任务活性检测

bcmD 【交换】小写bcm开始的均为sdk的任务

bcmC 【交换】统计

bcmT 【交换】

bcmL 【交换】链路检测

bcmR 【交换】

L3AG 【交换】硬件cache老化检查,以后可能会取消

LCHG 【交换】快速链路状态检测

H-TX 【交换】hal,异步报文发送

RPCS 板间通信 RPC服务器

RPCC 板间通信 RPC应答处理

DM 处理端口检测出环回等error disable情况

tDca 【驱动】

THAL 【交换】hal任务,loopback检查报文发送处理等

FILT filter功能处理任务

L2T3 处理报文接收的主任务,老版本叫TLII,新版本中细分成了L2Tx,x=0/1/2/3x越大优先级越高,包括各种二三层报文处理,三层交换机中主要是ip转发、arp等处理

L2T2

L2T1

L2T0

TSTP 生成树stp

Ttrk 动态聚合lacp

Tdtx 基于端口的接入认证802.1x

GARP 通用属性注册协议garp,供gvrp使用

GVRP 动态vlan学习gvrp

UDLD udld,单向链路检测协议,检查链路单通的情况

CFMm 以太网OAM 连接故障管理 802.3ah

OAM 以太网oam

BCMP 集群管理

EAPS eaps

MEAP eaps

IPFA ip协议栈快速定时器,周期0.2

IPSL ip协议栈慢速定时器,周期0.5秒,驱动ipcache等添加硬件表、老化刷新等

MYIP ip的任务,许多芯片有关的操作均在该任务中执行,例如ipcache添加硬件表等;但exf添加硬件表是由路由任务IPRT完成的

ARPT arp定时器处理,检查arpmac地址关系、刷新硬件表等

FLOW netflow

TSFL slfow

ip6t ipv6

NDTD ndv6相关,功能等同于v4arp

net_ netIS-IS协议的网络层

NATD NAT

NATM NAT管理

DHCT DHCP相关

DHSN DHCP Snooping

DHSC DHCP client

DHSS DHCP server

IG-S igmp snooping

MLDS mld snoopingv6多播监听,等同于v4igmp-snooping

MCFF mac force forward

SLOG syslog

_USM AAA 用户管理

TELD telnet deamon

RADU radiusAAA认证协议

TAC+ tacacsAAA认证协议

IPRT 【路由】路由管理主任务

RTTM 【路由】路由定时器

RTBF 【路由】路由BFD

Rtv6 【路由】V6路由

MCRT 【路由】多播路由

PBRD 【路由】策略路由pbr

RT6L 【路由】rtv6路由线卡处理

MFC 【路由】路由多播cache管理

RNGT 【路由】RIPNG

SPF6 【路由】OSPF6

TMRG time-range管理

SNMP snmp,所有snmprequest处理都在该任务中完成

CR 85板间通信基础协议

TFRE 【驱动】85板间通信基础驱动

TSE0 【驱动】85板间通信基础驱动

TSE1 【驱动】85板间通信基础驱动

bdRx 【驱动】85板间通信基础驱动

bdTx 【驱动】85板间通信基础驱动

TCHK 【驱动】85板间通信基础驱动

LM75 【驱动】bsp任务,温度检测等

WARN 【驱动】bsp任务

_SPF 【路由】路由协议ospf

OSTM 【路由】路由协议ospf

EIGP 【路由】路由协议eigrp

EIGH 【路由】路由协议eigrp

RIPT 【路由】路由协议rip

BGPD 【路由】路由协议bgp

BFDT 【路由】路由bfd

_IGM 【路由】igmp协议

TMRG time-range管理

TTMR 【路由】多播路由定时器

PIMD 【路由】PIM-DM

PST_ 【路由】PIM-SM

ISIS 【路由】IS-IS

HTTP http

SNTP sntp简单网络时间协议

RMON rmon功能

TFTP tftp/ftp客户端

TFTS tftp服务器

FTPT ftp服务器

MLMT MPLS标签管理

MFMT mpls转发模块

LDPT LDP mpls标签分发协议

SYNC 【驱动】文件同步相关

SYNS 【驱动】文件同步相关

SYN2 【驱动】文件同步相关

GPLD 【驱动】板间通信驱动有关

SSHD SSH deamon

OIR 热插拔处理

_NTM 定时器

tty0 console口终端任务,类似的还有Ttyx,是telnet终端任务,绝大多数命令处理都在这个任务中执行

CHCK 系统关键信息检查

REDN 主备同步倒换管理

SNMK SNMP某应用

SNMT snmp报文重发定时器

INTR 【驱动】中断,非任务,仅为统计CPU占用率而列出

1.15丢包

1、所有框式设备需要配置上以下两个命令:

no spanning-tree fast-aging flush-fdb //中断设备的UP/DOWN引起STP变化,STP变化引起MAC表刷新,MAC表刷新引起ARP老化,ARP老化引起主机路由瞬间断流

arp retry-allarp    //ARP重传

2、若是有跨板卡的聚合,需要配置以下命令:

S75系列配置:mac address-table rpc trunk

S85系列配置:mac address-table rpc all

分布式设备通常有多块线卡,为了减少不必要的广播报文,需要所有单板拥有同样的MAC 地址表。开启全局的MAC 地址同步功能后,设备会将每块线卡的MAC 地址表同步到其他线卡上。当多个分布式设备组成堆叠设备时,开启全局的MAC 地址同步功能后,设备会在所有成员设备的所有线卡间进行MAC 地址表的同步。

1.15.1二层丢包

若我们作为网关,是Ping网关丢包,请在相关线卡上查看相关ARP表和debug arp delete,查看是否因为arp表删除导致。然后做ACL数据包计数定位是收还是转发有问题,然后测试是跨线卡是否丢包、同线卡是否丢包

查看相关线卡和主控的CPU和内存。

show vlan interface (进出两个端口)

show interface (进出两个端口多次)

镜像抓包,查找ARP或者ICMP报文,是否被正常收和发。

以下信息需要在诊断模式下收集(diagnosis 4100:DD2F:DA6B:AC22:9335:8C29:F4CE:DA44   //进入诊断模式)

show L2 interface X/X (多次)

debug l2 rx raw octets 64 (流量很小的情况下使用)

debug l2 tx raw octets 64 (流量很小的情况下使用)

1.15.2三层丢包

首先做ACL数据包计数定位是收还是转发有问题,然后测试是跨线卡是否丢包、同线卡是否丢包。

查看相关线卡和主控的CPU和内存。

抓包,进口和出口进行,查找ARP或者ICMP报文,是否被正常收和发

debug arp (如果学习不到ARP,则打开该DEBUG)

show vlan interface (进出两个端口)

show interface (进出两个端口  多次)

show ip route

show ip traffic (多次)

show ip route all

1.16光口无法正常UP

首先在config模式下开启ddm enable,查看一下端口的收发光情况,看看光功率的值是否在光模块接受的范围里(-40dbm表示没有收到光或者没有发光)。如果光功率正常,那么查看一下互连端口之间的速率以及双工模式是否一样,不一样请修改一致;其次。找一对在别的设备上是好的光纤和光模块拆下来对接看看,是否是因为光模块光纤任意一个出现损坏导致接口不能正常up;最后,在不能up的接口上做一下单端口自环测试看看端口是否可以正常up,如果单端口自环可以起来但是与其他设备对接不能起来,那么找一台第三方设备对接看看是否可以正常up

1.17802.1x故障

1.17.1认证异常

当设备遇到radius认证不成功时,首先需要熟悉radius认证过程,其次检查设备配置是否正确及设备与radius服务器之间的通信是否正常,最后通过debug和上联端口的抓包信息确认是否为设备问题。

需要收集的信息:

show version

show version all

show run

debug radius event

debug radius packet

debug dot1x errors

debug dot1x state

debug dot1x packet

debug aaa authentication

1.17.2认证成功后重新认证

当终端下线以后需要重新认证时,出现交换机一分钟内没有响应终端的报文,这个现象是正常的,因为我们设备在认证失败后默认沉默60s,可以通过命令修改沉默时间即可。

Switch_config#dot1x timeout quiet-period