华为MA5600 故障处理0114 系统故障处理.docx
- 文档编号:19372848
- 上传时间:2023-04-24
- 格式:DOCX
- 页数:21
- 大小:50.75KB
华为MA5600 故障处理0114 系统故障处理.docx
《华为MA5600 故障处理0114 系统故障处理.docx》由会员分享,可在线阅读,更多相关《华为MA5600 故障处理0114 系统故障处理.docx(21页珍藏版)》请在冰豆网上搜索。
华为MA5600故障处理0114系统故障处理
目录
14系统故障处理14-1
14.1故障处理流程14-2
14.1.1业务影响和防范14-2
14.1.2流程图14-2
14.1.3确认系统环境14-2
14.1.4查看指示灯状态14-3
14.1.5查看告警14-3
14.1.6根据故障类型排除故障14-3
14.2常见故障处理方法14-3
14.2.1常见故障分类和原因分析14-3
14.2.2单板无法注册14-4
14.2.3带内网管不通14-5
14.2.4主控板反复重启14-7
14.2.5倒换不成功14-7
14.3典型案例14-8
14.3.1建PVC时打开UPC参数导致用户下载速率变慢14-8
14.3.2PPPoE拨号用户的用户名和密码均正确,但无法通过服务器认证14-9
14.3.3单板类型不匹配导致无法注册14-9
14.3.4扩展BIOS不配套导致升级后备用主控板无法正常启动14-10
14.3.5重复加载补丁导致加载补丁失败14-11
14.3.6由于广播流量抑制设置太小引起用户拨号不成功14-12
14.3.7MA5600没有转发未知多播报文导致下挂路由器建立OSPF路由失败14-12
14.3.8版本不一致导致网管不能管理MA560014-13
14.3.9远程Telnet登录提示MA5600用户过多14-14
14.3.10FAQ-为什么配置文件离线修改后导回设备并重启设备时没有生效14-15
插图目录
图14-1系统业务故障定位流程14-2
表格目录
表14-1SCU板指示灯含义说明14-3
表14-2常见系统故障分类和原因分析表14-3
14系统故障处理
关于本章
“系统故障”主要是指因主机系统故障或者注册升级等引起的业务故障。
本节故障定位指导用户处理主机系统可能出现的问题,主要处理前面的各个章节所不涉及的方面。
涉及到具体业务方面的故障,请参见本手册前面几章相应的业务故障定位章节。
本章描述内容如下表所示。
标题
内容
14.1故障处理流程
介绍系统出现故障时的通用处理流程。
14.2常见故障处理方法
介绍系统常见的故障分类以及排除方法。
14.3典型案例
从“故障现象”、“故障分析”、“处理措施”、“总结”几个方面介绍系统故障的一些典型的案例。
14.1故障处理流程
14.1.1业务影响和防范
在故障处理过程中,更换单板操作会影响用户的业务,请谨慎使用。
建议在更换主用主控板前先备份数据。
14.1.2流程图
图14-1系统业务故障定位流程
14.1.3确认系统环境
请先检查MA5600系统所在环境是否正常:
●机柜是否干净,机柜内是否灰尘太多。
●机柜接地是否良好,配线架接地是否良好。
●室内温度、机框内温度、单板温度是否过高。
●如果连有风扇,可以在FAN模式下使用displayfanalarm命令请查看风扇是否正常。
●电源供电是否正常,是否符合工程要求。
●电源是否经过整改;如果是扩容,电源是否足够支撑扩容后所需电压。
14.1.4查看指示灯状态
MA5600系统的每块单板上都有相应的运行、状态指示灯,这些指示灯除了直接反映相应单板的工作状况以外,还可反映诸如电路、光路、节点、主备用等的工作状态,是进行故障分析和定位的重要依据之一。
表14-1是系统板SCU板指示灯的含义说明。
如果“ALM”灯亮,则说明系统内部发生异常。
表14-1SCU板指示灯含义说明
指示灯
状态
故障定位
RUN
运行灯(绿色)
1s亮1s灭周期闪烁表示单板运行正常。
ALM
告警灯(红色)
告警灯灭时表示单板正常,告警灯亮时表示业务通道检测失败。
ACT
主用指示灯(绿色)
指示灯亮时表示单板主用,指示灯灭时表示单板备用。
14.1.5查看告警
使用displayalarm命令查看当前告警信息。
14.1.6根据故障类型排除故障
根据故障的分类排除故障。
具体操作步骤请参见“14.2常见故障处理方法”。
14.2常见故障处理方法
14.2.1常见故障分类和原因分析
表14-1常见系统故障分类和原因分析表
序号
常见故障分类
可能的原因
1
单板无法注册
●单板版本和主机版本不配套。
●电源、温度、风扇故障。
●单板损坏。
●所插槽位原来已经注册有单板,并且不支持前后两种单板之间的升级。
2
光口业务不通
●数据配置有误。
●光纤或者尾纤问题。
●光功率超出范围。
●传输设备问题。
●上层设备光口有问题。
●扣板损坏或没有插紧。
3
带内网管不通
●网管和设备版本不配套。
●上层设备故障。
●上行板故障。
●传输线路问题。
●网管数据配置错误(如团体名、访问列表、MTU等)。
●设备和网管之间没有路由。
●传输格式兼容问题。
●PVC设置问题。
4
主控板反复重启
●主控板版本较老,长期使用后易损坏。
●主控板组件损坏。
●背板插针损坏。
●用户环网问题。
5
倒换不成功
●主备软件版本不一致。
●主备硬件版本不一致。
●主备扣板不一致。
●备用板故障或者上行端口故障。
14.2.2单板无法注册
检查版本配套情况
根据《版本说明书》检查单板软件和主机软件是否配套。
如果不配套,请更换成配套版本;如果配套,请继续检查。
检查电源、温度和风扇
●请检查电源、室内温度、机框温度是否满足工程要求。
●检查是否是扩容单板引起电源供电不足,如果是,请进行电源整改。
●如果连有风扇,请使用displayfanalarm检查风扇告警,如果状态不正常,请检查原因,需要的情况下请更换风扇。
检查单板指示灯
请检查单板指示灯,如果ALM灯长亮或者没有灯亮,说明单板故障,可以采用软件复位单板、插拔单板、更换槽位、更换单板等方式尝试恢复业务;如果RUN灯1s亮1s灭,ALM灯灭,则单板正常,请继续检查。
查看单板状态
多次使用displayboard命令查看单板状态,如果一直是“fail”状态,可以采用软件复位单板、插拔单板、更换槽位、更换单板等方式尝试恢复业务;如果有“normal”状态,请继续检查。
更换单板槽位
请将单板拔出,插入到其他空槽位中,如果能注册,则可能是所插槽位原来已经注册有单板,并且不支持前后两种单板之间的升级,可以尝试将原有的单板数据删除后重新添加单板;如果不能注册,则可能是单板损坏,可以采用更换单板的方式尝试恢复业务。
14.2.3带内网管不通
确认故障范围
先确认相同或者类似组网的其它MA5600设备是否也有网管不通的问题(大面积网管不通)。
步骤1如果有大面积MA5600出现网管不通,则重点从以下几个方面检查:
●网管与主机是否配套。
查阅《版本说明书》,查看主机版本和网管版本,如果不配套,请更换配套版本。
●上层网管和上层设备。
例如:
检查连接设备之间是否屏蔽了162端口(SNMP默认占用的端口,如果修改了,请检查对应端口)。
可以检查网管是否能管理同一路由线路上其他网元,如果可以,表明162端口可以正常通过;如果不能,则很有可能162端口被屏蔽,请将其打开。
步骤2如果只有一台MA5600故障,则检查是业务和网管均不通还是只有网管不通。
●如果只有网管不通,则跳过“检查上行板状态”直接往下检查。
●如果业务和网管均不通,则从“检查上行板状态”开始往下检查。
----结束
检查上行板状态
查看上行单板指示灯状态,判断上行板是否正常。
如果RUN灯1s亮1s灭,则表明单板状态正常,请继续检查。
否则表明单板状态不正常,请参见“14.1.4查看指示灯状态”先排除单板故障的原因。
检查光纤问题
步骤1检查接口板
●如果是SCU板,则在光口模式下,使用displayalarm命令检查光口是否有告警信息。
●如果是LAN板,则在全局配置模式下,使用displayboard命令检查光/电口的告警信息。
步骤2检查光纤
●请在上层设备上进行自环,确定端口数据收发正常。
如果正常,排除光纤连接有问题。
否则,请更换光纤。
●更换尾纤,如果通,则是尾纤的问题;如果不通,请按照以下步骤继续检查。
----结束
查看相关数据配置
●使用displaysnmp-agentcommunity命令检查MA5600上面的团体名设置是否与网管不一致,如果不一致请修改团体名。
●使用displaysnmp-agenttarget-host命令查看Trap报文的目标主机IP地址,查看是否包含网管的地址。
●使用displaypw-template命令查看MTU。
如果MTU过小,请设置到1500以上,避免因网管发过来的大包导致阻塞。
检查路由信息
●使用displayipaddress命令检查MA5600的路由,如果没有到网管的路由,请使用ipaddress命令添加。
●检查网管是否有到设备的路由,如果没有,请添加。
查看上行路由器流量信息
在上行路由器上查看流量信息。
从MA5600向路由器ping数据包,检查路由器上是否有ATM信元流量。
●如果没有信元流量,请检查中间的连接设备和路由,保证路由正常。
●如果有信元流量,仍然不通,可能是数据包格式兼容引起的问题,请比较正常设备和异常设备的上行设备,如果相同,则略过此步骤。
如果不同,有可能是传输格式的问题,请检查上行设备传输格式设置是否有问题。
如果没有问题,请按照以下步骤继续检查。
查看VLAN
更换VLAN,如果业务通,请在上层设备配置相应的VPI/VCI。
如果不通,请按照以下步骤继续检查。
14.2.4主控板反复重启
主控板反复重启的原因可能有:
●主控板组件损坏
●背板插针损坏
●环境、风扇问题
建议重新启动系统,通过管理终端捕获设备初始化时在界面上的打印信息,并收集单板、版本信息,与华为技术有限公司技术支持工程师联系,获取帮助。
14.2.5倒换不成功
检查主备板软件版本
全局配置模式下使用displaylanguage/displayversion查看主备板的各软件版本是否一致。
如果不一致请将主备板的软件版本加载成一致的版本。
如果一致,则请继续往下检查。
检查主备板的扣板
全局配置模式下使用displayboard/displayversion检查主备板的扣板版本是否不一致,备板扣板工作是否正常,如果不一致请更换扣板以保持主备扣板一致。
否则请继续往下检查。
检查备用板和上行端口
全局配置模式下使用displayboard检查备用板单板状态是否正常,备用板上是否存在故障的上行端口,如果有请参见“14.2.2单板无法注册”和“14.2.4主控板反复重启”排除单板故障或者端口故障的原因;如果正常请继续下面的步骤。
14.3典型案例
14.3.1建PVC时打开UPC参数导致用户下载速率变慢
故障现象
组网:
MA5600通过155M光口上行至BRAS。
现象:
下载速率只有70kbit/s~80kbit/s。
经查,MA5600上的PVC和端口都没做流量控制,也就是默认的下行带宽8Mbit/s,而且BRAS的另一个155M端口连接的一台MA5600的用户下载速率能达到300kbit/s。
故障分析
检查MA5600的PVC,业务类型为UBR,不做流量控制。
ADSL端口也不限速,默认的下行带宽8Mbit/s。
用户的下载速率低有两种可能:
●上层设备的带宽不够。
●MA5600的软硬件有问题。
通过跟其他MA5600用户的下载速率进行比较,排除第一种可能。
处理措施
步骤1将异常的MA5600与另一台正常的MA5600进行比较测试,同一时间同一个网站下载同一个文件,发现速率的差别比较大。
检查数据配置,并没有做流量控制。
步骤2检查MA5600的单板和Modem,排除MA5600单板和Modem的硬件问题。
步骤3重新比较两台MA5600的配置数据,发现速度慢的MA5600在添加PVC时打开了使用参数控制UPC功能,Rx/Tx的UPC/EPD/PPD都为111。
步骤4把原来PVC删掉,重新建PVC的时候把UPC/EPD/PPD参数设为000,用户的下载速率达到300kbit/s,问题解决。
----结束
总结
普通用户(没有QoS要求)的流量控制最好通过限制ADSL端口训练速率来完成,PVC采用UBR业务类型。
14.3.2PPPoE拨号用户的用户名和密码均正确,但无法通过服务器认证
故障现象
ADSL用户上网,利用PPPoE进行拨号认证,使用的是正确的用户名和密码,但拨号程序返回认证失败的告警信息“authenticationfail”。
过了一个小时再进行拨号,认证通过,可以上网。
故障分析
RadiusServer侧对帐号可以同时使用的人数可以做限制,并且对异常断链退出的帐户核对时间也可设置。
●此处由于RadiusServer侧对帐号可以同时使用的人数限制为1,同时核对更新时间由设置的较长。
所以当用户上网时,由于计算机故障或其他非正常原因导致用户侧上网异常中止时,服务器侧还保留有此帐号的上网信息。
●当用户再次进行拨号时,服务器仍记有此帐号的使用信息,因此认为是非法的访问(使用人数>1),禁止拨号通过,返回认证失败的告警。
●但过了设定的更新时间后,服务器没有收到用户的任何上网信息,就自动中止了此帐号的上网进程,因此再次拨号就又可以认证通过了。
处理措施
步骤1在RadiusServer侧手工中止此帐号的上网进程。
步骤2或把RadiusServer侧的帐号设置属性里把可以同时使用此帐号的人数加大。
步骤3缩短RadiusServer侧的用户信息更新时间,例如5min。
----结束
14.3.3单板类型不匹配导致无法注册
故障现象
某单板反复重新启动,用户无法正常上网
故障分析
在现场定位时发现,单板起来以后,过几分钟自己又重新启动,周而复始。
●串口连接到主板,用displayversion命令查看版本信息,显示Boardfailed。
●使用displayboard命令查看单板信息,发现该槽位的单板配置为ADEF,而面板上显示的单板类型为ADBF,可见单板类型不匹配。
如果工程师无法去现场查看单板面板,则可以使用displayalarmhistory命令查看告警记录,检查该槽位的告警记录,也可起到定位问题的作用。
处理措施
步骤1使用boarddelete命令删除原来的单板。
步骤2使用boardadd命令添加单板类型为面板上显示的类型或等待单板起来,使用boardconfirm命令确认单板。
----结束
14.3.4扩展BIOS不配套导致升级后备用主控板无法正常启动
故障现象
MA5600采用主备环境,通过loadpacketfile命令升级完毕后,主用主控板可启动,备用板不断重启,使用displayboard0发现备用主控板状态为failed。
故障分析
●备用板与主用板同时升级且过程相同,排队升级步骤及程序问题。
●备用板不断重启,很可能为版本配套原因导致。
检查版本配套表,发现扩展BIOS版本与当前主机版本不配套。
处理措施
步骤1擦除扩展BIOS。
SystemisbootingfromextendedBIOS...
ThelastupdatedateofextendedBIOSis:
May162005,10:
37:
33
ExtendedBIOSversionis108
Press
MainMenu
=============================
1.Bootfromflash
2.BootfromserialportbyXmodem
3.BootfromethernetportbyTFTP
4.EraseextendedBIOSandreboot
Pleaseenterachoice:
4
步骤2重启后通过TFTP重新加载BIOS
BaseBIOSversionis108
CheckspareextendedBIOS...OK!
Press<D>inthreesecondstodownloadextendedBIOS,press
<C>torestoremainextendedBIOSfromspareBIOSarea...
NowsystemwillloadextendedBIOSfromXmodem/TFTP.
Pleaseselectloadmode:
0--Xmodem,1--TFTP,Q--QUIT[default:
1]:
1
ExtendedBIOSwillbedownloadedbyTFTP.
BoardIPaddress:
[10.11.104.226]10.11.104.2
BoardMaskaddress:
[255.255.252.0]
HostIPaddress:
[10.11.104.1]10.11.104.226
Downloadfilename:
[scuextbios.bin]
Youwilldownloadfile'scuextbios.bin'fromTFTPserver10.11.104.226
Areyousure?
(y/n):
[y]y
Downloadingfile,pleasewait...download258176bytesOK!
BegintosaveextendedBIOStosparearea...100%
SavespareextendedBIOStoflashareasuccessfully.
BegintosaveextendedBIOStomainarea...100%
SavemainextendedBIOStoflashareasuccessfully.
SavingextendedBIOSdisablestartflag...OK!
CheckmainextendedBIOS...OK!
步骤3通过loadpacketfile已经将程序等文件导入备用板,重新加载扩展BIOS后,备用主控板可正常启动。
----结束
总结
如果发现主控板不断重启,可检查BIOS与软件版本配套关系,如果不配套,可通过加载解决。
14.3.5重复加载补丁导致加载补丁失败
故障现象
加载补丁文件时,提示上传文件成功,但同时提示补丁文件校验错误。
故障分析
●确认当前系统中是否已经运行了补丁。
●确认补丁本身是否存在问题。
处理措施
登录设备,使用displaypatch命令查看,发现系统本身就已经运行了补丁,如果重复加载会提示加载失败。
总结
在升级或加载补丁前,建议先采集当前系统的版本信息和补丁运行情况。
14.3.6由于广播流量抑制设置太小引起用户拨号不成功
故障现象
组网:
BRAS+MA5600(三台),其中有一台MA5600下的用户需要多次拨号才能成功,在线的用户正常,已经出现过两三次,可以通过复位主控板解决。
拨号不成功,提示“678”错误,远程服务器无响应。
故障分析
由于同一台BRAS下的三台设备只有一台有问题,可以确定BRAS上的数据配置没有异常,地址池也是够的。
推断有以下几个问题:
●硬件问题。
●数据配置有问题。
但是三个MA5600的数据配置基本一样。
处理措施
步骤1在BRAS上检查数据没有问题。
步骤2更换MA5600的主控板,问题依旧。
步骤3在BRAS上抓包,发现BRAS有时候没有收到用户的PADI报文。
步骤4使用displaytraffic-suppress命令检查MA5600主控板上的数据,发现上行口广播流量抑制设置太小,导致广播流量大的时候,丢弃了PADI报文,从而导致用户不能拨号成功。
步骤5使用traffic-suppress命令重新配置MA5600上行口广播流量抑制值(配置一个更大值),问题解决。
----结束
14.3.7MA5600没有转发未知多播报文导致下挂路由器建立OSPF路由失败
故障现象
组网:
路由器MA5600BRAS路由器。
BRAS上开通了VPLS业务,路由器之间建立OSPF失败。
故障分析
依据前期测试情况,2端路由器都可以发出协议报文却收不到报文。
而OSPF是基于组播报文传送。
BRAS的VPLS业务对组播报文不做任何限制,所以重点怀疑MA5600没有转发组播报文。
处理措施
步骤1将IGMP模式设置为OFF。
步骤2设置未知多播抑制比为7。
再次测试业务正常。
----结束
总结
●只有在IGMP模式设置为OFF的时候系统才会将未知多播报文(组播)转发。
●只有在IGMP模式设置为OFF后才能设置位置多播抑制比,在此以前查看未知多播抑制比为空。
14.3.8版本不一致导致网管不能管理MA5600
故障现象
某局点因为机房连续异常掉电多次,MA5600系统起来以后,发现网管不能管理MA5600,登上MA5600发现部分数据丢失,并且版本也不相同。
网管有通讯失败的告警。
MA5600有复位告警。
故障分析
MA5600升级时,加载程序和数据库有两种方法:
通过bios加载和通过命令行加载。
在MA5600上flash有主区和备区,当通过bios加载程序和数据时,程序和数据会同时写入主区和备区。
当通过命令行加载时,如果加载程序完成,数据还没有加载,这时复位系统,程序和数据都只会写入主区。
通过命令行查看rollback的状态就是enable。
但是这个状态只能保持两天(默认是两天)。
两天后它会自动变成disable。
如果rollback状态是disbale,MA5600会将主区的程序和数据同步到备区,如果rollback状态是enbale,MA5600不会将主区的程序和数据同步到备区。
因为这台MA5600安装不到2天,而且升级的时候是使用命令行升级,加载程序以后(这时还没有加载数据)就进行了复位,rollback的状态是enable。
这时出现异常启动多次没有成功的情况,MA5600将倒回原来的版本。
处理措施
步骤1检查MA5600的版本,发现是升级之前的版本。
步骤2检查数据,发现是升级之前的数据。
步骤3检查rollback状态,是enable。
步骤4通过以上分析,断定MA5600做了rollback。
步骤5通过BIOS方式重新加载版本。
----结束
14.3.9远程Telnet登录提示MA5600用户过多
故障现象
用户使用Telnet登录MA5600设备,提示“tooman
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 华为MA5600 故障处理0114 系统故障处理 华为 MA5600 故障 处理 0114 系统故障