排除企业网络故障.docx
- 文档编号:30474107
- 上传时间:2023-08-15
- 格式:DOCX
- 页数:24
- 大小:780.54KB
排除企业网络故障.docx
《排除企业网络故障.docx》由会员分享,可在线阅读,更多相关《排除企业网络故障.docx(24页珍藏版)》请在冰豆网上搜索。
排除企业网络故障
排除企业网络故障
了解网络故障的影响
企业网络要求
大多数企业都依靠网络来提供对共享资源的持续、可靠访问。
网络正常运行时间是指网络可用并能提供预期功能的时间。
网络中断时间则是指网络没有按要求运作的时间。
网络性能下降可能对业务造成负面影响。
如果没有稳定可靠的网络,许多组织便无法访问客户数据库和财务记录,而这些都是员工日常工作所需的资料。
网络中断还会导致客户无法下订单或获取需要的信息。
停机时间将造成效率低下、客户信心受挫,往往导致客户被竞争对手抢走。
人们使用多种不同的度量来衡量停机时间对企业造成的损失。
每家公司的实际损失会随着具体发生的时间而变化,如星期几、日期和时刻。
大型企业一般跨越许多不同的时区,随时都有员工、客户和供应商访问其网络。
对这些组织而言,任何一次停机都会造成极大的损失。
导致网络中断的因素有多种。
包括:
天气和自然灾害
安全入侵
人为灾难
电源浪涌
病毒攻击
设备故障
设备配置错误
资源缺乏
要满足正常运行时间的要求,网络设计和实施必须经过精心规划。
为了确保通信正确、有效,最好为所有关键组件和数据路径设置冗余功能。
冗余功能可消除单点故障。
三层式分层网络设计模型将不同网络设备和链路的功能分开,从而确保网络高效运行。
此外,采用企业级设备也能够提供高度的可靠性。
即便网络设计周密,也无法避免的会出现一些网络中断情况。
为了尽量缩短停机时间并确保快速恢复,必须做额外的一些工作。
要确保服务等级,企业应该与主要供应商签订服务等级协议(SLA)。
SLA中根据服务等级明确定义了对网络的期望值,包括可接受的停机时间、恢复时段以及是否应发生停机等。
SLA通常会指定未达到承诺的服务等级时的惩罚措施。
网络中断不仅与ISP所提供的服务未达要求有关。
很多时候,问题都是由本地网络中某设备的关键部件故障而引发的。
为了减少此类停机事件,设备的所有关键部件都应需要质保,以确保关键组件能够得到快速更换。
业务连续性计划是一份用于规定发生意外的人为或自然灾害(例如停电或地震)时应采取哪些措施的方案。
业务连续性计划详细说明了在灾难后如何继续运营业务,同时将对客户的影响降至最小。
其中明确指出了在发生灾难性故障后如何重建网络。
确保业务运作的方法之一是在其它位置设立冗余备份站点,以防主站点发生故障。
监控和主动维护
确保正常运行的方法之一是监控当前网络运行情况并执行主动维护。
监控网络的目的是观察网络性能,将其与预先确定的基线进行比较。
如果发现背离基线的任何反常现象,都表示网络可能存在问题,需要进一步研究。
一旦网络管理员找到降低性能的源头,就能够采取纠正措施来防止出现严重的网络中断情况。
有许多工具可用来监控网络性能级别和收集数据。
这些工具包括:
网络实用程序
数据包嗅探工具
SNMP监控工具
上述每一组工具都具有不同的功能,能够提供不同类型的信息。
结合使用这些工具可对当前网络性能有全方位的了解。
网络管理员定期执行主动维护来检查和维护设备。
如此一来,管理员就能及早发现弱点,从而避免后期造成致命错误导致网络瘫痪。
就像汽车的定期保养一样,主动维护能延长网络设备的寿命。
网络监控工具、技术和程序依赖于是否具有完整、准确而且最新的网络文档。
此类文档包括:
物理和逻辑拓扑图
所有网络设备的配置文件
基线性能等级
最好在网络刚搭建好时确定基线网络性能等级,并在执行重大变更或升级后重新确定。
执行基线测试时,网络管理员会使用正常负载级别,以及网络中常见的协议和应用程序。
许多复杂的工具和步骤都可用来确定性能基线。
某些程序能够对不同类型的流量执行多种不同的测试。
这些测试可确定网络在精确定义的负载和条件下的性能。
其它一些工具(例如简单的ping)准确度稍差,但其提供的信息足以让管理员注意到潜在问题。
ping和tracert之类简单的网络实用程序可提供有关网络或网络链路的性能信息。
多执行几次这些命令,可以看出数据包在两个位置之间传送所用时间的差别。
不过这些命令并不能说明为什么会产生这样的时间差异。
数据包嗅探工具能够监控网络不同部分的流量类型。
此类工具能指出特定类型的流量是否过大。
它可以检查数据包的内容,方便用户快速找出流量的源头。
此类工具还可对这一情况加以纠正,避免网络拥塞加剧。
例如,流量嗅探工具可检测网络中的某种流量或特定的事务是否不在预计之内。
此检测可阻止潜在的拒绝服务攻击,避免其影响网络性能。
简单网络管理协议(SNMP)可监控网络中的各个设备。
兼容SNMP的设备使用代理来监控针对特定条件预定义的一系列参数。
这些代理收集信息并将其存储在称为管理信息库(MIB)的数据库中。
SNMP按固定间隔轮询设备,以收集有关受管参数的信息。
SNMP还会针对超出预定义阈值或条件的特定事件发送陷阱消息。
例如,SNMP监控着一个路由器接口的出错情况。
网络管理员为该接口定义了可接受的错误级别。
如果错误超出该阈值级别,SNMP会将该情况的陷阱信息发送到网络管理站(NMS)。
NMS会警告网络管理员。
某些SNMP系统会触发一些事件(例如设备自动重配置)来消除故障。
大多数企业级网络管理系统都使用SNMP。
目前存在许多免费或商业的主动网络监控工具。
这些工具可监控流量类型、流量负载、服务器配置、流量模式以及许多其它情况。
正确的网络监控计划以及恰当的工具可帮助网络管理员评估网络的健康状况,检测出存在的任何问题。
故障排除和故障域
任何故障排除工作的目的都是快速恢复运作、将对最终用户的影响降至最低。
要达到这一目标往往需要设法争取时间来确定故障原因,以便快速重建功能。
在某些情况下,设置临时解决方案可以争取到一定时间来研究和纠正问题。
设计企业网络时,冗余功能至关重要。
在冗余环境中,如果一条链路断开,流量可立即切换到冗余链路。
这种临时解决方案使网络能继续工作,同时管理员也有时间来检查故障链路并纠正问题。
如果有备用设备或配置文件的备份,当特定设备或配置发生故障时,便可快速恢复连接。
并非每种情况都具有或适用快速解决方案。
必须始终将网络及网络所提供资源的安全放在第一位。
如果快速解决方案降低了安全性,那么最好花时间研究其它解决方案。
在业务连续性计划中详细列出安全考量。
该计划中应包括:
潜在问题的记录
出现故障时应采取的恰当措施的描述
公司的详细安全政策
各项措施的具体安全风险
当设计企业网络时,需限制故障域的规模。
故障域是指受网络设备故障或误配置影响的网络区域。
此域的实际大小取决于设备以及故障或误配置的类型。
排除网络故障时,需确定问题的范围,将问题隔离到特定的故障域。
如果第2层交换机和边界路由器同时发生故障,它们会影响到不同的故障域。
LAN网段上第2层交换机的故障仅会影响到广播域内的用户,对网络其它区域没有任何影响。
然而边界路由器的故障将导致公司内的所有用户无法连接本地网络外的网络资源。
该路由器对网络的影响较大,故障域也较大。
在正常情况下,应首先为故障域较大的资源排除故障。
在某些条件下,故障域的大小并不是确定故障排除顺序的决定性因素。
如果对业务关键的服务器所连接的交换机出现故障,那么应先纠正此问题,然后再解决边界路由器的问题。
故障排除过程
当企业网络出现故障时,必须快速有效地排除故障,以免停机时间过长。
网络技术人员可使用多种不同的结构化或非结构化的问题解决技术来排除故障。
包括:
自上而下
自下而上
分治法
试错法
替换法
大多数有经验的网络技术人员凭借过往的经验,采用试错法开始故障排除过程。
这种纠正问题的方法可以节约大量的时间。
不过,经验较少的技术人员不能完全依靠过去的经验。
此外,许多时候试错法并不能提供解决方案。
在这两种情况下,都需要使用更为结构化的方法来排除故障。
当需要使用结构化较强的方法时,大多数网络人员会采用基于OSI或TCP/IP模型的分层过程。
技术人员根据以前的经验来判断问题是与OSI模型的下层有关还是上层有关。
所在的层次决定了采用自上而下还是自下而上方法。
处理故障时,无论采用哪种故障排除技术,都请遵循以下的常规问题解决模型。
确定问题
收集信息
推导各种可能性和方案
规划行动方案
实施解决方案
分析结果
如果使用此过程时第一次未能确定并纠正问题,则根据需要重复上述过程。
记录下最初的症状以及在查找和纠正问题方面所作的所有尝试。
在发生同样或类似问题时,该文档将具有相当的参考价值。
即便是失败的尝试,也应该记录下来,这样可以在将来的故障排除工作中节约时间。
排除基本交换故障
现在交换机是最常用的接入层网络设备。
工作站、打印机和服务器都通过交换机连接到网络。
交换机硬件或配置发生故障会导致本地设备和远程设备之间无法连接。
交换机的大多数问题发生在物理层。
如果交换机所在的环境没有加以保护,则交换机可能会被人移走、数据线或电源线可能遭到损坏。
务必将交换机放置在受到物理保护的区域。
如果终端设备无法连接到网络,而且链路LED没有点亮,则说明链路或交换机端口有问题或被关闭,此时请执行以下步骤:
确保电源LED亮起。
确保终端设备与交换机之间的电缆类型正确。
重新插一遍连接工作站和交换机的电缆。
检查配置,确保端口状态为noshutdown。
如果无法连接时链路LED是亮起的,那么问题最可能出在交换机配置上
如果交换机端口失败或故障,最简单的测试方法就是将其物理连接移到另一个端口上,看这样是否能解决问题。
确保交换机端口安全功能没有禁用该端口。
使用以下命令确认这一点:
showrunning-config
showport-securityinterfaceinterface_id
如果交换机安全设置禁用了该端口,请检查安全策略,了解是否能够更改安全设置。
交换机在第2层发挥作用,它会记录所有所连接设备的MAC地址。
如果此表中的MAC地址不正确,交换机会将信息转发到错误的端口,因此无法进行正常通信。
要显示连接到每个交换机端口的设备的MAC地址,请使用:
showmac-address-table
要清除表中的动态条目,发出命令:
clearmac-address-tabledynamic
交换机随后将用更新信息重新填充MAC地址表。
虽然许多设备都能自动检测速度和双工设置,但如果交换机和终端设备的速度或双工设置不匹配,两者之间的链路也无法工作。
某些交换机无法正确检测所连接设备的速度和双工。
如果怀疑这就是原因所在,使用interfacespeed和duplex命令将交换机端口上的值设置为与主机设备一致。
要显示端口的速度和双工设置,可使用命令:
showinterfaceinterface_id
交换环路也可能造成连接问题。
STP可关闭交换网络中的冗余路径,防止桥接环路和广播风暴。
如果STP作出的决策建立在错误的信息上,则可能出现环路。
表示网络中存在环路一些现象包括:
来自、通往或经过受影响区域的连接丢失
连接到受影响网段的路由器上CPU使用率极高
链路利用率相当高,甚至达到100%
与基线利用率相比,交换机背板利用率极高
Syslog消息显示数据包环路、持续获知地址或MAC地址摆动
很多接口的输出流量明显下降
当交换机不接收BPDU或无法处理BPDU时,会产生环路。
导致此问题的原因包括:
配置错误
收发器存在问题
硬件和电缆问题
处理器过载
处理器过载会影响STP,阻止交换机处理BPDU。
端口摆动会导致发生多次转换。
多次转换则可能造成处理器过载。
如果网络配置恰当,基本上不会发生这种情况。
要解决此类故障,需要尽可能移除冗余链路。
另一个需要解决的问题是交换不理想。
使用默认值时,STP并不是总能找出最佳根桥或根端口。
改变交换机上的优先级值可强制进行根桥选举。
一般情况下,根桥应位于网络中央,以便提供最优交换。
排除STP故障时,可使用以下命令:
要提供有关STP配置的信息:
showspanning-tree
要提供有关单个端口的STP状态的信息:
showspanning-treeinterfaceinterface_id
如果物理层工作正常时终端设备之间仍然无法通信,可检查VLAN配置。
若无法正常工作的端口处于同一个VLAN中,那么主机的IP地址必须属于同一个网络或子网才能进行通信。
若无法正常工作的端口处于不同VLAN中,则只有借助第3层设备(例如路由器)才能进行通信。
如需有关特定VLAN的信息,可使用命令showvlanidvlan_number来显示指定给VLAN的端口。
如果需要VLAN间路由,则检查以下配置:
每个VLAN都有一个端口连接到路由器接口或子接口。
交换机端口和路由器接口都配置了中继功能。
交换机和路由器接口都配置为使用相同的封装。
新型交换机默认为802.1Q,但有些Cisco交换机同时支持802.1Q和Cisco专有的交换机间链路(ISL)格式。
尽可能使用IEEE802.1Q,因为这是事实标准。
另外,802.1Q和ISL不兼容。
排除VLAN间故障时,确保路由器的物理接口上没有任何IP地址。
接口必须处于活动状态。
要检验接口配置,使用:
showipinterfacebrief
路由表中应该可以看见每个VLAN关联的网络。
若看不到,重新检查所有物理连接以及链路两端的中继配置。
如果不是直接连接到VLAN子网,请检查路由协议的配置,确保存在通往每个VLAN的路由。
使用下列命令:
showiproute
接入端口或中继端口
每个交换机端口要么是接入端口,要么是中继端口。
在某些型号的交换机上可能还有其它一些交换机端口模式,交换机会自动将端口配置到合适的状态。
有时最好将端口锁定到接入或中继状态,以避免检测过程发生问题。
本征VLAN和管理VLAN
默认情况下,本征VLAN和管理VLAN都是VLAN1。
通过中继传送的未标记帧会被指派给中继的本征VLAN。
如果设备上的本征VLAN分配发生了改变,则应该为802.1Q中继的每一端配置相应的本征VLAN号。
如果中继一端配置为本征VLAN10,另一端配置为本征VLAN14,那么从一端的VLAN10发出的帧会在另一端的VLAN14上接收。
VLAN10便“泄漏”到了VLAN14。
这可能导致意外的连接问题,并增加延时。
为了使传输更为顺畅、快速,务必确保网络中所有设备上的本征VLAN分配都是相同的。
排除VTP故障
VTP可轻松地将VLAN信息分布到域中的多台交换机上。
参与VTP的交换机工作在以下三种模式中的一种:
服务器模式、客户端模式或透明模式。
只有服务器可以添加、删除和修改VLAN信息。
排除网络中的VTP故障时,请确保:
所有参与设备具有相同的VTP域名。
每个域中有两台VTP服务器,以防其中一台发生故障。
所有服务器具有相同的信息。
所有设备上的修订版号相同。
所有设备使用相同的VTP版本。
要显示设备所使用的VTP版本、VTP域名、VTP模式以及VTP修订版号,发出以下命令:
showvtpstatus
要修改VTP版本号,可使用:
vtpversion<1|2>
VTP客户端和服务器使用VTP修订版号来确定自己是否应该更新VLAN信息。
如果更新所含的修订版号比目前使用的更高,客户端和服务器会使用该信息来更新配置。
在将交换机添加到网络之前,始终检查交换机上的VTP修订信息和模式。
修订版号存储在NVRAM中,擦除交换机的启动配置并不能重置该值。
要重置修订版号,可将交换机模式设置为透明,或者更改VTP域名。
有时,可能会有非法交换机加入到域中并修改VLAN信息。
为避免出现此情况,必须在VTP域上配置口令。
要设置域的VTP口令,可使用以下全局配置命令:
vtppasswordpassword
必须为VTP域中的所有设备配置相同的验证口令。
如果更新没有传播给VTP域中的新交换机,很可能是口令问题造成的。
要检查口令,可使用命令:
showvtppassword
排除路由故障
RIP故障
有许多工具都可用于排除路由故障。
包括IOSshow命令、debug命令和TCP/IP实用程序(例如ping、traceroute和telnet)。
show命令显示从配置或特定组件中捕获的信息。
debug命令是动态的,可提供有关流量传输以及协议之间交互的实时信息。
使用TCP/IP实用程序(例如ping)来检查连通性。
show命令是非常重要的工具,可用来了解路由器的状态、检测邻居路由器、找出网络中的故障以及监控网络总体运行情况。
结合使用show命令和debug命令来排除RIP路由协议问题。
使用debug命令之前,先缩小问题范围,确定一些可能的原因。
使用debug命令来查找问题原因,而不要用它来监控常规网络运行。
RIP是一种相当基本的协议,配置也较简单。
不过,配置RIP路由器时可能会遇到一些常见问题。
RIPv1与RIPv2之间存在兼容性问题。
如果没有通告RIP路由,可检查以下方面:
第1层或第2层的连接问题
需要使用VLSM划分子网,却误用了RIPv1
RIPv1和RIPv2路由配置不匹配
Network语句缺少或不正确
接口IP编址不正确
传出接口关闭
通告的网络接口关闭
被动接口配置错误
使用showiproute命令测试时,不妨使用cleariproute*命令将路由表清空。
除了此处列出的问题之外,还务必记住RIP具有15跳的跳数限制。
在大型企业网络中,仅此限制便可能造成问题。
EIGRP故障
有许多IOSshow命令和debug命令可同时用来排除EIGRP和RIP故障。
此外,专门用来排除EIGRP故障的命令包括:
showipeigrpneighbors
显示邻居IP地址以及获知地址的接口。
showipeigrptopology
显示已知网络的拓扑表,包括后继路由、状态代码、可行距离和接口。
showipeigrptraffic
显示所配置AS的EIGRP流量统计信息,包括发送/接收的hello数据包、更新等等。
debugeigrppackets
显示邻居之间的实时EIGRP数据包交换。
debugipeigrp
显示实时EIGRP事件,例如链路状态更改和路由表更新。
配置EIGRP协议时通常会遇到一些特定问题。
EIGRP无法工作的原因可能包括:
第1层或第2层存在连接问题。
接口的编址或子网掩码不正确。
EIGRP路由器上的AS编号不匹配。
路由过程中指定的网络或通配符掩码错误。
链路可能发生拥塞或断开。
传出接口关闭。
所通告网络的接口关闭。
如果在不连续子网的路由器上启用了自动总结,那么通告的路由可能不正确。
OSPF故障
OSPF出现的大多数问题都与邻接关系构建以及链路状态数据库的同步有关。
排除OSPF故障
邻居必须在同一个OSPF区域中。
邻居的接口必须具有兼容的IP地址和子网掩码。
一个区域中的路由器应具有相同的OSPFhello时间间隔和dead时间间隔。
路由器必须通告正确的网络,接口才能参与OSPF过程。
必须使用正确的通配符掩码来通告正确的IP地址范围。
必须在路由器上正确配置验证才能进行通信。
除了标准的show和debug命令,还可使用以下命令来协助排除OSPF故障:
showipospf
showipospfneighbor
showipospfinterface
debugipospfevents
debugipospfpacket
路由重分布问题
边缘路由器上配置的静态默认路由为发到外网IP地址的数据包提供了最后选用网关。
尽管此配置解决了边缘路由器的问题,但它没有为其它内部路由器提供到外网的通路。
一种解决方案是在每台内部路由器上配置默认路由,使之指向下一跳或边缘路由器。
然而此方法在大型网络中扩展性不佳。
较好的方法是使用路由协议来将边缘路由器上的默认路由传播给其它内部路由器。
所有路由协议(包括RIP、EIGRP和OSPF)都具有此功能。
无论使用哪种路由协议,在边缘路由器上配置默认的全零静态路由。
iproute0.0.0.00.0.0.0S0/0/0
接下来,将边缘路由器配置为发送或传播其默认路由给其它路由器。
若使用的是RIP和OSPF,进入路由器配置模式,然后使用命令default-informationoriginate。
EIGRP可直接重分布默认路由;当然也可使用redistributestatic命令。
如果默认路由重分布的配置错误,连接到内部路由器的用户便可能无法访问外部网络。
排除WAN连通性故障
配置WAN接口时,可能遇到一系列的问题。
如果网络管理员仅能控制链路一端,另一端由ISP掌控,那么其中某些问题是无法避免的。
在此情况下,网络管理员使用ISP提供的配置信息来确保连通性。
在物理层,最常见的问题包括时钟频率、电缆类型、连接器有问题或松开。
串行线路将DCE设备连接到DTE设备。
连接设备时会用到两种不同类型的电缆:
DTE电缆和DCE电缆。
通常服务提供商处的DCE设备提供时钟信号。
目视检查每根电缆的连接是否松开、连接器是否有问题。
如果电缆始终无法正确连接,请用功能正常的电缆替换。
要显示电缆类型、检测DTE和DCE的状态、以及时钟频率,可使用以下命令:
showcontrollers
串行链路若要正常工作,链路两端的封装格式必须匹配。
Cisco路由器上使用的默认串行线路封装是HDLC。
由于CiscoHDLC和开放标准HDLC不兼容,当连接到非Cisco设备时请勿使用Cisco默认封装。
某些第2层封装的格式不止一种。
例如,Cisco路由器既支持专有的Cisco帧中继格式,也支持行业标准的IETF格式。
这些格式互不兼容。
Cisco设备上的默认格式是Cisco帧中继格式。
要查看串行线路上使用的封装,可使用命令:
showinterfaces
第3层配置也可能导致数据无法通过串行链路传输。
没有必要在串行链路上使用IP地址,但如果配置了地址,那么链路两端必须在同一个网络或子网中。
一种称为“串行线路地址解析协议”(SLARP)的过程会在串行链路一端配置了地址的情况下,为链路另一端指定地址。
SLARP认定每条串行线路是一个单独的IP子网,并认定线路的一端是1号主机,而另一端是2号主机。
只要串行链路的一端进行了配置,SLARP便会为另一端配置一个IP地址。
接口上配置的IP地址、端口以及线路协议的状态都可通过以下命令来查看:
showipinterfacebrief
在第3层信息通过链路传输之前,接口和协议都必须为up状态。
如果接口关闭,那接口自身就存在问题。
如果接口为up状态,但线路协议关闭,则检查连接的电缆是否正确、电缆
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 排除 企业 网络故障