AIX维护手册第5部分问题的确定和解决.docx
- 文档编号:10848927
- 上传时间:2023-02-23
- 格式:DOCX
- 页数:83
- 大小:325.68KB
AIX维护手册第5部分问题的确定和解决.docx
《AIX维护手册第5部分问题的确定和解决.docx》由会员分享,可在线阅读,更多相关《AIX维护手册第5部分问题的确定和解决.docx(83页珍藏版)》请在冰豆网上搜索。
AIX维护手册第5部分问题的确定和解决
IBMAIXV5.3系统管理(Test222)认证指南系列,第5部分:
问题的确定和解决(上)
ShivDutta(sdutta@),技术顾问,IBM
2007年12月20日
本文分两部分向您介绍不同的问题确定工具,以及何时使用它们。
还提供了一些示例,说明如何解释这些命令的输出以及如何采取正确的操作。
本文是摘自IBM红皮书《IBMCertificationStudyGuideeServerp5andpSeriesAdministrationandSupportforAIX5LVersion5.3》。
问题确定和解决
这个部分提供了一些相关的信息以帮助您解决网络、硬件、或者操作系统方面的问题。
网络问题
在这一部分中,您将了解系统中网络支持和故障诊断的一些重要的方面,包括修改网络适配器和接口。
请注意,本部分并没有提供网络支持方面的所有内容(因为网络可能是非常复杂的环境),但是为支持专业人员提供了一个很好的起点。
ping命令
ping命令适用于下列情况:
确定网络以及各种外部主机的状态
跟踪和隔离硬件和软件问题
测试、测量和管理网络
ping命令发送一个InternetControlMessageProtocol(ICMP)ECHO_REQUEST,以便从网络中的某台主机或者网关那里获取一个ICMPECHO_RESPONSE。
如果这台主机正在运行,并且位于该网络中,那么它将对ECHO请求做出响应。
每个ECHO请求包含一个InternetProtocol(IP)和ICMPHeader,后面紧跟着一个timeval结构,以及足够数量的字节以填充数据包。
在缺省情况下,ping命令每秒发送一个数据报,并为每个接收到的响应输出一行内容。
ping命令将计算往返时间,以及数据包丢失的统计信息,并在结束时显示简要的汇总信息。
当程序超时、或者收到一个SIGINT信号(Ctrl-C)时,ping命令将会结束。
对于ping命令,唯一必需的参数是一个有效的主机名、或者Internet地址。
说明:
因为持续的ECHO请求可能会加重系统的负担,所以主要应该在进行问题隔离的时候使用重复的请求。
下面的示例说明了ping命令的某些用途:
要检查到某台主机的网络连接,并指定发送五个ECHO请求,可以使用下面的命令:
#ping-c5server2
PING:
(9.3.5.195):
56databytes
64bytesfrom9.3.5.195:
icmp_seq=0ttl=255time=0ms
64bytesfrom9.3.5.195:
icmp_seq=1ttl=255time=0ms
64bytesfrom9.3.5.195:
icmp_seq=2ttl=255time=0ms
64bytesfrom9.3.5.195:
icmp_seq=3ttl=255time=0ms
64bytesfrom9.3.5.195:
icmp_seq=4ttl=255time=0ms
----PINGStatistics----
5packetstransmitted,5packetsreceived,0%packetloss
round-tripmin/avg/max=0/0/0ms
#
要显示所返回的数据包的路由缓冲区,可以运行下面的命令:
#ping-Rserver2
PING:
(9.3.5.195):
56databytes
64bytesfrom9.3.5.195:
icmp_seq=0ttl=255time=0ms
RR:
(9.3.5.195)
(9.3.5.196)
64bytesfrom9.3.5.195:
icmp_seq=1ttl=255time=0ms(sameroute)
64bytesfrom9.3.5.195:
icmp_seq=2ttl=255time=0ms(sameroute)
64bytesfrom9.3.5.195:
icmp_seq=3ttl=255time=0ms(sameroute)
64bytesfrom9.3.5.195:
icmp_seq=4ttl=255time=0ms(sameroute)
64bytesfrom9.3.5.195:
icmp_seq=5ttl=255time=0ms(sameroute)
^C
----PINGStatistics----
6packetstransmitted,6packetsreceived,0%packetloss
round-tripmin/avg/max=0/0/0ms
#
说明:
IPHeader最多只能记录九次路由。
另外,许多主机和网关将忽略这个选项。
如果您使用ping命令无法连接到相同子网中的其他计算机,那么应该在您的系统网络配置方面查找存在的问题。
arp和ifconfig命令可以帮助您隔离这个问题。
arp命令
arp命令可以显示并修改地址解析协议(AddressResolutionProtocol,ARP)所使用的Internet地址到物理地址(MAC地址)的转换表。
arp命令可以显示由HostName变量指定的主机的当前ARP条目。
可以通过名称或者数值(使用Internet带点的十进制表示法)来指定主机。
说明:
您可以使用arp命令来隔离仅在本地子网中存在的问题。
例如,在尝试对IP为9.3.5.193的系统使用ping命令时,我们获得了如下的输出:
#ping9.3.5.193
PING9.3.5.193:
(9.3.5.193):
56databytes
^C
----9.3.5.193PINGStatistics----
7packetstransmitted,0packetsreceived,100%packetloss
#
但是,当尝试对IP为9.3.5.196的系统使用ping命令时,我们获得了如下的输出:
#ping9.3.5.196
PING9.3.5.196:
(9.3.5.196):
56databytes
64bytesfrom9.3.5.196:
icmp_seq=0ttl=255time=0ms
64bytesfrom9.3.5.196:
icmp_seq=1ttl=255time=0ms
64bytesfrom9.3.5.196:
icmp_seq=2ttl=255time=0ms
64bytesfrom9.3.5.196:
icmp_seq=3ttl=255time=0ms
64bytesfrom9.3.5.196:
icmp_seq=4ttl=255time=0ms
^C
----9.3.5.196PINGStatistics----
5packetstransmitted,5packetsreceived,0%packetloss
round-tripmin/avg/max=0/0/0ms
#
查看arp表,我们发现(在使用grep命令对输出进行筛选之后):
#arp-a|grep9.3.5.19
(9.3.5.193)at(incomplete)
(9.3.5.196)at0:
2:
55:
d3:
dd:
0[ethernet]storedin
bucket46
IP为9.3.5.193的系统的物理地址无法解析;您应该在该系统中查找存在的问题。
如果您的系统无法解析相同子网中其他计算机的物理地址,那么您应该检查您的电缆连接。
ifconfig命令也可以用于检查网络接口的状态。
ifconfig命令
ifconfig命令可用于网络问题确定任务,以显示或更改接口的状态、或者重新定义IP地址,如下面的示例所示:
要显示接口en2的状态,可以输入:
#ifconfigen2
en2:
flags=5e080863,c0 64BIT,CHECKSUM_OFFLOAD,PSEG,CHAIN> inet9.3.5.196netmask0xffffff00broadcast9.3.5.255 tcp_sendspace131072tcp_recvspace65536 # 接口en2已经启用(UP)。 要仅显示那些已经禁用的接口,可以输入: #ifconfig-a-d en1: flags=5e080862,c0 BIT,CHECKSUM_OFFLOAD,PSEG,CHAIN> inet2.2.2.2netmask0xffffff00broadcast2.2.2.255 tcp_sendspace131072tcp_recvspace65536 # 这个输出显示,接口en1已经禁用(DOWN)。 如果您无法连接到子网中配置为这个接口的计算机,那么可以运行errpt命令,并查看是否报告了有关该接口的任何错误(例如,网络中存在重复的IP地址);运行diag命令以便对该接口进行诊断。 要启用接口en1并将其标记为活动的,可以输入下面的命令: #ifconfigen1up 如果这些接口没有任何问题,它们处于活动状态,并且您的系统无法连接到相同子网中的其他计算机,那么您应该检查该接口的子网掩码是否正确。 要将接口en1的子网掩码更改为255.255.255.252,可以输入下面的命令: #ifconfigen1netmask255.255.255.252up 网络路由配置也可能导致出现通信问题;traceroute命令可以帮助您对路由进行跟踪。 traceroute命令 traceroute命令将尝试跟踪IP数据包到某个Internet主机的路由,其具体方法是: 先启动一个具有较小的最大存活时间值的UDP探测数据包,然后侦听从沿途的网关发来的ICMPTIME_EXCEEDED响应。 探测数据包的存活时间值在开始时为一个跃点,每次对该值增加一个跃点,直至返回ICMPPORT_UNREACHABLE消息。 ICMPPORT_UNREACHABLE消息说明该主机已经被定位,或命令已经达到跟踪所允许的最大跃点数目。 说明: traceroute命令可用于网络测试、测量和管理方面。 它应该主要用于手动故障隔离。 由于它将加重网络的负担,所以不应该在正常操作的情况下、或者自动化的脚本中使用traceroute命令。 对于traceroute命令,唯一必需的参数是目标主机名、或者IP数值。 traceroute命令将根据传出接口的最大传输单元(MaximumTransmissionUnit,MTU)来确定探测数据包的长度。 它将UDP探测数据包设置为一个不可能的值,以便防止目标主机对其进行处理。 例如,如果您希望查看从IP地址为9.3.1.141的系统到IP地址为9.8.0.8的系统的路由信息,那么您应该输入下面的命令: #traceroute9.8.0.8 tryingtogetsourcefor9.8.0.8 sourceshouldbe9.3.1.141 tracerouteto9.8.0.8(9.8.0.8)from9.3.1.141(9.3.1.141),30hopsmax outgoingMTU=1492 1(9.3.1.74)11ms2ms2ms 29.444.33.129(9.444.33.129)4ms4ms4ms 3(9.3.90.200)7ms 4(9.3.200.202)8ms7ms 5(199.4.213.125)17ms19ms17ms 69.88.1.174(9.88.1.174)74ms80ms71ms 79.8.0.8(9.8.0.8)327ms329ms327ms 硬件问题 在这个部分中,我们将介绍如何解释errpt命令所生成的输出,以及如何运行诊断任务以查找与硬件相关的问题并进行故障排除。 errpt命令 errpt命令将从错误日志中的条目生成一个错误报告,但是它并不进行错误日志分析;对于错误分析,可以使用diag命令。 可以考虑下面的示例,其中通过执行errpt-a命令生成了一个错误报告: #errpt-a --------------------------------------------------------------------------- LABEL: LVM_SA_STALEPP IDENTIFIER: EAA3D429 Date/Time: TueDec623: 24: 37CST2005 SequenceNumber: 441 MachineId: 00C7CD9E4C00 NodeId: lpar20 Class: S Type: UNKN ResourceName: LVDD Description PHYSICALPARTITIONMARKEDSTALE DetailData PHYSICALVOLUMEDEVICEMAJOR/MINOR 0000000000000000 PHYSICALPARTITIONNUMBER(DECIMAL) 227 LOGICALVOLUMEDEVICEMAJOR/MINOR 8000000A00000005 SENSEDATA 00C7CD9E00004C0000000107706A336C00000000000000000000000000000000 --------------------------------------------------------------------------- (linesommited) . # 根据错误的类型,errpt-a报告可能包含下面的信息: LABEL——事件的预定义名称。 IDENTIFIER——事件的数值标识符。 Date/Time——事件的日期和时间。 SequenceNumber——事件的唯一编号。 MachineID——您的系统处理器单元的标识编号。 NodeID——您的系统的助记名称。 Class——错误的一般来源。 可能的错误类型包括: H——硬件。 S——软件。 ——信息性消息。 U——未定的。 Type——所发生的错误的严重程度。 可能的错误类型包括: PEND——设备或组件的可用性损失是急迫的。 PERF——设备或组件的性能已下降到可接受的级别以下。 PERM——出现了不可恢复的情况。 如果错误类型为这个值,那么通常是最严重的错误,并且很可能意味着出现了硬件设备或者软件模块的故障。 如果错误类型为PERM之外的其他值,通常并不表示故障,但是对这些错误进行了记录,以便可以使用诊断程序对它们进行分析。 TEMP——在出现多次不成功的尝试之后,所恢复到的状态。 这种错误类型也可以用于记录信息性条目,如DASD设备的数据传输统计信息。 UNKN——无法确定错误的严重程度。 INFO——错误日志条目是信息性的,并且不是某个错误所产生的结果。 ResourceName——检测到错误的资源的名称。 对于软件错误,这是某个软件组件或可执行程序的名称。 对于硬件错误,这是某个设备或系统组件的名称。 它并不表示该组件出现故障或者需要更换。 相反,它用于确定合适的诊断模块以用于对错误进行分析。 ResourceClass——检测到故障的资源的一般类别(例如,磁盘的设备类别)。 ResourceType——检测到故障的资源的类型。 LocationCode——设备的路径。 最多可能有四个字段,分别是抽屉、插槽、连接器和端口。 VPD——关键的产品数据。 这个字段的内容(如果存在)可能各不相同。 设备的错误日志条目通常返回有关设备制造商、序列号、工程变更级别、以及只读存储级别的信息。 Description——错误的汇总信息。 ProbableCause——一些可能的错误原因的列表。 UserCauses——由用户错误所导致错误的可能原因的列表。 用户所导致的错误可能包括不正确插入的磁盘、未能开启的外部设备(如调制解调器和打印机)。 Actions——对于纠正用户所导致的错误的推荐操作的描述。 InstallCauses——因为不正确的安装或者配置过程所导致错误的可能原因列表。 这种类型的错误包括硬件和软件不匹配、电缆的不正确安装或电缆连接变松,以及未能正确配置的系统。 Actions——对于纠正安装所导致的错误的推荐操作的描述。 FailureCauses——可能的硬件或者软件故障列表。 Actions——对于纠正故障的推荐操作的描述。 对于硬件错误,这将导致运行诊断程序。 DetailedData——针对每个错误日志条目的、唯一的故障数据,如设备检测数据。 可以考虑下面的示例错误输出,这是运行不带任何标志的errpt命令的错误输出: #errpt IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTION A6DF45AA1207112405IORMCdaemonThedaemonisstarted. 2BFA76F61205155605TSSYSPROCSYSTEMSHUTDOWNBYUSER 9DBCFDEE1207112305TOerrdemonERRORLOGGINGTURNEDON 192AC0711205155505TOerrdemonERRORLOGGINGTURNEDOFF 291D64C31202154105IHsysplanar0platform_dumpindicatorevent BFE4C0251202154105PHsysplanar0UNDETERMINEDERROR 291D64C31202154105IHsysplanar0platform_dumpindicatorevent 291D64C31202145005IHsysplanar0platform_dumpindicatorevent EAA3D4291202144505USLVDDPHYSICALPARTITIONMARKEDSTALE BFE4C0251202144505PHsysplanar0UNDETERMINEDERROR F6A86ED51202144105PSent7SERVICECALLFAILED F6A86ED51202144105PSent6SERVICECALLFAILED # 如果错误类别值为H,并且错误类型值为PERM(在这个示例中,标识符BFE4C025就是这种情况),则说明系统碰到了硬件问题,并且无法对其进行恢复。 可能存在与这种错误类型相关联的诊断信息。 如果错误类别值为H,并且错误类型值为PEND,则表示因为系统检测到大量的错误,以使得某个硬件马上将变得不可用。 如果错误类别值为S,并且错误类型值为PERM(在这个示例中,标识符F6A86ED5就是这种情况),则说明系统碰到了与软件相关的问题,并且无法对其进行恢复。 如果错误类别值为S,并且错误类型值为TEMP,则表示系统碰到了与软件相关的问题。 在经过几次尝试之后,系统能够对该问题进行恢复。 如果错误类别值为O,则表示已经记录了一个信息性消息(在这个示例中,标识符A6DF45AA、9DBCFDEE和192AC071就是这种情况)。 当您怀疑出现了硬件问题的时候,可以使用diag命令来帮助查找问题。 diag命令 diag命令是运行各种可选的任务和服务帮助的起点。 diag使用错误日志来诊断硬件问题。 为了正确地诊断新的系统问题,系统将删除错误日志中时间超过90天以上的、与硬件相关的条目。 系统还将删除所记录的时间超过30天以上的、与软件相关的条目。 说明: 如果您删除了时间在90天以内的硬件错误条目,那么可能会限制错误日志分析的有效性。 例如,要运行问题诊断程序,可以输入下面的命令: #diag 在“DIAGNOSTICOPERATINGINSTRUCTIONS”屏幕中,按Enter以继续;图1中显示了相应的菜单。 图1功能选择菜单 如果您选择了“DiagnosticRoutines”并按Enter,那么将显示“DIAGNOSTICMODESELECTION”菜单(如图2中所示)。 图2诊断模式选择菜单 如果您选择了“ProblemDetermination”,那么将对设备进行测试。 在测试结束之后,系统可能向您显示如下内容: “PREVIOUSDIAGNOSTICSRESULTS”,这意味着已经报告了一项或多项错误。 “ADDITIONALINFORMATION”屏幕,这意味着错误日志分析已经检测到某些需要您注意的情况。 “DIAGNOSTICSELECTION”菜单,如图3所示。 图3诊断选择 在“DIAGNOSTICSELECTION”屏幕中,显示了相关设备的列表。 通过将光标移动到某项资源并按Enter,您可以选择任何资源
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIX 维护 手册 部分 问题 的确 解决