HACMP第 5 部分后期安装工作和管理任务3.docx
- 文档编号:29210644
- 上传时间:2023-07-21
- 格式:DOCX
- 页数:25
- 大小:55.80KB
HACMP第 5 部分后期安装工作和管理任务3.docx
《HACMP第 5 部分后期安装工作和管理任务3.docx》由会员分享,可在线阅读,更多相关《HACMP第 5 部分后期安装工作和管理任务3.docx(25页珍藏版)》请在冰豆网上搜索。
HACMP第5部分后期安装工作和管理任务3
问题确定
HACMP提供了各种工具来确定问题。
集群配置和操作的每个方面都有多种对应的问题确定工具和技术。
在HACMP中进行问题确定需要有针对HACMP集群中的各个方面的特定技能,其中包括:
∙IBMpSeries硬件
∙AIX系统管理和问题确定
∙网络和TCP/IP
∙存储
∙应用程序
∙HACMP
HACMPProblemDetermination工具包括以下选项:
∙HACMP验证
∙集群状态
∙HACMP日志查看和管理
∙从脚本故障中恢复
∙从活动配置中还原配置数据库
∙释放由动态重新配置设置的锁
∙清除SSADiskFence注册
∙HACMP跟踪工具
∙事件模拟
∙错误通知
HACMP还提供了用于确定问题的SMIT菜单(请参见示例1)。
示例1问题确定工具
ProblemDeterminationTools
MovecursortodesireditemandpressEnter.
HACMPVerification
ViewCurrentState
HACMPLogViewingandManagement
RecoverFromHACMPScriptFailure
RestoreHACMPConfigurationDatabasefromActiveConfiguration
ReleaseLocksSetByDynamicReconfiguration
ClearSSADiskFenceRegisters
HACMPTraceFacility
HACMPEventEmulation
HACMPErrorNotification
OpenaSMITSessiononaNode
F1=HelpF2=RefreshF3=CancelF8=Image
F9=ShellF10=ExitEnter=Do
HACMP验证
在HACMPProblemDeterminationTools菜单下选择此选项即可使用缺省方法或自定义验证方法验证集群配置。
要访问此菜单,还可以使用smittyclverify.dialog快速路径(请参见示例2)。
示例2选择集群验证方法
VerifyCluster
Typeorselectvaluesinentryfields.
PressEnterAFTERmakingalldesiredchanges.
[EntryFields]
BaseHACMPVerificationMethodsboth+
(Clustertopology,resources,both,none)
Custom-DefinedVerificationMethods[my_app]+
ErrorCount[6]#
LogFiletostoreoutput[/tmp/my_app.log]
Verifychangesonly?
[No]+
Logging[Standard]+
F1=HelpF2=RefreshF3=CancelF4=List
F5=ResetF6=CommandF7=EditF8=Image
F9=ShellF10=ExitEnter=Do
缺省情况下,在基本HACMP验证方法中,系统会对集群拓扑和资源进行验证。
可以切换此输入字段来运行程序,也可以选择None在Custom-DefinedVerificationMethod字段中指定自定义验证方法。
∙自定义验证方法
自定义验证方法是客户提供的用于验证特定应用程序的HACMP配置的脚本,类似于应用程序启动/停止脚本。
在您想要将此脚本用于应用程序服务器时,必需向HACMP定义该脚本。
缺省情况下,如果您未选择任何方法,clverify实用程序将不会检查基本验证方法,并且会生成一条错误消息。
验证方法的列出顺序决定了所选方法的运行顺序。
此顺序在后续的验证中将保持不变,直到您选择了不同的方法。
选择All对所有自定义方法进行验证。
∙错误计数
缺省情况下,即使程序在运行过程中发现错误也会运行到最后。
要在错误数量达到某一特定值时取消此程序,请在此字段键入该数值。
∙创建日志文件来存储输出
输入用于存储验证输出的输出文件的名称。
缺省情况下,验证输出存储在缺省clverify日志中,路径为/var/hacmp/clverify/clverify.log。
∙验证模式
选择“normalverification”将运行适用于当前集群配置的所有验证检查。
选择“verifymodificationsonly”将对与HACMP配置中发生更改的部分相关的检查进行验证。
仅验证经过修改的配置类可加速验证过程。
注意:
系统仅在活动集群中对配置差异进行验证(DARE)。
在非活动集群中,选择“verifymodificationsonly”不起作用;无论是否选择它,系统都会对所有HACM配置类进行验证。
∙详细输出
选择“on”会将所有输出显示到通常存在于以下位置的控制台:
/var/hacmp/clverify/clverify.log。
缺省值为off。
Viewcurrentstate
在HACMPProblemDeterminationTools菜单中选择此选项将显示节点、通信接口、资源组的状态,以及最近五个事件的本地事件摘要。
HACMPlogviewingandmanagement
在HACMPProblemDeterminationTools菜单中选择此选项将转入与日志文件相关的实用程序的菜单。
在此您可以查看事件摘要,更改/显示日志文件参数,重定向日志文件,以及查看日志文件。
RecoverfromHACMPscriptfailure
在HACMPProblemDeterminationTools菜单中选择此选项可从HACMP脚本故障中恢复。
在集群事件失败及集群处于错误状态时,此选项是很有用的。
此类错误的一个示例是config_too_long事件,此事件在一个节点无法释放文件系统(由于“残余”进程)时可能会发生;因此,接管节点无法加载文件系统。
RecoverFromHACMPScriptFailure菜单选项调用/usr/es/sbin/cluster/utilities/clruncmd命令,该命令向指定节点上的ClusterManager守护进程(clstrmgrES)发送一个信号,指示该进程终止任何错误挂起事件脚本并稳定集群活动。
要从脚本故障中恢复,请运行smittyhacmp并选择SelectHACMPProblemDeterminationTools→RecoverFromScriptFailure,然后选择要对其运行clruncmd命令的节点的IP标签/地址,并按Enter。
Restoreconfigurationdatabasefromactiveconfiguration
在HACMPProblemDeterminationTools菜单中选择此选项,将在使用集群管理器当前使用的ActiveConfigurationDirectory(ACD)中的值恢复配置数据库之前,自动将快照中的任何配置更改保存到/usr/es/sbin/cluster/snapshots/UserModifiedDB文件中。
要执行此任务,请运行smittyhacmp并选择HACMPProblemDeterminationTools→RestoreHACMPConfigurationDatabasefromActiveConfiguration,然后按Enter。
Releaselockssetbydynamicreconfiguration
在动态重新配置(DARE)过程中,HACMP将为特定于HACMP的ODM类创建临时副本,并将这些副本存储在StagingConfigurationDirectory(SCD)中。
这允许您在动态重新配置进行的同时修改集群配置。
但是,在DARE完成之前您无法同步此新配置。
只要任何集群节点上存在SCD就会阻止动态重新配置。
如果节点在DARE过程中或由于其他任何原因而发生故障,则在动态重新配置完成之后节点上仍将存在StagingConfigurationDirectory(SCD),因此会阻止任何进一步的动态重新配置操作。
在这种情况下,您必需删除DARE锁;否则,您将无法执行任何配置更改(即使您将所有节点上的集群服务都停止也无济于事)。
要删除动态重新配置锁,请运行smittyhacmp→HACMPProblemDeterminationTools→ReleaseLocksSetByDynamicAutomaticReconfigurationEvent。
ClearSSAdiskfenceregisters
只有在紧急情况下,才可以在HACMPProblemDeterminationTools菜单中选择此选项(通常仅在IBM支持部门推荐这样做时才进行选择)。
注意:
共享存储的磁盘保留机制阻止从集群中的多个节点进行同时访问,这样可以避免数据损坏。
既可以在存储级别实施磁盘保留机制(SSA磁盘保留或SCSI3永久保留),也可以在软件级别实施磁盘保留机制(对特定的集群软件,如GeneralParallelFileSystem(GPFS))。
对于共享VG(非并发),HACMP依赖于硬件保留机制。
在集群操作过程中,发生故障的节点不能释放SSA存储的情况只占极少数,
因此,接管节点不能中断磁盘保留,这将让您能够通过启用共享卷组来接管资源组。
如果SSADiskFencing功能已启用,而出现了需要访问磁盘的一个或一组节点无法访问物理磁盘的情况,那么清除界限寄存器将允许访问。
执行此操作后,SSADiskFencing算法将被禁用,到HACMP从所有节点重新启动时此算法才会重新启用。
要中断DiskFencing,请运行smittyhacmp并选择HACMPProblemDeterminationTools→ClearSSADiskFenceRegisters。
然后选择一个或多个受影响的物理卷,并按Enter。
要再次启用SSADiskFencing,请在共享此存储的所有节点上重新启动集群服务。
我们建议您在清除SSA界限寄存器之前也应停止集群服务。
HACMPtracefacility
如果日志文件中没有相关的内容且逐组件分析不会产生具体的结果,则可以选择此选项。
您可能需要使用HACMP跟踪工具来尝试诊断问题。
此跟踪工具详细介绍了所选的系统事件。
请注意,必须同时运行HACMP和AIX软件才能使用HACMP跟踪。
请记住,此跟踪工具需要额外的磁盘空间来进行日志记录,并且还需要借助CPU之力来收集数据,因此会减慢集群节点上运行的应用程序的速度。
Eventemulation
选择此选项可模拟集群事件。
运行此实用程序让您能够运行会产生输出但并不影响集群配置状态的事件脚本。
这让您能够预测集群在发生事件时的响应,就像事件实际发生时一样。
EventEmulator遵循ClusterManager在处理特定事件时使用的过程,但是不会执行任何将更改ClusterManager状态的命令。
事件模拟器会对稳定集群的每个活动节点运行事件脚本。
每个节点的输出都存储在调用模拟的节点上的输出文件中。
注意:
可以使用环境变量EMUL_OUTPUT指定输出文件的名称和位置;若不进行指定,系统将使用缺省输出文件(/tmp/emuhacmp)。
HACMPerrornotification
虽然HACMP软件不会监视磁盘资源的状态,但是它为AIXErrorNotification工具提供了一个SMIT接口。
AIXError
Notification工具让您能够检测未受HACMP软件监视的事件。
事件(错误)是使用错误标签进行标识的,如errpt命令所报告的(请参见示例3)。
例如,您可以使用此方法确定磁盘适配器故障(未受HACMP监控),决定集群应采取的响应(使RG脱机、接管等)。
示例3错误标识符(错误ID)
[p630n01][/]>errpt
IDENTIFIERTIMESTAMPTCRESOURCE_NAMEDESCRIPTION
..............
2E493F130820043104PHhdisk19ARRAYOPERATIONERROR
2E493F130820043104PHhdisk19ARRAYOPERATIONERROR
............
[p630n01][/]>errpt-a-j2E493F13
LABEL:
FCP_ARRAY_ERR2
IDENTIFIER:
2E493F13
Date/Time:
FriAug2004:
31:
17EDT
SequenceNumber:
25654
MachineId:
0006856F4C00
NodeId:
p630n01
Class:
H
Type:
PERM
ResourceName:
hdisk19
ResourceClass:
disk
ResourceType:
array
Location:
U0.1-P2-I3/Q1-W200200A0B812106F-LF000000000000
..............................
回页首
HACMP日志
通常,诊断影响集群的问题的第一种方法应是检查集群日志文件。
对于大多数问题,/tmp/hacmp.outfile是最有用的日志文件。
我们在最新的版本中增强了资源组处理能力,同时还对hacmp.out文件进行了扩展,使其能够捕获更多有关资源组的活动和位置的信息。
HACMP日志文件
HACMP软件可以将其生成的消息写入系统控制台和几个日志文件中。
每个日志文件都包含HACMP软件生成的消息的子集,并且这些子集互不相同。
在作为组查看时,日志文件可提供集群活动的详细视图。
虽然日志文件在系统中的实际位置可能看起来是分散的,但是日志多样性使信息可用于几乎所有HACMP事件。
此外,您可以自定义日志文件的位置,并指定详细的日志记录操作。
重要:
我们建议您使集群中所有节点间的系统时间保持同步。
这样做可以使日志分析和问题确定更加方便。
下面的列表描述了HACMP软件向其中写入消息的日志文件,以及这些日志文件中包含的集群消息的类型。
此列表还就如何使用不同的日志文件提供了建议。
注意:
此处列出了缺省日志目录;您可以选择将日志文件重定向到所选的目录。
/usr/es/adm/cluster.log
包含由HACMP脚本和守护进程生成的带时间戳的格式化消息。
/tmp/hacmp.out
包含HACMP脚本当天生成的带时间戳的格式化消息。
在详细模式(推荐使用)下,此日志文件包含脚本执行的每条命令的逐行记录,其中包括各条命令中用到的所有参数的值。
每个事件详细信息的结尾处都包括各高级事件的事件摘要(类似于在shell脚本中添加-x选项)。
系统错误日志
包含由所有AIX子系统(包括脚本和守护进程)生成的带时间戳的格式化消息。
/usr/es/sbin/cluster/history/cluster.mmddyyyy
包含由HACMP脚本生成的带时间戳的格式化消息。
系统每天都会创建集群历史文件,通过文件的文件名扩展来识别各文件,其中mm指示月份,dd指示日期,yyyy指示年份。
/tmp/clstrmgr.debug
包含由clstrmgrES活动生成的带时间戳的格式化消息。
这些消息都是非常详细的。
在调试功能打开的情况下,此文件会快速变大。
您应清理此文件并尽快关闭调试选项。
/tmp/cspoc.log
包含由HACMPC-SPOC命令生成的带时间戳的格式化消息。
此文件驻留在调用C-SPOC命令的节点上。
/tmp/dms_loads.out
每次在HACMP存储日志消息时都会触发deadman开关。
/tmp/emuhacmp.out
包含由HACMPEventEmulator生成的带时间戳的格式化消息。
这些消息收集自集群中各节点上的输出文件,并且被归类到/tmp/emuhacmp.out日志文件中。
/var/hacmp/clverify/clverify.log
此文件包含clverify实用程序输出的详细信息。
这些消息指示发生验证错误的节点(一个或多个)、设备、命令等。
/var/ha/log/grpsvcs、/var/ha/log/topsvcs和/var/ha/log/grpglsm
包含带时间戳的ASCII格式的消息。
所有这些文件都会跟踪其对应的守护进程中内部活动的执行情况。
有关查看日志文件的更多信息,请参考HACMPforAIX5LV5.1AdminstrationandTroubleshootingGuide,SC23-4862-02。
回页首
快照
集群快照实用程序允许您将定义特定集群配置的所有数据的记录保存在一个文件中。
此工具让您能够通过一个名为应用快照的过程重新创建特定的集群配置,前提是此集群配备有支持此配置所需的硬件和软件。
此外,快照可为排查集群问题提供有用的信息。
因为快照是一些简单的ASCII文件,可以通过电子邮件进行发送,所以它们可以使进行远程问题确定更方便。
集群快照可用于“克隆”集群配置,同时还提供了一种可从上一HACMP版本中迁移集群的方法(此方法被称为快照转换迁移)。
快照信息
集群快照中保存的主要信息是HACMPODM类(如HACMPcluster、HACMPnode、HACMPnetwork和HACMPdaemons)中存储的数据。
在应用集群快照时,这些信息可用于重新创建集群配置。
注意:
集群快照不会保存任何用户自定义的脚本、应用程序服务器脚本或其他非HACMP配置参数。
集群快照也不存储超出HACMP范围之外的任何特定于设备或特定于配置的数据。
例如,集群快照会保存共享文件系统和卷组的名称;但是不会保存其他详细信息,如NFS选项或LVM镜像配置。
快照格式
集群快照实用程序可将其保存的数据存储到以下两个不同的文件中:
ODM数据文件(.odm)
此文件包含集群的HACMPODM对象类中存储的所有数据。
此文件被赋予带有.odm文件扩展名的用户定义的基本名称。
因为每个集群节点上的ODM信息都必须相同,所以集群快照只需存储一个节点上的值。
集群状态信息文件(.info)
此文件包含标准的AIX和HACMP系统管理命令(C-SPOC)的输出。
此文件被赋予带有.info文件扩展名的同一用户定义的基本名称。
任何自定义快照方法的输出都会追加到此文件中。
clconvert_snapshot实用程序
您可以运行clconvert_snapshot命令对集群快照进行转换,以便从以前的HACMP版本迁移到最新版本。
clconvert_snapshot实用程序不会在安装期间自动运行,而是必须总是从命令行运行。
每次您运行此实用程序时,转换进度都会被记录到/tmp/clconvert.log文件中。
注意:
只有拥有root用户权限才能运行clconvert_snapshot命令。
为运行此实用程序,您必须指定要从其中进行转化的HACMP版本。
添加集群快照
可以从任何集群节点上启动集群快照创建。
可以在运行的集群上创建集群快照,并且可以创建多个快照。
集群快照实用程序可以从集群中的各个节点中检索信息。
需要能够访问所有节点。
由于在创建集群快照时必须要检索大量数据,因此占用的时间和内存可能是非常巨大的,在集群中有多个节点时更是如此。
集群快照文件通常需要每个节点大约10KB(请参见示例4)。
要创建集群快照,请运行smittyhacmp并选择HACMPExtendedConfiguration→HACMPSnapshotConfiguration→AddaClusterSnapshot或使用smittycm_add_snap.dialog快速路径(请参见示例4)。
填写下列字段:
Clustersnapshotname
您要用作集群快照文件的基本名称的名称。
存储和检索快照的缺省目录路径为/usr/es/sbin/cluster/snapshots。
可以使用SNAPSHOTPATH环境变量指定一个备选路径。
Customdefinedsnapshotmethods
如果愿意,可以指定一个或多个要执行的自定义快照方法。
Clustersnapshotdescription
输入要插入到集群快照中的任何描述性文本。
示例4添加集群快照
AddaClusterSnapshot
Typeorselectvaluesinentryfields.
PressEnterAFTERmakingalldesiredchanges.
[EntryFields]
*ClusterSnapshotName[snapshot01]/
Custom-DefinedSnapshotMethods[]+
SaveClusterLogFilesinsnapshotNo+
*ClusterSnapshotDescription[ConfigbeforeOLPW]
F1=HelpF2=RefreshF3=CancelF4=List
F5=ResetF6=CommandF7=EditF8=Image
F9=ShellF10=ExitEnter=Do
应用集群快照
应用集群快照将使用快照中包含的新的ODM数据覆盖此集群中所有节点上现有HACMPODM类中的数据。
可以从任何集群节点上应用集群快照。
如果所有集群节点上的集群服务都处于非活动状态,则应用快照将更改系统缺省配置目录(DCD)中存储的ODM数据。
如果本地节点上的集群服务处于活动状态,则应用快照将触发集群范围内的动态重新配置事件。
如果应用过程失败或者出于某种原因您想返回到以前的配置,可以重新应用自动保存的配置(请参见示例5)。
要使用S
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HACMP第 部分后期安装工作和管理任务3 HACMP 部分 后期 安装 工作 管理 任务
![提示](https://static.bdocx.com/images/bang_tan.gif)