华为虚拟化FusionSphere常见故障管理.docx
- 文档编号:27881413
- 上传时间:2023-07-06
- 格式:DOCX
- 页数:134
- 大小:138.05KB
华为虚拟化FusionSphere常见故障管理.docx
《华为虚拟化FusionSphere常见故障管理.docx》由会员分享,可在线阅读,更多相关《华为虚拟化FusionSphere常见故障管理.docx(134页珍藏版)》请在冰豆网上搜索。
华为虚拟化FusionSphere常见故障管理
华为虚拟化FusionSphere
常见故障管理
1故障处理概述
1.1故障处理流程
故障处理总体流程主要分为四个过程:
故障信息收集、故障判断、故障定位、故障排除。
具体实施过程如图1所示。
说明:
处理重大故障前,请先联系技术支持处理。
图1常见故障处理流程
故障信息收集
故障信息是故障处理的重要依据,系统维护人员应尽可能多的收集故障信息。
故障判断
排除故障之前,系统维护人员根据收集的故障详细信息,对故障范围和类型进行判断。
故障定位
故障定位是指从众多可能原因中找出故障原因的过程。
通过一定的方法或手段分析、比较各种可能的故障成因,不断排除非可能因素,最终确定故障发生的具体原因。
以下是故障定位的常用方法:
∙在管理界面查看告警信息
∙在管理界面查看监控信息是否正常
∙查询操作日志,分析操作过程是否有误
∙在管理界面检查数据配置是否正确
∙观察设备指示灯状态是否正常
故障排除
故障排除是指根据不同的故障原因清除故障的过程。
故障排除包括检修线路、修改配置数据、重启相关进程、重启服务器等。
说明:
当系统维护人员无法自行排除故障时,请联系技术支持。
确认故障是否被排除
通过查询设备状态、查看设备指示灯和告警等方法确认系统已正常运行,并进行相关业务调测以确保业务正常。
记录故障处理过程
故障排除后应记录故障处理要点,给出针对此类故障的防范和改进措施,避免同类故障再次发生。
1.2故障分类
FusionCompute提供的故障处理如表1所示。
表1故障处理一览表
故障大类
故障
子类
故障名称
常见故障处理
用户虚拟机故障
∙虚拟机蓝屏
∙SUSE虚拟机网卡不可用
∙Ubuntu10.04及以上版本操作系统中uvp-monitor进程未启动
∙WindowsServer2003虚拟机绑定USB2.0设备后,虚拟机黑屏或关机失败
∙SUSE10虚拟机不能正常使用USB2.0设备
∙SUSE11SP232bit多网卡虚拟机无法获取到网关
∙重启或关闭主机网络服务后,主机网络异常
∙虚拟机同时绑定SCSI磁盘和IDE磁盘时无法正常启动
∙本地磁盘的ext4文件系统损坏
∙虚拟机内存数值显示异常
∙跨主机通信的虚拟机间通信带宽过低
∙虚拟机重启后网络不通
管理节点故障
∙单个VRM虚拟机操作系统故障
∙单个VRM物理节点操作系统故障
∙主机操作系统故障
∙VRM虚拟机本地存储双盘故障
∙VRM虚拟机关机后无法启动
操作维护类故障
∙FusionComute无法获取监控数据
∙修改虚拟机IP后虚拟机通信中断
∙主机管理网络配置与交换机不匹配
∙异常掉电再上电后,任务长时间无响应
∙网络数据残留导致添加主机失败
∙主备VRM节点无法ping通仲裁IP地址
∙高斯数据库分区使用率超过95%,导致FusionCompute无法登录
∙卷删除成功后解关联或销毁数据存储失败
∙使用虚拟化SAN存储的主机异常重启
∙交换机开启STP功能导致添加主机失败
Tools故障
∙Windows下安装Tools时弹出警告提示
∙Windows下安装Tools时异常中止
应急处理
管理节点故障
∙主备VRM虚拟机操作系统同时故障
∙主备VRM物理节点操作系统同时故障
∙共享存储的VIMS文件系统损坏
部件更换
-
∙部件更换策略
∙更换主机
∙拆卸/增加/更换物理网卡
FusionManager提供的故障处理如表2所示。
表2故障处理一览表
故障大类
故障
子类
故障名称
常见故障处理
管理节点故障
∙修改FusionManager管理IP地址导致FusionManager连接异常
∙修改VSAM管理IP地址导致VSAM连接异常
∙单个FusionManager虚拟机故障
∙VSAM虚拟机故障
∙主备VSAM虚拟机同时故障
∙VSA虚拟机故障
∙VSAM数据库密码不一致导致连接异常
操作维护类故障
∙修改虚拟机IP后虚拟机通信中断
∙主机关联的数据存储异常
∙界面字符显示乱码
∙主备VSAM节点无法ping通仲裁IP地址
∙高斯r数据库分区使用率超过95%,导致FusionManager与VSAM无法通信
∙删除创建失败的网络后仍残留端口组信息
应急处理
管理节点故障
主备FusionManager虚拟机同时故障
系统时间故障
-
系统时间错误
2常见故障处理
2.1用户虚拟机故障
2.1.1虚拟机蓝屏
现象描述
虚拟机蓝屏或黑屏。
可能原因
虚拟机安装的操作系统与虚拟机选项中的操作系统类型或版本不同。
主机异常下电,导致主机上的虚拟机操作系统文件被破坏。
定位思路
无。
处理步骤
检查操作系统类型以及版本号
1.登录FusionCompute。
2.在出现故障的虚拟机的“选项>操作系统”页面查看虚拟机选择的操作系统类型以及版本号。
3.对比查看到的操作系统类型以及版本号与虚拟机实际安装的是否一致。
▪是,执行步骤8。
▪否,执行步骤4。
4.关闭虚拟机。
5.在虚拟机的“选项>操作系统”页面,将操作系统类型以及版本号修改为实际安装的。
6.启动虚拟机。
7.故障是否恢复?
▪是,处理完毕。
▪否,执行步骤10。
重启虚拟机
8.重启虚拟机。
9.故障是否恢复?
▪是,处理完毕。
▪否,执行步骤10。
删除虚拟机
10.是否为新创建的虚拟机?
▪是,步骤11。
▪否,步骤12。
11.删除该虚拟机,重新创建新虚拟机。
处理完毕。
恢复虚拟机
说明:
以下操作以WindowsXP操作系统为例,使虚拟机通过光驱启动,并完成相应的操作。
12.在FusionCompute中,使用VNC方式登录故障虚拟机。
13.挂载操作系统的ISO文件并重启虚拟机。
14.虚拟机重启过程中,出现以下提示信息时,按任意键,使虚拟机通过光驱启动。
PressanykeytobootfromCD.
15.按“Enter”。
进入安装程序界面。
16.输入“R”。
系统开始修复安装。
17.根据界面提示,按照默认设置完成安装。
18.卸载光驱。
每个主机以本地方式最多只能给32个虚拟机挂载光驱。
因此,使用完毕后,请及时卸载光驱。
修改虚拟机启动方式
19.选择“虚拟机和模板”。
20.在“虚拟机”页签,单击虚拟机名称。
显示“概要”页签。
21.在“选项”页签,将虚拟机的启动方式修改为“硬盘启动”。
检查虚拟机状态
22.重新登录故障虚拟机。
23.故障是否恢复?
▪是,处理完毕。
▪否,执行步骤24。
恢复虚拟机的系统盘
24.在FusionCompute中,强制关闭该虚拟机。
25.解绑定故障虚拟机的系统盘。
26.将该磁盘以用户磁盘的方式,绑定给另一台虚拟机(以下操作中称为“虚拟机B”)。
27.以VNC方式登录虚拟机B。
28.右键单击“我的电脑”,选择“管理”。
弹出“计算机管理”窗口。
29.选择“存储>磁盘管理”。
30.右键单击新绑定的磁盘,选择“更改驱动器号和路径”。
31.单击“更改”,并分配驱动器号,例如:
E。
32.单击“确定”。
弹出确认提示框。
33.单击“是”。
返回“计算机管理”窗口,更改完成。
34.对该磁盘中的系统文件进行恢复,并备份用户数据。
具体操作请参考对应操作系统的文档。
35.将该磁盘以系统磁盘的方式,重新绑定给原故障虚拟机。
36.以VNC方式登录故障虚拟机。
37.故障是否恢复?
▪是,处理完毕。
▪否,请联系技术支持。
参考信息
无。
2.1.2重启或关闭主机网络服务后,主机网络异常
现象描述
重启或关闭主机的网络服务后,主机网络异常,主机上的虚拟机无法对外通信。
可能原因
∙关闭网络服务后,系统会清除该主机上所有IP。
∙网络服务重启后,主机上的网桥对象仍存在,但主机的IP已从Mgnt-0管理系统接口转移至上行链路物理网口。
带有IP的上行链路物理网口连接在网桥上,因此主机及其上的虚拟机无法对外通信。
定位思路
无。
处理步骤
1.在本地PC上打开浏览器,在浏览器地址栏输入以下地址,按“Enter”。
http:
//主机BMCIP地址
或https:
//主机BMCIP地址
进入登录界面。
2.根据界面提示登录主机BMC系统。
主机的BMC默认用户名为“root”,默认密码为“Huawei12#$”。
登录后进入主机管理页面。
说明:
如果刀片式服务器无法登录单个刀片的BMC系统,建议登录刀片所在机框的管理模块(SMM板),然后打开对应刀片的远程控制窗口。
3.单击“远程控制”。
部分华为服务器需要在“远程控制”页面选择“远程虚拟控制台(JRE支持)”打开远程控制窗口。
弹出主机远程控制窗口。
4.以“root”用户登录主机。
5.执行以下命令,重启主机。
reboot
6.主机重启成功后,检查主机及主机上的虚拟机对外通信是否正常。
▪是,操作结束。
▪否,请联系技术支持。
参考信息
无。
2.1.3本地磁盘的ext4文件系统损坏
现象描述
当服务器被异常下电时,存在虚拟机无法启动。
虚拟化本地磁盘的ext4文件系统变为只读,甚至无法挂载。
具体查看的方法:
登录异常的主机,执行命令cat/proc/mounts,回显ro,说明本地磁盘的ext4文件系统已损坏。
可能原因
∙超级块损坏。
超级块是文件系统中最重要的数据结构,它是来描述整个文件系统信息。
∙文件元数据损坏。
元数据用来描述一个文件特征的系统数据,诸如访问权限、文件拥有者以及文件数据块的分布信息等等。
定位思路
无。
处理步骤
停止故障存储设备上的业务运行
1.使用“PuTTY”登录故障存储设备所在主机。
2.停止故障的存储设备上运行的所有业务。
说明:
停止虚拟机会使该虚拟机上运行的业务暂停,请在无业务时执行该操作。
停止虚拟机的方法:
▪用户虚拟机:
在FusionCompute界面上关闭所有的用户虚拟机,
▪VRM虚拟机:
VRM虚拟机无法在界面上关闭,需登录VRM所在主机,执行命令关闭。
命令为:
virshdestroy虚拟机ID
3.执行以下命令,记录挂载目录。
mount
回显类似如下信息:
/dev/sdgon/mnttypeocfs2(rw,_netdev,noatime,nodiratime,novdilock,commit=1,localalloc=2048,heartbeat=local)
其中,/mnt为ext4文件系统在主机上的挂载目录。
4.依次登录所有使用该文件系统的主机,执行以下命令卸载该文件系统,确保其不被任何节点使用。
注意:
不可对该文件系统进行格式化操作。
umountmount_point
其中,mount_point为步骤3中记录的ext4文件系统在主机上的挂载目录。
修复损坏的数据
5.执行如下命令,检查故障设备。
fsck.ext4-fndevice
其中,device为故障存储设备在主机上的存放路径,例如“/dev/sda”。
当回显信息出现“fsck.ext4:
Superblockinvalid,tryingbackupblocks...”字样时,表示超级块损坏。
当回显信息出现“/dev/sda9:
**********WARNING:
Filesystemstillhaserrors**********”字样时,表示文件元数据损坏。
6.根据损坏的数据类型,执行相应的操作。
▪超级块损坏,执行步骤7。
▪文件元数据损坏,执行步骤8。
7.执行以下命令,恢复超级块数据。
注意:
如果损坏的文件系统中的数据非常重要,建议先通过ddif=
fsck.ext4-bnumdevice-y
其中,num为备份的超级块序号,可选择设备大小范围内对应的任意块编号,具体见如下说明。
device为步骤5中的存放路径。
说明:
ext4会通过备份文件系统超级块的方式来提供文件系统的容错性,会在磁盘的多处备份超级块。
例如一个500G的设备,分别在设备的块号为32768,98304,163840,229376,294912,819200,884736,1605632,2654208,4096000,7962624,11239424,20480000,23887872,71663616,78675968,102400000处备份。
主超级块损坏时可以用文件系统一致性检查工具(fsck.ext4)把备用超级块写回主超级块处,恢复文件系统。
该步骤执行完成后,执行步骤9。
8.执行以下命令,恢复文件元数据。
注意:
如果损坏的文件系统中的数据非常重要,建议先通过ddif=
fsck.ext4-ydevice
device为步骤5中的存放路径。
9.执行如下命令,查看文件系统是否还有异常?
fsck.ext4-fndevice
▪是,请联系技术支持。
▪否,处理完毕。
参考信息
无。
2.1.4虚拟机内存数值显示异常
现象描述
如果虚拟机为以下操作系统,且虚拟机所在集群已启用“主机内存复用”,虚拟机的内存数值可能会出现异常,即total(总内存)的数值小于free(空闲内存)的数值。
∙RedHatEnterpriseLinux6.032位
∙RedHatEnterpriseLinux6.132位
∙CentOS6.032位
∙CentOS6.132位
查询虚拟机内存数值时,回显如下所示。
其中total的值(1904388)小于free的值(1916752)。
[root@vm01~]#free
totalusedfreesharedbufferscached
Mem:
190438899124180526402322088268
-/+buffers/cache:
42949549321916752
Swap:
625868006258680
可能原因
虚拟机中关闭了kdump服务,同时在Linux内核启动配置文件中配置了参数“crashkernel=auto”,由于操作系统内核本身对内存初始化的特殊处理方法,导致Tools初始化时得到的内存相关值与操作系统内核本身的值存在差异,最终导致内存数值出现异常。
定位思路
无。
处理步骤
1.登录虚拟机。
2.在命令行窗口中,执行以下命令,使用vi编辑器打开“menu.lst”文件。
vi/boot/grub/menu.lst
3.按“i”键,进入编辑模式。
配置文件示例如下。
default=0
timeout=5
splashimage=(hd0,0)/grub/splash.xpm.gz
hiddenmenu
titleRedHatEnterpriseLinuxServer(2.6.18-164.el5)
root(hd0,0)
kernel/vmlinuz-2.6.18-164.el5roroot=/dev/VolGroup00/LogVol00crashkernel=autorhgbquietide0=noprobeide1=noprobe
initrd/initrd-2.6.18-164.el5.img
4.删除“crashkernel=auto”。
5.按“Esc”退出编辑模式,并输入:
wq保存退出。
6.重启虚拟机。
参考信息
无。
2.1.5虚拟机重启后网络不通
现象描述
配置了静态IP地址和网关的虚拟机在重启后出现网络不通,VNC登录该虚拟机查看网络配置,发现网关丢失。
可能原因
虚拟机的计算机名与网络中其他虚拟机计算机名相同,在网络中注册IP地址时导致冲突。
定位思路
对于Windows虚拟机,VNC登录虚拟机,在“开始菜单”右键单击“计算机”,选择“管理”,在计算机管理中选择“计算机管理(本地)>系统工具>事件查看器>Windows日志>系统”中查看日志,其中存在级别为“错误”的日志信息,描述为虚拟机的计算机名不能注册到某IP地址,因为另一个IP地址已经占用该计算机名。
对于Linux虚拟机,VNC登录该虚拟机,查看网卡配置,发现网卡的网关丢失。
处理步骤
1.判断虚拟机操作系统类型。
∙Windows虚拟机,执行步骤2。
∙Linux虚拟机,执行步骤7。
2.(Windows虚拟机操作以Windows7操作系统为例)使用VNC登录虚拟机,在“开始菜单”右键单击“计算机”,选择“属性”。
3.在右侧单击“更改设置”。
弹出“系统属性”窗口。
4.在“计算机名”页签单击“更改”。
弹出“计算机名/域更改”对话框。
5.修改计算机名为环境中唯一的计算机名,然后单击“确定”。
6.重新设置计算机的网卡属性。
处理完毕。
7.(Linux虚拟机操作以SUSE操作系统为例)使用VNC登录虚拟机,执行vi/etc/hostname命令以VI编辑器打开主机名配置文件。
说明:
对于RedHat操作系统,需要先执行echo'HOSTNAME='$hnOld>>$mountpath/etc/sysconfig/network命令将原主机名写入配置文件,然后执行vi/etc/sysconfig/network命令以VI编辑器打开主机名配置文件。
8.按“i”进入编辑模式,修改“HOSTNAME”的值为全网段唯一的名称。
9.按“ESC”并输入:
wq保存修改。
10.执行vietc/syscionfig/network/route命令以VI编辑器打开网关配置文件。
11.按“i”进入编辑模式,修改“default”后的值为正确的网关。
12.按“ESC”并输入:
wq保存修改。
处理完毕。
说明:
对于有操作界面的Linux系统,可通过界面直接修改网卡的网关信息。
参考信息
无
2.2FusionCompute管理节点故障
2.2.1单个VRM虚拟机操作系统故障
现象描述
系统运行过程中,出现以下故障现象,需要参考本故障处理操作,使业务快速恢复正常。
∙VRM主备部署时,单个VRM虚拟机故障,且重启该虚拟机后业务仍无法恢复。
∙出现“ALM-15.1002000主备间节点心跳故障”告警。
∙VRM主备部署时,单个VRM虚拟机所在主机异常下电。
主机重新上电后切换该VRM虚拟机为VRM主节点,可打开FusionCompute登录界面,但无法登录。
可能原因
VRM虚拟机文件系统被破坏。
定位思路
无。
处理步骤
查询故障VRM节点的信息
1.登录FusionCompute。
说明:
若出现“现象描述”中第三种情况,此时无法登录FusionCompute,则需要重启故障VRM所在主机,待主备VRM倒换后,再登录FusionCompute。
2.在“监控>告警”页面,找到生成的“ALM-15.1002000主备间节点心跳故障”告警,查看该告警的附加信息并记录该故障节点的IP地址。
3.选择“虚拟机和模板”。
4.在“虚拟机”页面,通过虚拟机的IP地址找到故障VRM虚拟机。
5.查看并记录故障VRM虚拟机所属的主机。
6.在“主机”页签,通过主机名称找到故障VRM虚拟机所在主机。
7.查看并记录该主机的IP地址。
修改主机配置
8.使用“PuTTY”,登录故障VRM节点所在主机。
以“gandalf”用户,通过管理IP地址登录。
9.执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。
su-root
10.执行以下命令,防止系统超时退出。
TMOUT=0
11.执行以下命令,修改VRM监控配置。
cd/opt/galax/eucalyptus/usr/share/eucalyptus
shvrm_monitor.shset
显示如下信息,表示VRM监控配置修改成功。
setVM_RECOVER_TIMEsucceed
重新安装故障VRM虚拟机
12.在FusionCompute中,使用VNC方式登录故障VRM虚拟机。
13.挂载光驱,选择“FusionComputeV100R006C00U1_VRM.iso”。
此处不勾选“立即重启虚拟机,安装操作系统”。
14.使用“PuTTY”,登录故障VRM虚拟机所在主机。
以“gandalf”用户,通过管理IP地址登录。
15.执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。
su-root
16.执行以下命令,防止系统超时退出。
TMOUT=0
17.执行以下命令,设置故障VRM虚拟机从光驱启动。
/opt/galax/NCclientncModifyBootVRM虚拟机IDcdrom
18.执行以下命令,强制重启故障VRM虚拟机。
/opt/galax/NCclientncRebootVMVRM虚拟机ID1
例如:
/opt/galax/NCclientncRebootVMi-000000011
19.重新安装VRM虚拟机。
安装之前,请记录VRM虚拟机原有的IP地址、主机名和用户密码,重新安装时,这些信息需要与原有的保持一致。
说明:
重新安装的VRM版本必须与故障前保持一致,如不一致,请重新安装或者升级到相同版本。
卸载光驱
20.在虚拟机“硬件”页签中,单击“光驱”。
21.在光驱页面,单击“卸载光驱”。
弹出提示框。
22.单击“确定”。
完成卸载光驱。
23.是否使用智能网卡?
▪是,执行步骤30。
▪否,执行步骤24。
检测和恢复网卡乱序
24.使用“PuTTY”,登录故障VRM虚拟机所在主机。
以“gandalf”用户,通过管理IP地址登录。
25.执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。
su-root
26.执行以下命令,防止系统超时退出。
TMOUT=0
27.执行以下命令,查询VRM虚拟机的DomainID。
xllist
回显如下类似信息,其中“ID”列显示的值为虚拟机的DomainID。
NameIDMemVCPUsStateTime(s)
Domain-0035842r-----191256.0
i-00000002130712-b----125717.7
i-0000000D33163832-b----27127.6
说明:
以查询到的VRM虚拟机的DomainID为33为例,则eth0对应的虚拟网口为vif33.0。
28.执行以下命令,查询VRM虚拟机的eth0网口是否已乱序。
xenstore-ls-f|grep"vif/DomainID
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 华为 虚拟 FusionSphere 常见故障 管理