VMWare vSAN监控和故障排除指南.docx
- 文档编号:6066107
- 上传时间:2023-01-03
- 格式:DOCX
- 页数:49
- 大小:320.98KB
VMWare vSAN监控和故障排除指南.docx
《VMWare vSAN监控和故障排除指南.docx》由会员分享,可在线阅读,更多相关《VMWare vSAN监控和故障排除指南.docx(49页珍藏版)》请在冰豆网上搜索。
VMWarevSAN监控和故障排除指南
VMWarevSAN监控和故障排除
指南
VMwarevSphere7.0
VMwarevSAN7.0
关于vSAN监控和故障排除5
1vSAN简介6
2监控vSAN群集7监控vSAN容量7监控物理设备9
监控加入vSAN数据存储的设备10监控vSAN群集中的虚拟对象10关于vSAN群集重新同步10
在vSAN群集中监控重新同步任务11
限制vSAN群集中的重新同步活动12
关于vSAN群集重新平衡13
监控被动重新平衡13
配置自动重新平衡13
使用vSAN默认警报14
查看vSAN默认警报14
使用VMkernel观察创建警报14
为vSAN事件创建vCenterServer警报15
3监控vSAN运行状况17
关于vSAN运行状况服务17
检查vSAN运行状况18
从ESXiHostClient监控vSAN19
主动测试19
4监控vSAN性能21
关于vSAN性能服务21配置vSAN性能服务22使用保存的时间范围22查看vSAN群集性能23查看vSAN主机性能24查看vSAN虚拟机性能25使用vSAN性能诊断25
5处理故障以及对vSAN进行故障排除27
上载vSAN支持包27
vSAN监控和故障排除
对vSAN使用Esxcli命令28
使用vsantop命令行工具31
ESXi主机上的vSAN配置可能失败31
不合规虚拟机对象不会立即合规32
vSAN群集配置问题32
处理vSAN中的故障33vSAN故障处理33
对vSAN进行故障排除39
更换现有的硬件组件43
关闭并重新启动vSAN群集45
关于vSAN监控和故障排除
《vSAN监控和故障排除》介绍了如何使用vSphereClient、esxcli和RVC命令以及其他工具来监控
VMwarevSAN®以及进行故障排除。
目标读者
本手册的目标用户为要监控vSAN操作和性能或者对vSAN群集问题进行故障排除的任何人。
本手册的目标读者为熟悉虚拟机技术和数据中心操作且具有丰富经验的系统管理员。
本手册假设您熟悉VMwarevSphere,包括VMwareESXi、vCenterServer和vSphereClient。
有关vSAN以及如何创建vSAN群集的详细信息,请参见《vSAN规划和部署指南》。
有关vSAN功能以及如何配置vSAN群集的详细信息,请参见《管理VMwarevSAN》。
vSAN简介1
VMwarevSAN是作为ESXi管理程序的一部分本机运行的分布式软件层。
vSAN可汇总主机群集的本地或直接连接容量设备,并创建在vSAN群集的所有主机之间共享的单个存储池。
虽然vSAN支持HA、vMotion和DRS等需要共享存储的VMware功能,但它无需外部共享存储,并且简化了存储配置和虚拟机置备活动。
监控vSAN群集2
您可以监控vSAN群集以及与其相关的所有对象。
可以监控vSAN环境中的所有对象,包括加入vSAN群集和vSAN数据存储的主机。
有关监控vSAN群集中的对象和存储资源的详细信息,请参见《vSphere监控和性能》文档。
本章讨论了以下主题:
⏹监控vSAN容量
⏹监控物理设备
⏹监控加入vSAN数据存储的设备
⏹监控vSAN群集中的虚拟对象
⏹关于vSAN群集重新同步
⏹关于vSAN群集重新平衡
⏹使用vSAN默认警报
⏹使用VMkernel观察创建警报
监控vSAN容量
可以监控vSAN数据存储的容量、分析使用情况以及查看群集级别的容量细目。
群集“摘要”页面包含vSAN容量的摘要信息。
还可以在“容量”监控中查看更多详细信息。
步骤
1导航到vSAN群集。
2单击监控选项卡。
3在“vSAN”下,单击容量以查看vSAN容量信息。
结果
⏹“容量概览”显示vSAN数据存储的存储容量,包括总空间、已用空间、可用空间、预留空间以及在vSAN磁盘上实际写入或以物理方式消耗的空间。
对于启用了去重和压缩的群集,可以查看压缩节省量和压缩比率。
⏹“可用容量分析”帮助您在将去重率保持为1的同时根据选择的存储策略估算可用空间。
⏹“去重和压缩之前的使用情况细目”显示基于虚拟机使用情况、用户对象和系统使用情况等类别的使用情况细目。
可以通过图形方式显示使用情况类别。
单击图形可查看不同的使用情况类别。
以下是可用的不同使用情况类别:
类别
描述
虚拟机使用情况
显示以下信息:
⏹虚拟机主对象-显示虚拟机命名空间对象。
⏹交换对象-显示虚拟机交换文件。
⏹VMDK-驻留在vSAN数据存储上的VMDK对象消耗的容量,可分类为主数据和副本使用情况。
主数据包括写入物理磁盘的实际用户数据,不包括任何开销。
副本使用情况显示虚拟磁盘的RAID开销。
⏹虚拟机内存快照-虚拟机的内存快照文件。
⏹块容器卷(连接到虚拟机)-连接到虚拟机的容器对象消耗的容量。
⏹vSphereReplication永久状态文件-vSAN对象,用于在源站点上存储持久状态文件(PersistentStateFile,PSF)。
用户对象
显示iSCSI对象、未连接到虚拟机的块容器卷、用户创建的文件、ISO文件、虚拟机模板、文件共享、文件容器卷,以及目标站点上vSphereReplication服务使用的vSAN对象。
系统使用情况
显示以下信息:
⏹性能管理对象-启用性能服务时,为存储性能衡量指标而创建的对象消耗的容量。
⏹文件系统开销-容量驱动器上磁盘文件系统占用的开销。
⏹校验和开销-存储所有校验和时产生的开销。
⏹去重和压缩开销-获得去重和压缩所带来的益处时产生的开销。
仅当启用去重和压缩后,才会显示此数据。
⏹瞬态空间-群集中的临时空间使用情况。
在启用去重和压缩功能时,由于磁盘空间进行回收和重新分配,因此可能需要几分钟才能在“容量”监控中反映容量更新。
有关去重和压缩的详细信息,请参见《管理VMwarevSAN》中的“使用去重和压缩”。
可以查看vSAN数据存储中容量使用情况的历史记录。
单击容量历史记录,选择时间范围,然后单击显示结果。
监控物理设备
可以监控vSAN群集中使用的主机、缓存设备和容量设备。
步骤
1导航到vSAN群集。
2单击监控选项卡。
3单击物理磁盘可查看群集中的所有主机、缓存设备以及容量设备。
vSAN将显示有关容量设备的信息,例如,总容量、已用容量、预留容量、物理位置等。
物理位置基于vSAN主机上的缓存设备和容量设备的硬件位置。
监控加入vSAN数据存储的设备
验证备份vSAN数据存储的设备的状态。
您可以检查设备是否出现问题。
步骤
1导航到“存储”。
2选择vSAN数据存储。
3单击配置选项卡。
可以查看有关vSAN数据存储的常规信息,包括容量、功能和默认存储策略。
4显示有关本地设备的信息。
a单击磁盘管理,然后选择要在页面底部的表中显示本地设备的磁盘组。
b单击容量可查看群集中有关已置备和已用容量的信息,还可以按对象类型或数据类型查看已用容量的细目。
监控vSAN群集中的虚拟对象
您可以查看vSAN群集中的虚拟对象的状态。
一个或多个主机无法与vSAN数据存储通信时,可能不会显示有关虚拟对象的信息。
步骤
1导航到vSAN群集。
2单击监控选项卡。
3在vSAN下,选择虚拟对象以查看vSAN群集中的相应虚拟对象。
a在页面顶部的受影响的清单对象区域中选择一种对象类型可显示每个对象的相关信息,例如运行状况和可用性、存储策略以及vSANUUID。
您还可以查看vSphereReplication对象。
b在其中一个虚拟对象上选中复选框,然后单击查看放置详细信息可打开“物理放置”对话框。
可以查看设备信息,例如名称、标识符或UUID、用于每个虚拟机的设备数以及在主机间的镜像方式。
c在“物理放置”对话框中,选中按主机放置对组件分组复选框可按主机和按磁盘组织对象。
注在群集级别,容器卷筛选器显示已分离的容器卷。
要查看已连接的卷,请选择容器连接到的虚拟机。
关于vSAN群集重新同步
可以监控vSAN群集中正在重新同步的虚拟机对象的状态。
当硬件设备、主机或网络出现故障,或将主机置于维护模式时,vSAN将在vSAN群集中启动重新同步。
但是,vSAN可能会暂时等待故障组件恢复联机,然后再启动重新同步任务。
以下事件将在群集中触发重新同步操作:
⏹编辑虚拟机(VM)存储策略。
更改虚拟机存储策略设置时,vSAN可能启动对象重新创建,随后会重新同步对象。
某些策略更改可能会导致vSAN创建对象的其他版本,并与以前的版本重新同步。
完成重新同步后,将弃用原始对象。
vSAN可确保虚拟机继续运行,且重新同步过程不会中断虚拟机的操作。
该过程可能需要更多临时容量。
⏹出现故障后,重新启动主机。
⏹从永久或长期故障中恢复主机。
如果主机超过60分钟不可用(默认),vSAN将创建数据副本以恢复完整的策略合规性。
⏹将主机置于维护模式之前,使用“迁移全部数据”模式撤出数据。
⏹超过容量设备的容量阈值。
vSAN群集中的容量设备接近或超过80%的阈值水平时,会触发重新同步。
如果虚拟机因重新同步导致的延迟而无响应,可以限制用于重新同步的IOPS。
在vSAN群集中监控重新同步任务
要评估正在重新同步的对象的状态,可以监控正在进行的重新同步任务。
前提条件
确认vSAN群集中的主机运行的是ESXi6.5或更高版本。
步骤
1导航到vSAN群集。
2选择监控选项卡。
3单击vSAN。
4选择重新同步对象。
5跟踪虚拟机对象的重新同步进度。
对象修复时间定义将主机置于失败状态或维护模式之后修复不合规对象之前vSAN等待的时间。
默认设置为60分钟。
要更改设置,请编辑对象修复定时器(配置>vSAN>服务>高级选项)。
此外,还可以查看有关已重新同步的对象的以下信息:
对象
描述
重新同步对象总计
vSAN群集中要重新同步的对象总数。
要重新同步的剩余字节
重新同步完成之前剩余的数据(以字节为单位)。
总重新同步ETA
完成重新同步的估计剩余时间。
要重新同步的对象将归为活动、已排队和已挂起三类。
正在主动同步的对象属于活动类别。
位于重新同步队列中的对象为已排队的对象。
正在主动同步但现在处于已挂起状态的对象属于已挂起类别。
已调度的重新同步
要重新同步的剩余对象数。
可以将已调度的重新同步分为两类:
已调度和挂起。
已调度类别显示因延迟计时器尚未过期而未重新同步的对象。
计时器过期后,便开始重新同步对象。
挂起类别显示延迟计时器已过期而无法重新同步的对象。
出现这种情况的原因可能是,当前群集中的资源不足或不满足群集上设置的vSANFTT策略。
您还可以根据各种筛选器(如意图和状态)查看重新同步对象。
使用显示数,可以将视图修改为显示对象数量。
限制vSAN群集中的重新同步活动
您可以减少用于在vSAN群集中的磁盘组上执行重新同步的IOPS数。
重新同步限制设置适用于整个群集,以每个磁盘组为基础进行应用。
如果虚拟机因重新同步导致的延迟而无响应,可以限制用于重新同步的IOPS数。
仅当因重新同步导致群集中延迟加剧,或主机上重新同步流量过高时,考虑限制重新同步。
重新同步限制可能会增加完成重新同步所需的时间。
可能会延迟不合规虚拟机的重新保护。
步骤
1导航到vSAN群集。
2选择监控选项卡。
3单击vSAN。
4选择重新同步对象,然后单击重新同步限制。
5(可选)单击显示当前每个主机的重新同步流量以查看重新同步活动。
6选中为重新同步对象流量启用限制复选框。
7移动滑块以设置限制,如下所述:
⏹向右移动滑块可增加允许用于重新同步的吞吐量。
⏹向左移动滑块可减少允许用于重新同步的吞吐量。
常规做法是将吞吐量限制到原有数量的一半并为群集预留一段适应时间。
如果需要进一步操作,则再次将吞吐量减半直至群集稳定为止。
8单击应用或确定。
关于vSAN群集重新平衡
当群集中任何容量设备中存储的数据达到总容量的80%时,vSAN将自动重新平衡群集,直到所有容量设备上的可用空间都低于阈值。
群集重新平衡会在群集中平均分配资源,以保持一致的性能和可用性。
以下操作可能会导致磁盘容量达到80%并启动群集重新平衡:
⏹群集上出现硬件故障。
⏹使用撤出所有数据选项将vSAN主机置于维护模式。
⏹分配了PFTT=0的对象位于vSAN主机上时,使用确保数据可访问性将主机置于维护模式。
注要为维护和重新保护操作提供足够空间,并最大程度地减少vSAN群集中的自动重新平衡事件,应当随时留有30%的可用容量。
监控被动重新平衡
默认情况下,当容量设备中存储的数据达到总容量的80%时,vSAN会启动被动重新平衡。
若要监控群集中的再平衡操作,请运行以下RVC命令:
⏹vsan.check_limits。
验证群集中的磁盘空间使用情况是否平衡。
⏹vsan.whatif_host_failures。
分析每个主机的当前容量使用情况,解释单个主机故障是否可以强制群集耗尽空间以重新保护,并分析主机故障可能对群集容量、缓存预留和群集组件产生什么影响。
作为命令输出显示的物理容量使用情况是vSAN群集中所有设备的平均使用情况。
⏹vsan.resync_dashboard。
监控群集中的任何重新构建任务。
有关RVC命令选项的信息,请参见《RVC命令参考指南》。
配置自动重新平衡
默认情况下,vSAN会自动重新平衡磁盘组上的数据。
您可以为自动重新平衡配置相关设置。
由于设备的I/O模式不均衡,或者添加主机或容量设备时,vSAN群集可能会变得不平衡。
如果群集变得不平衡,则vSAN会自动重新平衡磁盘。
该操作会将组件从使用过度的磁盘移到未充分利用的磁盘中。
可以启用或禁用自动重新平衡,并配置差异阈值以触发自动重新平衡。
如果群集中任意两个磁盘之间的容量差异达到重新平衡阈值,则vSAN将开始重新平衡群集。
磁盘重新平衡可能会影响vSAN群集的I/O性能。
为避免此性能影响,可以在需要最佳性能时关闭自动重新平衡。
步骤
1导航到vSAN群集。
2单击配置选项卡。
3在“vSAN”下,选择服务。
4单击以编辑高级选项。
5单击以启用或禁用自动重新平衡。
可以将差异阈值更改为20到75之间的任何百分比值。
后续步骤
可以使用vSANHealthService检查磁盘平衡。
展开“群集”类别,然后选择vSAN磁盘平衡。
使用vSAN默认警报
您可以使用默认的vSAN警报监控群集、主机和现有vSAN许可证。
激活与警报对应的事件或满足警报中指定的一个或所有条件时,会自动触发默认警报。
您不能编辑条件或删除默认警报。
要配置特定于要求的警报,请为vSAN创建自定义警报。
请参见为vSAN事件创建vCenterServer警报。
有关监控警报、事件和编辑现有警报设置的信息,请参见《vSphere监控和性能》文档。
查看vSAN默认警报
可以使用默认的vSAN警报监控群集、主机,分析任何新事件,以及评估群集的整体运行状况。
步骤
1导航到vSAN群集。
2单击配置,然后单击警报定义。
3在搜索框中键入vSAN作为搜索项,以显示特定于vSAN的警报。
键入vSANHealthService警报,以搜索vSANHealthService警报。
此时将显示默认的vSAN警报。
4在警报列表中,单击每个警报可以查看警报定义。
使用VMkernel观察创建警报
VMkernel观察(VOB)是可以用来设置vSAN警报的系统事件,这些事件可以监控vSAN群集中的性能和网络连接问题并进行故障排除。
在vSAN中,这些事件称为观察。
vSAN的VMwareESXi观察ID
每个VOB事件与一个标识符(ID)关联。
在vCenterServer中创建vSAN警报之前,必须确定要创建警示的vSAN事件的相应VOBID。
您可以在VMwareESXi观察日志文件(vobd.log)中创建警示。
例如,使用以下VOBID为群集中的所有设备故障创建警示。
⏹esx.problem.vob.vsan.lsom.diskerror
⏹esx.problem.vob.vsan.pdl.offline
要查看vSAN的VOBID列表,请打开位于ESXi主机上/var/log目录中的vobd.log文件。
该日志文件包含以下可用于创建vSAN警报的VOBID。
表2-1.vSAN的VOBID
VOBID
描述
esx.audit.vsan.clustering.enabled
vSAN群集服务处于启用状态。
esx.clear.vob.vsan.pdl.online
vSAN设备已联机。
esx.clear.vsan.clustering.enabled
vSAN群集服务处于启用状态。
work.available
vSAN具有一个活动网络配置。
esx.clear.vsan.vsan.vmknic.ready
之前报告的vmknic已经获得有效IP。
ponentthreshold
vSAN接近节点组件计数限制。
esx.problem.vob.vsan.lsom.diskerror
vSAN设备处于永久错误状态。
esx.problem.vob.vsan.lsom.diskgrouplimit
vSAN无法创建磁盘组。
esx.problem.vob.vsan.lsom.disklimit
vSAN无法将设备添加到磁盘组。
esx.problem.vob.vsan.lsom.diskunhealthy
vSAN磁盘不正常。
esx.problem.vob.vsan.pdl.offline
vSAN设备处于脱机状态。
esx.problem.vsan.clustering.disabled
vSAN群集服务处于禁用状态。
esx.problem.vsan.lsom.congestionthreshold
vSAN设备内存或SSD拥堵已更新。
.not.ready
将不含有效IP地址的vmknic添加到vSAN网络配置。
vSAN网络尚未就绪时会出现这种情况。
.redundancy.lost
vSAN网络配置没有所需冗余。
work.connectivity
vSAN没有使用中的现有网络连接配置。
esx.problem.vsan.vmknic.not.ready
将不含有效IP地址的vmknic添加到vSAN网络配置。
为vSAN事件创建vCenterServer警报
您可以创建警报以监控选定vSAN对象(包括群集、主机、数据存储、网络和虚拟机)上的事件。
前提条件
必须具有所需的Alarms.CreateAlarm或Alarm.ModifyAlarm特权级别
步骤
1导航到vSAN群集。
2在配置选项卡上,选择警报定义,然后单击添加。
3在“名称和目标”页面中,输入新警报的名称和描述。
4从目标类型下拉菜单中,选择希望此警报监控的清单对象的类型,然后单击下一步。
根据所选要监控目标的类型,目标后显示的摘要会有所不同。
5在“警报规则”页面中,从下拉菜单中选择触发器。
此时会显示组合的事件触发器。
只能为单个事件设置规则。
对于多个事件,必须创建多个规则。
6单击添加参数以从下拉菜单中选择一个参数。
a从下拉菜单中选择运算符。
b从下拉菜单中选择一个选项,以设置用于触发警报的阈值。
c从下拉菜单中选择警报的严重性。
可以将条件设置为显示为警告或显示为严重,但不能同时设置为这两者。
您必须为“警告”和“严重”状态创建单独的警报定义。
7选择发送电子邮件通知以在触发警报时发送电子邮件通知。
8在电子邮件收件人文本框中,输入收件人地址。
使用逗号分隔多个地址。
9选择发送SNMP陷阱以在vCenterServer实例上触发警报时发送陷阱。
10选择运行脚本以在触发警报时运行脚本。
11在运行此脚本文本框中,输入以下脚本或命令:
对于此类命令...
输入以下内容...
EXE可执行文件
命令的完整路径名。
例如,要在C:
\tools目录中运行cmd.exe命令,请键入:
c:
\tools\cmd.exe
BAT批处理文件
命令的完整路径名(作为c:
\windows\system32\cmd.exe命令的参数)。
例如,要在C:
\tools目录中运行cmd.bat命令,请键入:
c:
\windows\system32\cmd.exe/cc:
\tools\cmd.bat
12从下拉菜单中选择高级操作。
您可以为虚拟机和主机定义高级操作。
您可以为警报添加多个高级操作。
13单击下一步以设置“重置规则”。
14选择将警报重置为绿色,然后单击下一步以查看警报定义。
15选中启用此警报以启用该警报,然后单击创建。
结果
此时该警报已配置完毕。
监控vSAN运行状况3
可以查看vSAN群集的整体运行状况,包括硬件兼容性、网络连接配置和操作、高级vSAN配置选项、存储设备运行状况以及虚拟机对象运行状况。
本章讨论了以下主题:
⏹关于vSAN运行状况服务
⏹检查vSAN运行状况
⏹从ESXiHostClient监控vSAN
⏹主动测试
关于vSAN运行状况服务
vSAN运行状况服务用于监控vSAN群集的运行状况。
可以使用vSAN运行状况检查来监控群集组件的状态,诊断问题并对问题进行故障排除。
运行状况检查涵盖硬件兼容性、网络配置和操作、高级vSAN配置选项、存储设备运行状况以及虚拟机对象。
vSAN运行状况检查分为以下几个类别。
每个类别包含单独的运行状况检查。
表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- VMWare vSAN监控和故障排除指南 vSAN 监控 故障 排除 指南