msa2k 故障诊断 中文.docx
- 文档编号:30685592
- 上传时间:2023-08-19
- 格式:DOCX
- 页数:17
- 大小:21.28KB
msa2k 故障诊断 中文.docx
《msa2k 故障诊断 中文.docx》由会员分享,可在线阅读,更多相关《msa2k 故障诊断 中文.docx(17页珍藏版)》请在冰豆网上搜索。
msa2k故障诊断中文
HPStorageWorks2000模块化智能阵列-故障排除
概述
故障确定方法
收集故障信息
确定故障出在何处
查看事件日志
确定故障
如果无法初始化机柜
正确的机柜ID
使用系统LED诊断问题
前面板故障ID是琥珀色?
控制器后面板的OKLED熄灭了?
控制器后面板的故障/需要维护LED为琥珀色?
驱动器模块LED、在线/活动和故障/UIDLED都熄灭了?
已连接端口的主机链路状态LED是熄灭的?
已连接端口的扩展端口状态LED是熄灭的?
已连接端口的以太网链路状态LED是熄灭的?
电源和冷却模块的AC电源好LED是熄灭的?
电源和冷却模块的DC电压/风扇故障/需要维护LED是琥珀色的?
驱动器机柜后面板的OKLED熄灭了?
驱动器机柜的故障/需要维护LED为琥珀色?
确定主机端连接故障的位置
确定控制器模块扩展端口连接故障的位置
解决电压和温度警告问题
传感器的位置
电源传感器
冷却风扇传感器
温度传感器
电源和冷却模块电压传感器
概述
本文包含了HPStorageWorks2000模块化智能阵列(MSA2000)的故障排除信息。
故障确定方法
MSA2000系列存储系统在系统内提供了很多故障确定方法。
本节介绍了找到故障原因和相关FRU的基本方法。
基本的故障确定步骤是:
∙收集故障信息,包括使用系统LED找到的信息
∙确定系统在何处出现了故障
∙查看事件日志
∙如果需要,确定故障是否出在数据通路组件
收集故障信息
出现故障时,尽可能地收集更多的信息很重要。
这样做可帮助您确定解决故障的正确操作。
首先查看系统报告的故障。
故障是与内部数据通路有关还是与外部数据通路有关?
故障与硬件组件有关吗?
如驱动器模块、控制器模块或电源和冷却模块。
通过确定故障与存储系统中的哪个组件有关,能够更迅速地确定所需执行的操作。
确定故障出在何处
一旦了解了所出现的故障,就可以查看机柜LED了。
机柜LED的设计目的是警告用户系统出现了故障,并且可在最先警告用户出现故障的地方。
出现故障时,机柜右侧把手上的故障ID状态LED常亮。
查看机柜后面上的LED,确定故障是与FRU或连接有关还是与这二者有关。
这些LED还有助于您确定有故障的FRU的位置。
查看LED的同时,使用SMU确定已找到的所有故障。
如果由于系统的位置而无法查看LED,那么SMU也是一个确定故障出现位置的出色工具。
SMU用可视的方法展示系统和故障出现位置。
它还提供了有关FRU、数据和故障的更多详细信息。
查看事件日志
事件日志记录了所有系统事件。
查看此日志非常重要,这样不仅可确定故障,还可搜索可能导致此故障出现的事件。
例如,如果用户更改了通道设置,但是却没有考虑为通道分配的存储资源,那么主机可能与虚拟磁盘失去连接。
另外,了解故障类型也有助于您确定问题与硬件还是软件有关。
确定故障
有时可能必须要确定故障。
对于数据通路由多个组件组成的情况更是如此。
例如,如果主机端出现数据错误,那么可能是数据通路中的任意组件造成的:
控制器模块、电缆或数据主机。
如果无法初始化机柜
机柜初始化最多可能需要2分钟的时间。
如果无法初始化机柜:
∙执行重新扫描。
∙对系统进行电源循环。
∙确保电源线连接正确并且检查所连接的电源。
∙检查事件日志中是否有错误。
正确的机柜ID
如果安装的系统连接有驱动器机柜,那么机柜ID可能与实际的布线顺序不同。
这是因为控制器可能以前连接到其他相同的机柜,并且它会尝试保留以前的机柜ID(如果可能)。
如要解决此问题,确保两个控制器都已启动,并且使用SMU或CLI执行重新扫描。
这会重新排序机柜,但是最多可能需要2分钟的时间才能解决机柜ID问题。
如要使用CLI执行重新扫描,请键入以下命令:
rescan
如要使用SMU执行重新扫描,请执行以下步骤:
1.选择“Manage”>“GeneralConfig”>“EnclosureManagement”>“ReorderEnclosureIDs”。
2.在“ReorderEnclosureIDs”面板中,点击“Rescan”。
使用系统LED诊断问题
:
本节说明LED指示出现故障时可能的故障原因和要采取的操作。
前面板故障ID是琥珀色?
答案
可能原因
操作
否
系统运行正常。
不需要执行任何操作。
是
出现故障状况。
∙查看控制器后面上的LED,确定故障是与FRU或连接有关还是与这二者有关。
∙检查事件日志,了解有关故障的具体信息。
控制器后面板的OKLED熄灭了?
答案
可能原因
操作
否
系统运行正常。
不需要执行任何操作。
是
∙控制器模块没有开启。
∙控制器模块出现故障。
∙确定控制器模块已完全插入并且已锁定入位,同时机柜已开启。
∙检查事件日志,了解有关故障的具体信息。
控制器后面板的故障/需要维护LED为琥珀色?
答案
可能原因
操作
否
系统运行正常。
不需要执行任何操作。
是(闪烁)
出现以下某个错误:
∙硬件控制的启动错误
∙缓存清空错误
∙缓存自刷新错误
∙在其他控制器上使用SMU或CLI重新启动此控制器。
∙拆除此控制器,然后重新插入。
∙联系授权的服务提供商寻求协助。
∙更换此控制器。
是
出现机柜级别的故障。
如果正在安装控制器FRU,模块尚未进入联机状态并且其自测可能失败。
∙检查事件日志,了解有关故障的具体信息。
∙确定故障位置。
∙联系授权的服务提供商寻求协助。
∙如果正在安装控制器FRU,重新启动此控制器并检查事件日志中是否有错误。
驱动器模块LED、在线/活动和故障/UIDLED都熄灭了?
答案
可能原因
操作
是
∙没有加电。
∙驱动器脱机。
∙未配置驱动器。
∙确定驱动器已完全插入并且已锁定入位,同时机柜已开启。
否,但是在线/活动LED处于闪烁状态
驱动器正在重建。
不需要执行任何操作。
NOTE:
不可拆除正在重建的驱动器。
拆除该驱动器可能终止当前的操作并且导致数据丢失。
是,并且在线/活动LED处于熄灭状态
驱动器脱机。
可能收到了此设备的前瞻性故障警报。
∙检查事件日志,了解有关故障的具体信息。
∙确定故障位置。
∙联系授权的服务提供商寻求协助。
是,并且在线/活动LED处于点亮状态
驱动器已联机,但是没有任何活动。
可能收到了此设备的前瞻性故障警报。
∙检查事件日志,了解有关故障的具体信息。
∙确定故障位置。
∙联系授权的服务提供商寻求协助。
是,并且在线/活动LED处于闪烁状态
驱动器处于活动状态,但是可能收到了此设备的前瞻性故障警报。
∙检查事件日志,了解有关故障的具体信息。
∙确定故障位置。
∙联系授权的服务提供商寻求协助。
已连接端口的主机链路状态LED是熄灭的?
答案
可能原因
操作
否
系统运行正常。
不需要执行任何操作。
是
链路已关闭。
∙检查电缆连接。
∙重新安装电缆。
∙更换电缆。
∙在SMU中检查事件日志,了解具体哪个主机数据通路组件出现了故障。
已连接端口的扩展端口状态LED是熄灭的?
答案
可能原因
操作
否
系统运行正常。
不需要执行任何操作。
是
链路已关闭。
∙检查电缆连接。
∙重新安装电缆。
∙更换电缆。
∙在SMU中检查事件日志,了解具体哪个主机数据通路组件出现了故障。
已连接端口的以太网链路状态LED是熄灭的?
答案
可能原因
操作
否
系统运行正常。
不需要执行任何操作。
是
链路已关闭。
使用标准的网络故障排除流程确定网络上出现故障的位置。
电源和冷却模块的AC电源好LED是熄灭的?
答案
可能原因
操作
否
系统运行正常。
不需要执行任何操作。
是
模块没有接入足够的电力。
∙确保电源线连接正确并且检查所连接的电源。
∙确定电源和冷却电源FRU已牢固地锁定入位。
∙检查事件日志,了解有关故障的具体信息。
∙确定故障位置。
∙联系授权的服务提供商寻求协助。
电源和冷却模块的DC电压/风扇故障/需要维护LED是琥珀色的?
答案
可能原因
操作
否
系统运行正常。
不需要执行任何操作。
是
电源设备或风扇正在以可接受的电压/RPM级别运行,或者已经出现了故障。
如果确定故障出现在电源和冷却模块中,记住两个模块中的风扇都是通过中间板上的公共总线供电的,所以如果电源设备出现故障,风扇会继续正常运行。
∙确定电源和冷却电源FRU已牢固地锁定入位。
∙确定AC电源线已连接到电源。
∙确定AC电源线已连接到电源和冷却模块。
驱动器机柜后面板的OKLED熄灭了?
答案
可能原因
操作
否
系统运行正常。
不需要执行任何操作。
是
∙扩展模块没有开启。
∙控制器模块出现故障。
∙确定驱动器已完全插入并且已锁定入位。
∙确定机柜已开启。
∙确定AC电源线已连接到电源。
∙检查事件日志,了解有关故障的具体信息。
驱动器机柜的故障/需要维护LED为琥珀色?
答案
可能原因
操作
否
系统运行正常。
不需要执行任何操作。
是(闪烁)
出现以下某个错误:
∙硬件控制的启动错误
∙缓存清空错误
∙缓存自刷新错误
∙检查事件日志,了解有关故障的具体信息。
∙确定故障位置。
∙联系授权的服务提供商寻求协助。
∙如有必要,请更换部件。
是
出现了故障。
如果正在安装I/O模块FRU,模块尚未进入联机状态并且其自测可能失败。
∙检查事件日志,了解有关故障的具体信息。
∙确定故障位置。
∙联系授权的服务提供商寻求协助。
∙如有必要,请更换部件。
∙如果正在安装I/O模块FRU,尝试拆除后重新安装新的I/O模块,并检查事件日志中是否出现错误。
确定主机端连接故障的位置
在正常运行期间,控制器模块主机端口与数据主机相连之后,端口的主机链路状态LED和主机链路活动LED呈绿色常亮。
如果有I/O活动,则主机活动LED呈绿色闪烁。
如果数据主机无法访问存储系统,并且您无法找到具体的故障位置或者无法访问事件日志,那么请使用以下流程。
此流程需要您安排好停机时间。
NOTE:
一次只能执行一个步骤。
一次更改多个变量会让故障排除过程更复杂。
1.终止存储系统的所有I/O活动。
2.检查主机活动LED。
如果有活动,终止所有访问存储系统的应用程序。
3.重新安装SAS电缆。
主机链路状态LED是常亮的?
o是-监视状态,确保没有间歇性的错误出现。
如果再次出现此故障,可清洁连接部分,确保不会因连接器肮脏而干扰了数据通路。
o否-继续执行下一步骤。
4.将SAS电缆插入已知链路状态正常的端口。
此步骤可确定问题是在外部数据通路(主机电缆和主机端设备)还是在控制器模块端口上。
主机链路状态LED是常亮的?
o是-现在知道主机电缆和主机端设备都运行正常。
将电缆插回原始端口。
如果链路状态LED仍为熄灭状态,则可确定故障出在控制器模块的端口上。
更换此控制器模块。
o否-继续执行下一步骤。
5.用已知正常的HBA更换此HBA,或者将主机端电缆插入已知正常的HBA中。
主机链路状态LED是常亮的?
o是-此时可确定HBA出现了故障。
更换此HBA。
o否-可能需要更换控制器模块。
6.将电缆插回其原始端口。
主机链路状态LED是常亮的?
o否-控制器模块的端口出现故障。
更换此控制器模块。
o是-监视连接一段时间。
这可能是间歇性的问题,电缆和HBA损坏可能导致此问题。
确定控制器模块扩展端口连接故障的位置
在正常运行期间,控制器模块的扩展端口与驱动器机柜相连时,扩展端口的状态LED是绿色的。
如果连接端口的扩展端口LED呈熄灭状态,则链路已关闭。
使用以下流程确定故障的位置。
此流程需要您安排好停机时间。
NOTE:
一次只能执行一个步骤。
一次更改多个变量会让故障排除过程更复杂。
1.终止存储系统的所有I/O活动。
2.检查主机活动LED。
如果有活动,终止所有会访问存储系统的应用程序。
3.重新安装扩展电缆。
扩展端口状态LED是常亮的?
o是-监视状态,确保没有间歇性的错误出现。
如果再次出现此故障,可清洁连接部分,确保不会因连接器肮脏而干扰了数据通路。
o否-继续执行步骤4
4.将扩展电缆插入RAID机柜上已知链路状态正常的端口。
此步骤可确定问题出在扩展电缆还是控制器模块的扩展端口上。
扩展端口状态LED是常亮的?
o是-现在知道扩展电缆是正常的。
将电缆插回原始端口。
如果扩展端口状态LED仍为熄灭状态,则可确定故障出在控制器模块的扩展端口上。
更换此控制器模块。
o否-继续执行下一步骤。
5.将扩展电缆插回控制机柜上的原始端口中。
6.将驱动器机柜上的扩展电缆插入驱动器机柜上已知正常的扩展端口。
扩展端口状态LED是常亮的?
o是-现在确定问题出在驱动器机柜的端口上。
更换此扩展模块。
o否-继续执行步骤7
7.用已知正常的电缆替换此电缆,确保将新电缆连接到以前电缆使用的原始端口上。
主机链路状态LED是常亮的?
o是-更换原始的电缆。
已经找到故障位置。
o否-可能需要更换控制器模块
解决电压和温度警告问题
1.。
确定所有风扇都工作正常,方法是确定每个电源和冷却模块的DC电压/风扇故障/需要维护LED都是熄灭的,或者使用SMU检查“StatusSummary”页(选择“Monitor”>“Status”>“StatusSummary”)。
2.确保所有模块都已完全安装到相应插槽中并且其闩锁已锁定入位。
3.确保任何插槽的打开不超过2分钟。
如果需要更换模块,收到替换模块之前应将旧模块留在原位,或者将空模块插入插槽。
让插槽处于打开状态会对气流产生不利影响,并可导致机柜过热。
4.尝试一次更换一个电源和冷却模块。
5.一次更换一个控制器模块。
传感器的位置
存储系统监视每个机柜内不同点的状况,并就问题发出警报。
电源、冷却风扇、温度和电压传感器位于机柜中的关键点上。
在每个控制器模块和扩展模块中,机柜管理处理器(EMP)监视这些传感器的状态,执行着SCSI机柜维护(SES)的功能。
不同的SMU页显示了各种传感器信息,例如“Monitor”>“Status”>“ModuleStatus”。
下面几节介绍每个元素及其传感器。
电源传感器
每个机柜都有两个完全冗余的电源和冷却模块,实现了负载均衡功能。
下表所述的电源传感器监视每个电源和冷却模块中的电压、温度和风扇状况。
如果电源传感器报告电压低于或高于阈值,请检查输入电压。
描述
位置
事件/故障IDLED的状态
电源1
电源和冷却模块0
电压、温度或风扇故障
电源2
电源和冷却模块1
电压、温度或风扇故障
冷却风扇传感器
每个电源和冷却模块都包括两个风扇。
正常的风扇速度范围是4000到6000RPM。
风扇速度低于4000RPM时,EMP会认为风扇出现了故障并在存储系统的事件日志中加入一个警报。
下表列出了每个风扇的描述、位置和警报状况。
如果风扇速度始终位于4000RPM阈值以下,则内部机柜温度可能会持续上升。
更换有故障的电源和冷却模块。
描述
位置
事件/故障IDLED的状态
风扇0
电源和冷却模块0
<4000RPM
风扇1
电源和冷却模块0
<4000RPM
风扇2
电源和冷却模块1
<4000RPM
风扇3
电源和冷却模块1
<4000RPM
关机期间,冷却风扇不会关闭。
这样可继续冷却机柜。
温度传感器
如果未注意极端的高温和低温状况,则会导致严重的损坏。
每个控制器模块都有6个温度传感器。
其中,如果CPU或FPGA温度达到了关闭值,则控制器模块会自动关闭。
每个电源和冷却模块都有一个温度传感器。
报告温度故障之后,必须尽快解决此问题,避免造成系统损坏。
通过升高或降低安装位置的温度可完成此任务。
描述
正常运行范围
警告运行范围
关键运行范围
关闭值
CPU温度
3-88℃
0-3℃
88-90℃
>90℃
0℃
100℃
FPGA温度
3-97℃
0-3℃
97-100℃
无
0℃
100℃
板载温度1
0-70℃
无
无
无
板载温度2
0-70℃
无
无
无
板载温度3(电容器温度)
0-70℃
无
无
无
CM温度
5-50℃
<=5℃
>=50℃
<=0℃
>=55℃
无
电源传感器的检测值超出范围之后,故障/IDLED呈琥珀色点亮,并且会在事件日志中记录事件。
描述
正常运行范围
电源1的温度(电源和冷却模块0)
0-80℃
电源2的温度(电源和冷却模块0)
0-80℃
如要在SMU中以AdvancedManage用户的身份查看控制器机柜的温度状态:
∙选择“Monitor”>“Status”>“AdvancedSettings”>“TemperatureStatus”。
电源和冷却模块电压传感器
电源电压传感器确保机柜的电源电压处于正常范围内。
每个电压和冷却模块有三个电压传感器。
传感器
事件/故障IDLED的状态
电源1的电压,12V
<11.00V
>13.00V
电源1的电压,5V
<4.00V
>6.00V
电源1的电压,3.3V
<3.00V
>3.80V
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- msa2k 故障诊断 中文