因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复.docx
- 文档编号:2444363
- 上传时间:2022-10-29
- 格式:DOCX
- 页数:9
- 大小:20.21KB
因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复.docx
《因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复.docx》由会员分享,可在线阅读,更多相关《因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复.docx(9页珍藏版)》请在冰豆网上搜索。
因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复
因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复
2015年07月19日
单位名称:
XXXXXXXXXXXXXXX
部门:
XXXXXXXXXXXX
报告人:
XXXXXX
时间:
2015年07月22日
以《XXXXXXXXXXXXXXXXXX信息安全工作总体方针和安全策略》
为依据,根据《5.10信息系统应急处理预案》为指导方针,完成此次XXX单位数据中心灾难恢复工作。
一、事故(故障)前运行方式及业务连续性情况
(一)运行环境及功能
中心机房位于XXXXXXXXXXXXXXXXXX(地点),负责XXX单位所有信息化业务及网络运行。
2013年6月开始,中心机房逐步向云计算数据中心转型。
于14年10月完全建成以虚拟化云计算为基础架构的智慧数据中心(下称数据中心),内配有UPS,防雷设备,核心交换机、应用服务器、数据存储服务器、带时控的空调设备等;数据中心外有防雷井,电力专供线路,能有效防止直接由雷击造成设备损坏,但不能完全消除电压不稳定造成的数据丢失故障。
消防、安保门禁、环境(温、湿度报警等)、供电系统探测、服务器监控等方面都没有相应的设备进行监测,日常运维中也只是靠人力巡查,可靠性不高。
在正常供电及普通天气环境情况下保障XXX单位数字化应用及其它相关的信息化业务的连续性。
(二)现数据中心运行情况
数据中心除最新的IBM刀片服务器外,其它90%的服务器已过保修期,使用时间多为5年以上,全面进入硬件的不稳定周期。
首先,为XXX单位信息化业务提供连续性服务的服务器为3台DELLR710及IBM刀片服务器,其中,DELL服务器均为09年12月购置,10年启用,至今已达5年;硬件有不同程度的老化现象,会产生一些不知名的故障。
其次,提供数据存储的设备为两台网络存储,分别为EMCVNX3150,H3C1540S,其中H3C存储为10年启用,至今已达5年,然而硬盘类存储配件的在所有硬件中使用期间最短,使用时间过长容易造成数据丢失现象,且现储存容量无法满足XXX单位信息化数据的业务增长速度,全为满载运行,2014年初,该存储设备已更换过3块硬。
再有,尤其我校电力供应不稳定,经常无故停电,导致数据中心内所有设备非正常关闭,容易造成系统崩溃及数据丢失,难以保障系统业务的连续性。
二、事故(故障)现象
2015年7月18日晚上10:
30分左右,收到服务器探测信号,短信通知,数据中心内有多台云服务器宕机,立刻作出判断,认为是XXX单位停电,马上通知主管领导及运维公司工程师,让工程师回XXX单位确认情况。
当天晚上23时左右,运维工程师到达现场,确认为电力系统停止供电,数据中心所有设备非正常关闭,全部停止运行,所有信息化系统无法提供服务。
几分钟后,XXX单位突然恢复供电,数据中心内所有设备自主启动,运维工程师紧急处理,按顺序恢复服务器,直到所有服务器及存储设备全部正常启动后才离开现场。
00:
30分左右,XXX单位物业公司来电通知,由于3号楼供电线路故障,整栋楼电力系统中断运行,无法为数据中心提供电力保障。
7月19日零时至4:
30期间,物业公司抢修供电系统,电力系统时通时断,通过与物业公司电力工程师了解,期间有3次恢复通电与停电过程,最后在4:
30分左右确立为线路故障,无法马上恢复。
在上述3次供电通断过程中,数据中心内服务器及存储设备在运维工程师离开现场后,经历了3次非正常关闭系统,造成无法预测硬件、系统文件及数据文件是否有损坏。
全部信息化系统(包括信息门户及税收系统)停止运行,无法支撑迎新工作。
三、事故处置经过
(一)参与人员
组长:
XXXXX
副组长:
XXXXX、XXXXX、
实施人员:
XXXXXX、XXXXXXX、XXXXXX
(二)工作职责
项目名称
工作内容
重要程度
人员
电力系统恢复
市电供应、单位内部电力线路恢复、数据中心内UPS设备及电池检查、UPS输出到数据中心所有机柜电路、各设备供电连接检查
非常重要
XXXXXXXX
环境温度设备恢复
数据中心内空调设备的供电与恢复运行
重要
XXXXXXXX
网络设备配置、物理链路检查
1、核心交换机配置检查;
2、各接入光纤、连接到信息门户场地(1-201、1-301、图书馆、招就办办公室)的配线间链路检查;
3、与各服务器物理连接检查。
非常重要
XXXXXXXX
物理服务器、存储服务器硬件检查
1、物理服务器硬件检查:
CPU、内存、本地硬盘、电口网卡、光口网卡、阵列卡;
2、存储服务器硬件检查:
CPU、内存、电口网卡、阵列卡、存储硬盘
非常重要
XXXXXXXX
存储设备(数据)检查
1、两台存储设备系统检查
2、系统、应用、数据库数据检查
非常重要
XXXXXXXX
各服务器底层虚拟化云计算系统架构检查
1、虚拟化云计算系统恢复;
2、群集控制服务器恢复
3、服务器群集、逻辑网络交换机、云服务器、HA、vMotion、DRS等服务恢复
非常重要
XXXXXXXX
云服务器恢复(针对信息门户应用),最小化恢复
1、oracle数据库服务器恢复(3台)
2、SQL数据库服务器恢复(2台)
3、税收系统服务器恢复(1台)
4、统一认证服务器恢复(1台)
5、LDAP服务器恢复(1台)
6、中间件服务器恢复(1台)
7、数据中心服务器恢复(1台)
8、信息门户系统服务器恢复(1台)
非常重要
XXXXXXXX
(三)信息系统恢复过程
7月19日7:
30分运维工程师到达事故现场,7:
45分信息中心管理人员到达,协助物业电力工程师检查电力系统,临时转接电缆,于10时20分恢复数据中心电力供应。
所有信息技术工程师到达现场,分工合作,从物理设备到逻辑云服务器进行精确检查。
实施计划:
根据虚拟化云计算系统结构要求,按顺序恢复所有物理设备,实施计划如下:
1、首先恢复所有物理链路,网络连通。
2、恢复存储服务器,正常运行,接入网络。
3、服务器集逐步恢复
1)最先需要恢复群集控制服务器,该服务器宿主于DELL
R710里,IP:
192.168.10.39;
2)恢复其它所有物理服务器,接入群集,让控制服务器智能
调试各云端服务器,两台DELLR710,IBM刀片服务器;
3)针对信息门户需要运行的服务器,以最快速度,最短时
间,最小代价,以最小系统运行模式,恢复XX单位急需业
务,使其恢复连续性。
需恢复服务器列表及顺序如下表:
顺序
服务器名称
应用功能
数量
1
ORACLE数据库服务器
数据中心、统一身份认证、信息门户系统数据库
3
2
SQL数据库服务器
税收系统数据库
2
3
税收系统服务器
税收系统前端应用,财务人员收费应用
1
4
统一认证服务器
统一身份认证平台应用,用于身份验证,基础应用,必需开启后其它系统才能正常运行
1
5
LDAP服务器
LDAP身份数据平台,用于身份数据识别,基础应用,必需开启后其它系统才能正常运行
1
6
中间件服务器
金碟中间件应用平台,整合数字化平台基础应用,基础应用,必需开启后其它系统才能正常运行
1
7
数据中心服务器
数据中心应用平台,数字化平台所有系统数据交换中心,基础应用,必需开启后其它系统才能正常运行
1
8
信息门户系统服务器
信息门户系统前端平台,招生录取,补录,资料录入,收费标准设置等
1
恢复实施过程:
时间
实施内容
设备状态
处理办法
10:
30分
首先启动群集控制服务器所在的宿主服务器:
DELLR710,IP:
192.168.10.39
60分钟后,该服务器还卡在VPXA进程,一直无法自检完成,初步判断为系统文件由于多次无故非正常关闭,导致损坏。
11:
30分,重新安装虚拟化云计算系统。
30分钟后完成。
再次启动该服务器
10:
40分
核心交换机、网络链路检查完毕,并恢复正常。
正常
无
10:
45分
确认两台存储服务器正常运行,并且进一步检查数据可靠性
11:
10分,最终确认数据正常
无
10:
45分
逐步启动群集内,其它6台物理服务器:
DELLR710两台,IBM刀片服务器4台。
每台服务器由于非正常关闭,需系统修复关键文件,开机时间不一,于11:
30分,6台物理器相继进入系统,等待群集控制服务器管理。
无
11:
30分
重装群集控制服务器所在的宿主服务器:
DELLR710,IP:
192.168.10.39
无法正常启动
重新安装虚拟化云计算系统。
30分钟后完成。
12:
00分
再次启动群集控制服务器所在的宿主服务器:
DELLR710,IP:
192.168.10.39
依然无法正常启动
准备重新嫁接群集控制服务器,暂时获取群集控制权,先把最小应用系统恢复,保障信息门户正常运行。
12:
05
安装嫁接群集控制服务器
无
在IBM刀片服务器上安装群集服务器
13:
00分
发现DELLR710宿主服务器,IP:
192.168.10.39,VPXA服务异常是由于存储网络中断,导致无法启动
卡在VPXA进程
断开物理网络连接
13:
10分
群集宿主服务器成功进入系统。
成功进入系统
接通物理网络链路
13:
25分
群集控制服务器重新获取控制权,接管所有物理服务器
各云服务器相继启动
调整云服务器启动顺序,按上述实施计划完成云端服务器启动与运行。
14:
00
恢复最小化应用系统,保障信息门户顺利开始
无
无
至此,7月19日14:
00分正常完成最小化系统恢复,信息门户及税收已能正常运行,信息门户已能顺利开启。
7月19日晚,信息中心管理人员晚上11:
30分,检查信息门户及税收系统,状态正常。
于7月20日早上7:
30,收到运维工程师通知,系统又出现故障,无法正常登录。
7:
45分到达现场,查看服务器日志及状态,发现是不知名原因,物理服务器部分关键进程停止运行,导致云端服务器全部断开,失去联系。
处理办法:
直接重启物理服务器,重新调整云端服务器,于9:
00分全部恢复正常。
4、事故设备损坏影响范围及损失情况
事故造成XX小时信息化系统全面停止运行,影响信息门户提供的XXXX服务,导致XXXXX无法使用,造成XXXXX不良效果,严重影响XXX单位形象;同时数据中心内部分物理设备损坏,具体损坏设备列表如下表:
设备名称
数量
存放地点
损坏情况
备注
DELLR710服务器
3
XXX单位数据中心
物理网卡、文件系统损坏
由于多次无故关机
IBM刀片服务器
4
XXX单位数据中心
文件系统损坏
由于多次无故关机
五、事故原因分析
电力系统供电需要XXX单位XXXX部门及物业管理公司共同确保,所有信息化设备没有电,无法启动,信息技术人员也无能为力。
且电力供应的要求是稳定,稳压,够负载,需要备用线路。
服务器不知名故障大多数由于系统文件损坏导致,而文件损坏一般为多次非正常关闭系统(7月19日晚多次通断电,服务器经历3-4次无故关机),因此,信息管理中心技术员计划全面维护所有服务器,重新构建虚拟化云计算系统。
六、事故暴露出的问题
电力系统中断,线路故障为基础设施保障问题,信息网络管理中心对此只能提出要求,具体要求如下:
1、XXX单位数据中心电力系统进线需增大容量;2、数据中心需独立开关控制;3、电力系统需有备份线路;4、电力系统维护期间,知会信息网络管理中心管理人员,若问题严重,切断数据中心电源,不要让检修时的通断电影响服务器;5、若有停止,有预先通知的,需知会信息网络管理中心管理人员,及时处理服务器等相关设备;6、定期检查线路,确保数据中心电力供
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电力 故障 数据中心 虚拟 服务器 停机 导致 信息系统 崩溃 灾难 恢复
![提示](https://static.bdocx.com/images/bang_tan.gif)