数据中心运维操作标准和流程.docx
- 文档编号:24179579
- 上传时间:2023-05-25
- 格式:DOCX
- 页数:17
- 大小:24.84KB
数据中心运维操作标准和流程.docx
《数据中心运维操作标准和流程.docx》由会员分享,可在线阅读,更多相关《数据中心运维操作标准和流程.docx(17页珍藏版)》请在冰豆网上搜索。
数据中心运维操作标准和流程
数据中心运维操作标准及流程
郑州向心力通信技术股份
二零一八年
1机房运维治理前期打算
1.1治理目标
机房根底设施运维团队应与业主治理层、IT部门、相关业务部门共同商量确定运维治理目标。
制定目标时,应综合考虑机房所支持的应用的可用性要求、机房根底设施设施的等级、容量等因素。
目标宜包含可用性目标、能效目标、可以用效劳等级协议〔SLA〕的形式呈现。
不同应用的可用性目标的机房,可设定不同等级的机房根底设施的运维治理目标。
1.2参与数据中心建设过程
机房运维团队应充分了解自己将要治理的场地根底设施。
对于新建机房,应尽早参与机房根底设施的建设过程,以便将运维阶段的需求在规划、设计、建筑、安装和调试等过程中得到充分的考虑;同时为后期做好运维工作打下根底。
1.2.1应参与规划设计
机房的规划设计是一个慎重和严谨的过程,需要全部参与机房建设的相关方共同完成,才能确保规划和设计的有效性、有用性等要求。
其中,根底设施运维团队应提出运维要求,从运维经验、实际运维难度、提高运维可易性等方面对规划和设计过程进行配合。
1.2.2应参与相关供给商遴选
机房根底设施运维团队应参与机房根底设施设备供给商选择的全过程,及时地了解各种产品及效劳的品牌、型号、规格等关键参数,使之更能满足运维的要求。
并就在安装、调试过程中的考前须知等提出建议,还需要对后续的设备保修等效劳提出要求。
1.2.3应参与建筑治理
机房的根底设施运维团队应积极参与机房根底设施的建筑工作,并协助做好建设工程的工程治理工作,着重关注工程建筑中如材料的使用、工序、建筑过程等工作,重点关注隐蔽工程的安装工艺和质量。
机房根底设施运维团队应充分了解施工过程中的工艺。
对于新建数据中心,从施工质量和日后运维方便性出发,尽早发觉施工过程的问题,及时改正,方便日后运维和节约日后整改本钱。
1.3测试验证
机房根底设施投产前的测试验证是确保机房根底设施满足设计要求和运行要求的关键环节。
1.3.1时间和预算
机房的业主应设立测试验证专项预算,预算应包含外部测试验证效劳提供商的相关费用,以及在测试验证阶段产生的电费、水费、油费等相关费用。
应制定测试验证的工期规划,以更精确地预测机房根底设施交付投产的日期。
1.3.2测试验证参与方
工程建设治理部门可作为测试验证工作的主体责任单位;运维治理部门可作为测试验证工作的主体审核单位;第三方测试效劳商可作为测试验证的实施单位及整体组织工作的协调单位。
但运维治理部门应要求测试效劳商预先提供测试方案,在运维治理部门审核前方可进行。
机房根底设施运维团队可参与测试验证工作,在此过程中熟悉设施和设备,可建立相关运维技术文档库,为后期的运维工作做好打算。
机房关键设备提供商及工程总包商,应积极配合测试验证工作,应在供给商合同中对此项有明确要求。
1.3.3测试验证内容
验证应覆盖全部关键子系统和设备应具备的功能和关键的操作程序,确保满足设计要求,必要时可做故障情景模拟来检验。
测试验证中发觉设计或者建设阶段的问题,应该在汇报中充分表达;可以改造的局部,应要求建设单位进行改造;不能改造或临时不需改造局部,应作为风险点在运维过程中予以特别的重视,并制定相关预案。
1.3.4设施健康评估
当接手已在运行的机房根底设施的运维工作前,运维团队应对设施的情况进行健康评估,了解潜在风险点,其中能够改造的局部,应该申请予以优化改造。
不能改造的局部,应该作为风险点在运维中予以特别的重视,并制定相关预案。
1.4技术文档
完整并精确的技术文档是后期运行、维护、维修、故障诊断、优化改造的根底。
运维团队在开展运维工作前,应从施工单位得到场地根底设施的全套相关文档,包含但不限于:
机房的规划设计资料及竣工图纸、全套设备的清单及相关操作文档和保修保养资料、机房自动操作系统的逻辑图及说明文档、监控系统的点表、验收测试文档、机房所在建筑的建筑设计资料、竣工图纸。
整体文档应在限定时限内进入运维治理知识库,并按照质量治理的原理和要求设定文档的起草、变更、审核、批准、保存、分发等职责权限。
1.5治理边界
为了明确治理责任,机房根底设施运维团队应将可能影响机房根底设施运维目标达成的外界因素整合成治理边界汇报,提交业主治理层并组织研讨,形成明确的决策,制定完整的协调沟通机制及权责界限。
这些因素包含但不限于:
不归本部门负责,但可能对于本部门有重大影响的供电、供水、供暖、制冷、消防、安防、监控、运营商线路接入等系统。
2平安治理和质量治理建议
2.1人员平安
机房根底设施运维团队要编制正式的机房生产环境〔工作园地〕的平安方针,设定严格的平安生产标准;并根据平安方针制定有效的、明确的平安方案,来教授和培训平安原则、危险识别、改正缺陷和操纵风险。
并加强对于该局部标准的合规度的培训、考试和审核检查,以确保机房运维人员的人身平安。
相关平安生产标准主要包含:
●机房生产环境平安治理标准;
●机房根底设施各系统平安治理手册;
●机房根底设施涉及平安的应急预案;
●机房根底设施治理过程涉及的技术方案中的平安治理策略。
机房根底设施中与电气相关的工作存在着固有危险。
设施运维团队应当创立一份正式电气平安方案,以最小化全部工作人员受到电气损害的风险,确保现场电气系统到达相关法规标准。
电气平安方案中的条款应规定电气工作人员在有资质和具备合理平安工作流程的前提下才能进行操作,并应利用防护设备和其他操纵手段,如上锁挂牌设备。
此方案的创立旨在预防员工受到电击、烧伤、电弧和其他潜在电气平安隐患,同时要求其遵守法规标准。
相关国家、行业规程包含但不限于:
●GB26860电力平安工作规程发电厂和变电站电气局部;
●DL408电业平安工作规程。
2.2物理环境平安
应了解周边社会环境信息,评估潜在的平安风险并制定预案。
这些信息宜包含但不限于:
周边交通路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通信线路等。
可建立周边社会环境治理资料库。
应了解机房所在地的历史自然灾害情况。
包含但不限于GB50174及TIA-942中提到的全部评估机房选址的外部因素,并制定相应的治理预案。
应建立并执行严格的机房设备、人员、车辆进出治理制度。
应设立不同平安区等级(参考ISO27001信息平安治理中的物理平安操纵)并制定访客治理制度,用以有效治理访客。
2.3质量治理
在机房根底设施运维过程中建立完善的质量治理体系,是保障以上机房根底设施运维趋于卓越的重要因素和手段。
机房根底设施运维团队的全部关键工作应包含以下的质量治理要素:
2.3.1质量保证
●过程制定;
●程序制定;
●过程审核和批准;
●过程和程序培训。
2.3.2质量操纵
●事件回忆;
●质量检查和检验;
●定期质量审核。
2.3.3质量改良
●故障分析;
●经验教训;
●优化及创新方案。
3人员治理建议
3.1组织及人员
3.1.1组织架构
机房运维团队应有清楚的组织架构,同时对各岗位有明确的岗位职责说明并在计算机化维护治理系统〔CMMS〕中完成权责匹配,同步更新。
中大型数据中心场地根底设施运维团队中除现场负责人外,可按照工作内容分设以下几个主要职能岗位:
●运维巡检团队
主要职责:
对根底设备设施进行巡检,担任值班工作,第一时间发觉故障或问题,并作为治理程序的执行者。
●技术治理团队
主要职责:
对机房根底设施提供运维技术支持,解决技术问题,承当机房根底设施一般性的优化改造工程的工程治理工作,宜包含电气、空调、弱电等系统的技术人员。
●物理环境平安治理团队
主要职责:
对物理环境平安进行治理,进行平安巡检等工作。
3.1.2人员配制
机房根底设施运维人员的配备应根据运维治理目标或SLA来确定。
中高等级的机房,可按照7X24的运行要求配置运维人员。
上岗人员应具备国家要求的相应资格证书。
应在运维治理程序中明确规定资质等级与操作权限的一致性。
高等级以及具有肯定规模的机房,每个班组应配备具有电力、暖通、弱电专业能力的运维人员,以到达“即时应急响应〞的工作状态。
等级相对低的机房,每个班需要至少配备一人,到达“即时报警〞的工作状态。
运维团队的关键岗位应有人员备份和储藏。
机房根底设施运维治理团队的关键治理人员或关键岗位人员在正常运维工作开展中应采纳A、B角色配置,一般工作中应注意角色的分配和工作的配合。
其它岗位人员宜建立良好的循环机制,人员可进行岗位轮换和交叉培训,使全部人员掌握全面的根底知识。
3.1.3绩效治理
为了提高机房运维人员的技术技能、职业素养和提倡团队合作精神,专业地、高效率地运行和维护机房根底设施,有必要建立人员的关键绩效指标,定期对全部人员的短期和长期绩效进行评估,奖优罚劣,推动整个运维团队技术和素养的开展和改良。
3.1.4人员治理制度
为了保障机房根底设施运维团队的创新性、稳定性、延续性,应通过建立合理的人员治理制度,约束人员的工作态度、行为标准,提高人员的工作热情、工作效率和执行力,激发人员正面影响,使团队一直保有活力来共同努力达成效劳等级协议的要求,运维团队应该建立运维人员的各项治理制度。
这些治理制度应该主要包含〔但不限于〕:
●《一般活动治理制度》;
●《人员平安操作制度》;
●《运维人员根本素养养成治理制度》;
●《平安运行奖惩制度》;
●《节能运行奖惩制度》;
●《技术创新奖励制度》;
●《人员晋升制度》;
●《人才储藏制度》;
3.2培训及认证
员工培训及资格认证方案
对于机房根底设施运维团队新员工应进行完整及严格的培训,以确保其尽快具备岗位需要之知识及能力。
培训内容应包含机房根底设施的全部系统的工作原理、操作流程、应急预案、以及治理制度等。
对于全部运维人员宜设定以知识更新、技能提高为目标的年度培训及认证方案。
宜要求运维人员不断提升理论知识,以便于在缺少操作程序的应急状态下进行正确的处置。
可借助行业第三方专业培训及职业技能鉴定平台,积极开展运维人员任职资格的评定工作。
历史事件分析学习
运维团队应将机房根底设施历史事件的总结分析作为培训的重要素材,进行全员培训;对于新员工应在上岗前予以培训,以预防相同的事件再次发生。
3.2.3组织学习
运维团队治理者应积极参与行业交流,了解行业最正确的运维治理实践,并从行业故障案例中总结经验,做好自身整改。
3.3运维外包效劳商
3.3.1根底设施运维外包效劳商的选择
机房根底设施属于关键性设施,选择外包运维团队时应考察其机房根底设施的运维效劳的资质、能力和经验。
如机房作为商业物业的一局部整体外包运维,应要求外包运维机构针对机房根底设施设施局部设立特意的有机房根底设施运维经验的团队,并严格按机房根底设施的运维规程标准执行。
3.3.2运维外包效劳商的治理
对于外包效劳商的员工的治理原则应该参照运维团队内部员工同等要求,相关人员只有在进行培训并得到相关的认证后才能从事相关的工作。
外包效劳商需要严格遵循数机房根底设施既定的操作流程和平安守则。
机房根底设施运维治理的最终责任承当者是机房治理者,责任无法外包。
因此,机房应保存运维核心治理人员,对于外包团队的工作进行审核、监督和绩效评估治理。
4设施治理建议
4.1资产数据库
数据中心应建立完整及实时更新的资产数据库。
数据库应包含全部关键根底设施设备的清单,还应记录设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。
资产数据库应最少包含以下信息:
资产ID:
每个资产的唯一标识号
种类:
一级分类〔如电气、制冷、消防系统〕
子类:
二级分类〔如UPS、电池、PDU等〕
描述:
资产的文字说明
制造:
资产的制造厂家
型号:
制造厂家的产品型号
规格:
资产的规格或者标称值
位置:
位置ID〔房间或地域〕
购买人:
资产维护的负责人
序列号:
制造厂家的序列号
安装日期:
资产的投产日期
保修期限:
保修到期的日期
更换:
估计的资产更换日期
维护频次:
年检、季检、月检等
4.2预防性维护
4.2.1预防性维护方案
预防性维护是为了延长设备的使用寿命和减少设备故障的概率而进行的有方案的维护。
其目的是通过定期检查和保养,使设备的某些缺陷或隐患在变得更严峻之前被发觉。
运维团队应根据系统设备情况与供给商进行沟通,按照供给商的建议提前制定年度、季度、月度预防性维护方案。
各专业运维人员需按照各设备系统特性、维护流程及标准,及时、完整地落实维护工作,并形成客观实际的记录和汇报予以存档。
运维团队还应定期对设备的运行状态数据进行统计和趋势量化分析,对于异常的趋势,做出报警及相关预案。
预防性维护包含并不限于以下系统设备或内容:
●冷水机组、周密空调;
●UPS,开关、和发电机组;
●消防系统和监控系统检验;
●蓄电池放电测试;
●配电装置〔上下压配电装置〕的绝缘性定期试验;
●二次爱护定值实验;
●每年雨季之前进行的数据中心防雷接地装置测试等。
4.2.2工单治理
运维团队应建立预防性维护及保养的工单治理系统,工单应列出工作内容、完成相应工作需要的工具及备件、工作估计完成的时间、工作负责人等信息。
计算机化维护治理系统应该对每份工单从产生到完成进行全程的跟踪。
4.3操作流程
机房根底设施的全部操作,均应事先制定详细的操作流程,经过审核后存档并在后期运行阶段严格执行。
4.3.1维护作业程序MOP
对机房关键根底设施设备的每次维护、维修、安装操作,都应事先制定一份MOP。
可要求设备供给商提供MOP的建议,但对于MOP最终确认审核的责任在于运维团队,批准责任在于运维治理团队。
4.3.2标准操作流程SOP
全部关键根底设施设备在各种情况下都能执行的常用操作都应制定标准操作流程SOP。
例如手动启动发电机组的操作流程,或将UPS转换到旁路的操作流程等。
4.3.3应急操作流程EOP
应急操作流程适用于有可能发生的严峻故障情况。
以下为局部严峻故障的例子:
●一路市电供电时中断;
●双路市电供电时同时中断;
●单个周密空调时故障停机;
●全部周密空调都故障停机;
●单台UPS时故障停机。
4.4工具及备件治理
运维团队应根据资产分类清单及其分类制定最低备件库存清单并及时补充备件。
测试分析仪器仪表方面可配备进行电气性能参数测试、电池测试、接地电阻测试、绝缘性能测试、设备运行温度测试、风速测试、环境温度测试、噪音测试等的仪器仪表。
仪器仪表应该定期校准。
应制定相关规定对操作工具、仪器仪表实行人员负责制或者交接班负责制等治理制度。
备件和工具应定期进行盘点。
供给商治理
应该按照机房根底设施运维的资质、以往的经验、业界的口碑等因素,以注重预防性和预测性维护和提高可用性的相同标准来选择合格的供给商。
全部供给商到达机房执行维护程序之前,应通过机房相关规程的培训,获得机房运维团队和运维治理层的批准。
在执行维护活动的过程中要严格遵循操作流程。
操作时需由运维团队的人员陪同并监督记录流程的执行情况。
供给商的每次机房维护活动都应该提交现场效劳汇报并存档。
运维团队应该建立供给商的绩效评估方案,并定期对供给商进行绩效评估。
应设立供给商治理文档,记录全部供给商的联系方法、效劳承诺〔SLA〕、工作范围、针对设施的培训和认证情况等信息。
4.6生命周期治理
应基于设施设备的合理生命周期,结合风险评估,制定设备维护、升级或更换的方案及预算,及时汇报给运维治理部门。
风险评估主要评估内容包含:
●资产重要性识别;
●资产威胁识别;
●资产脆弱性识别;
●风险值的计算;
●在评估更换设备的方案时,可综合考虑原有设备的维护费用以及新设备在能效方面的改良,做好综合投资回报分析;
●对于冗余设备宜设立轮换运行机制,以延长整体设备的生命周期。
4.7运维治理系统
机房可建立自动化维护治理系统〔MMS〕,集中完成资产治理、维护调度、信息平安、文档治理、工单治理的职能并记录全部的运维工作任务及完成情况。
5运行治理建议
5.1运行治理制度
机房根底设施运维团队应建立并严格执行运行治理制度,包含:
巡检相关治理制度
●一般巡视巡检治理制度;
●值班治理制度;
●交接班治理制度;
●通知矩阵。
工作流程相关治理制度
●工单处理流程;
●例会制度;
●工作总结汇报制度〔日、周、月、季、年总结汇报〕;
●交付治理标准;
●运维质量治理方法文档治理制度;
●工具备件治理制度。
平安相关治理制度
●机房出入治理制度;
●机房现场治理制度;
●机房卫生治理制度;
●信息平安相关治理制度。
故障处理治理制度
●设备操作治理制度;
●设备故障处理流程;
●应急打算和应急响应流程;
●维护作业方案治理制度;
●故障隐患跟踪反应治理制度;
●紧急事件汇报流程。
经营相关治理制度
●员工行为标准;
●考勤治理制度;
●人员治理考核制度。
5.2设施监控、巡检、及交接班治理
应配备环境、动力、安防等监控系统以便于运维人员及时了解设施各系统及设备的运行状态和及时发觉异常情况。
应规定相应的运行人员对设施运行状态的巡视频次、巡视工作内容及标准。
运行人员交接班时应对当班执行的操作、变更及观察到的任何异常数据或现象进行交接和签收。
5.3机房清洁治理
应划定保洁地域,定期做好机房保洁工作,保证地板及地板下的无尘状态。
重要地域进行保洁工作时应有运维人员现场监督和指导。
5.4标签标识治理
应建立针对数据中心场地根底设施设备和物理环境完整的、清楚的标签标识治理系统。
应至少包含:
●设备标识:
包含设备名称、型号、编号、资产编号等;
●线缆标识:
包含起始端信息、终止端信息、设备名称等;
●警示标识:
如“设备已带电/危险〞、“禁止合闸〞、“禁止分闸〞等;
●物理环境标识:
如位置标识、地域标识等;
●系统图展板标识:
如电气、暖通、消防、弱电系统图展板。
这类标识便于运维人员清楚、快捷地掌握地域及整个数据中心系统的配电、制冷、消防、弱电的原理及关键点位。
5.5变更治理
任何对于设施运行状态的变更应进行预先的风险分析,并基于风险等级,设定相应级别的事前审核流程。
在变更方案及变更时间窗口确认后,应进行相应范围的告知。
变更结束后,应向相应范围部门通报变更结果。
5.6事件治理
应制定事件治理流程,明确不同等级事件下相应的处理流程。
事件等级定义
一般事件:
任何没有到达机房设计和运行标准的异常事件;
严峻事件:
任何没有到达机房设计、运行标准的事件,且对提供的效劳造成中断的事件;
重大事件:
任何没有到达机房设计、运行标准的事件,且对提供的效劳造成中断,且影响范围大的事件。
5.6.2事件升级
当事件临时无法排解,需要逐级汇报,进入事件升级流程。
如遇特别情况,与直接主管联系不上时,可越级向上一级主管汇报。
5.7应急响应
5.7.1设施应急预案演练
运维团队应针对应急操作流程EOP进行定期的演练工作,主要包含:
●沙盘演练:
参与演练的运维人员集合,并分别口述在发生紧急情况下自身所应承当的职责及将会执行的方案及步骤;
●跑位演练:
参与演练的人员跑位到模拟故障现场,模拟处理故障,参与人员应清楚地说出故障的处理方案及步骤。
应急演练的演练原则是:
尽量接近真实情况,在条件同意的情况下尽量真实地处理故障。
在运行中的一些特定场景下也可以进行应急演练,如发电机带载实验等。
5.7.2人员平安应急流程
机房根底设施运维团队应针对影响运维人员健康的人身事故制定应急流程并定期演练。
应急流程可包含设置现场急救包以及联系当地医疗急救机构的方法等。
5.8容量治理
容量治理可包含但不限于以下方面:
5.8.1空间容量
●IT设备摆放空间;
●根底设备设施摆放空间;
●综合布线线路空间,配线架治理。
5.8.2能力容量
●电力供给容量;
●空调供给容量;
●综合布线信息点容量;
●互联网接入容量。
设施运维团队应与IT部门定期沟通,动态了解IT需求的预测,并通报设施容量的使用情况。
可制定3个月至36个月周期的IT需求及设施可用容量两者的比照分析表。
当机房根底设施不能满足IT增长的需求时,应提前制定并上报扩容或者新建机房的方案。
5.9能效治理
5.9.1能效监测
机房根底设施运维团队应了解并记录机房在不同工况及不同外界气候条件下的电力使用效率PUE的变化情况,从中发觉趋势,以不断优化运行方案。
5.9.2了解IT设备运行特征
机房根底设施运维人员应具备肯定的IT设备相关知识,了解效劳器、网络、存储等设备的运行特点和功耗情况。
还应了解客户或用户的业务根本情况,了解IT设备的运行峰谷期。
应与客户或用户相关部门做好沟通,针对高密度IT负载的部署做出预测,并制定相关应对方案。
5.9.3治理气流组织
应封堵设施建筑全部可能的漏风口,维持设施的正压。
应疏导设施内气流的流向、封堵全部可能的漏风口、对机柜内全部空闲U位安装盲板、关闭不必要的出风口、保证冷空气的最正确使用效率。
5.9.4运行阈值设定
应基于平安性及运行效率的综合考虑,建立运行阈值设定指南,设置监控报警阈值、空调回风温度等。
5.10预算治理
运维团队应做好运维财务预算,上报主管领导及财务部门,并做好预算必要性的沟通解释工作。
预算应包含但不限于以下内容:
●基于SLA的人力预算;
●备件及工具、仪器采购费用;
●应急维护材料费用;
●专业外包维保和应急效劳费用;
●政策性等强制检测效劳费用;
●整改或节能改造预算;
●突发问题备用金。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 操作 标准 流程