数据中心基础设施运行维护管理规范.docx
- 文档编号:9418447
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:72
- 大小:74.08KB
数据中心基础设施运行维护管理规范.docx
《数据中心基础设施运行维护管理规范.docx》由会员分享,可在线阅读,更多相关《数据中心基础设施运行维护管理规范.docx(72页珍藏版)》请在冰豆网上搜索。
数据中心基础设施运行维护管理规范
数据中心基础设施运行维护管理规范
征求意见稿
数据中心基础设施运行维护管理规范编写原则:
1、每个小节名称不可和章节名称相同;
2、正文条文中不得有目的的描述,如需可在条文说明中描述;
3、正文中不得采用形容词;
4、每个条文应注明主语,语句中不可出现“包括但不限于”这样的不规范用语;
5、正文中凡是“例如”的部分应体现在条文说明中。
第一章总则
第二章符号和术语
第三章一般规定
第四章运维流程
第五章组织架构及人员管理
第六章文件管理
第七章日常维护
第八章应急管理
第九章环境健康和安全
第十章数据中心一体化运维管理
第十一章质量管理的监督与检查
第十二章其他
第一章总则
1.1、范围
本标准给出国网数据中心基础设施运维管理的指南,包括总则、符号和术语、一般规定、运维流程、组织架构及人员管理、文件管理、日常维护、应急管理、环境健康和安全、数据中心一体化运维管理、质量管理的监督与检查、成本管理等。
本标准可为国网数据中心管理者提供基础设施运维管理系统性指导,也可作为用户或第三方评价国家电网数据中心基础设施运维管理水平的参考。
1.2、规范性引用文件
下列文件对于本标准的应用是必不可少的。
凡是注明日期的引用文件,仅注日期的版本适用于本标准。
凡是不注明日期的引用文件,其最新版本(包括所有的修改单)适用于本标准。
GB/T33136信息技术服务数据中心服务能力成熟度模型
GB/T51314数据中心基础设施运行维护标准
GB/T2887计算机场地通用规范
GB/T26572电器电子产品有害物质限制使用管理办法
GB26860电力安全工作规程发电厂和变电站电气部分
GB50174数据中心设计规范
DL408电业安全工作规程
AQ7004-2007制冷空调作业安全技术规范
GB/T24353风险管理原则与实施指南
第二章符号和术语
2.1、数据中心能效管理
是在保证业务连续可用的基础上,应用工业自动化、数据采集分析等多个技术对数据中心全生命周期内连续供应的能源进行综合利用、能效分析评估及改善提升。
2.2、电力能耗指标
PUE(POWERUSAGEEFFICIENCY)=数据中心总电力能耗/IT设备能耗,用于反映数据中心电力用于IT设备和辅助IT设备运行的效率衡量指标。
2.3、水能耗使用指标
WUE(WATERUSAGEEFFICIENCY)=数据中心耗水量/IT设备功耗,用于反映数据中心用水损耗指标。
2.4、能效
是能源利用效率(数据中心实际消耗的总能耗与IT设备能耗之比)的简称。
2.5、数据中心设施运维团队
以数据中心设施运行提供保障支持为主要工作内容的团队。
2.6、安防团队
以数据中心的消防、周边和安全相关监控管理为主要工作内容的团队。
2.7、综合管理团队
负责数据中心综合管理,包括园区物业管理、行政管理等。
2.8、专业执照
是指政府强制要求的执业证书,如:
高压进网许可证、高压电工作业证、低压电工操作证、建(构)筑物消防员证等。
2.9、管理手册
规定了运行维护工作的框架结构、执行范围、组织结构、工作规范及各的主要职责的手册
2.10、操作手册
标准操作流程
对数据中心IT系统、基础设施系统、用户服务系统、安防系统,分别制定相应的标准化操作流程,用来指导和规范日常的运行维护工作的标准操作手册。
维护操作流程
用于规范和明确数据中心运行维护工作中各项设备的维护操作流程、操作步骤
2.11、维护手册
应急操作流程
用于规范应急操作过程中的流程及操作步骤,确保运行维护人员可以迅速启动,确保有序、有效地组织实施各项应对措施的紧急操作手册。
2.12、日常记录表单
在日常运维工作中执行的标准化的操作流程、预防性维护计划、紧急操作流程,进行详细记录,形成的日常记录表单。
2.13、访问控制
是指对主体访问客体的权限或能力的限制,以及限制进入物理区域(出入控制)和限制使用计算机系统和计算机存储数据的过程(存取控制)。
2.14、预期寿命
从开始投入使用时起,一直到因设备功能完全丧失而最终退出使用的总的时间长度。
2.15、应急组织管理
主要针对应急组织架构、应急领导小组、应急管理小组、应急技术与执行小组、应急保障小组的组织的建立与管理。
2.16、应急事件管理
因基础设施设备故障或者公共灾难危害事件引发数据中心服务中断的事件,应纳入事件管理流程,执行应急响应和紧急恢复。
包括:
地定义基础设施应急事件、基础设施应急响应、基础设施应急预案编制、基础设施应急通讯联络管理。
2.17、应急预案目标对象
应针对重要设施设备及公共类事件制定应急预案。
应急预案须明确该预案的适用场景、通知通报、恢复操作步骤等内容。
2.18、应急演练管理
应制定基础设施年度测试演练计划,明确演练项目、演练方式、演练时间、演练内容等项细则。
2.19、桌面演练
对预案的组织架构和应急流程进行验证。
组织数据中心基础设施运维人员,通过设计恰当的故障场景,采用参演人员集中培训、讨论、文字考核等手段加深对应急处置策略、手段和应急预案的了解。
2.20、模拟演练
由数据中心基础设施运维团队人员及应急预案的协同单位共同参与,模拟验证应急预案。
模拟应急情况下的报警流程、应急操作执行动作、通知通报及恢复等工作。
2.21、实战演练
数据中心基础设施运维机构可以独自或联合其它部门及客户组织实战演练。
在数据中心投运前或投运后的计划性维护期间,假设相应的故障场景,组织相关人员按照应急预案流程进行实操性演练。
2.22、应急演练方案
是演练准备的方案和计划,包括风险控制方案、演练剧本(参演人员的台词,流程、时间控制、执行的动作等)。
2.23、应急演练登记表
是参演人员登记和签名表。
2.24、应急演练过程记录单
是演练各项活动执行情况记录。
2.25、应急演练总结报告
是应急演练过程的总结,可暴露问题,促进完善改进措施和行动计划。
2.26、公共灾难和危害事件
主要包括恐怖袭击、炸弹威胁、治安事件等公共安全危害事件,地震、雷击、异常气候自然灾害等。
2.27、基础设施意外故障事件
主要包括火灾及火灾防范系统故障、建筑物内水患、供配电系统故障、备用应急电源系统故障、空调制冷系统故障、安防系统故障和动力环境监控系统故障、通讯系统故障等。
2.28、IT系统类故障事件
包括IT系统故障、IT设备故障、网络通讯系统故障、主干传输线路故障等。
2.29、应急预案
对不同等级的故障事件和灾难事件,针对重要设施设备及公共类事件制定应急预案,主要包括供配电系统、制冷系统、消防、监控、网络等基础设施故障,以及暴雨、暴雪、大风、雷击、地震等气候灾难。
2.30、应急通讯管理
要避免应急发布时大群多头现象,按照决策等级情况建立不同的群组,同时应避免层级过多的情况出现,尽量扁平化。
群组内明确相应负责人及汇报人,实现信息的准确传达与汇总。
2.31、应急通讯平台工具
具有在应急事件发生时快速的有效的通知到相关执行人员、参与决策组织。
通过应急通讯工具平台完成应急事件发布、决策发布、处置执行情况的快速收集和反馈。
2.32、通讯工具
可由多种沟通联络渠道组成,可采用电话会议、视频会议、无线通讯网络、第三方平台等单种或多种方式组成。
2.33、国家数据中心/数据中心
指国家电网数据中心
第三章一般规定
3.1数据中心已参照《数据中心设计规范》GB50174中数据中心分级依据,和《数据中心基础设施运行维护标准》GB/T51314中的方法和要求,根据自身的使用性质、管理要求及其在经济和社会中的重要性确定,建立运维管理流程、运维管理团队与运维管理制度,并给予落实,以确保数据中心的运行满足IT系统运行需要。
3.2数据中心的运维管理流程应覆盖数据中心运维管理的全过程,并制定计划进行周期性检视与修正。
3.3数据中心的运维管理队伍应该满足业务开展需要,技能与资质符合政府监管要求。
3.4数据中心的运维管理制度应涵盖数据中心的各项工作。
3.5数据中心应详尽识别潜在的风险,并制定对应的风险应对方案,制定计划进行演练。
3.6数据中心的运维活动应关注成本,在确保可用性不受影响的基础上实施节能减排。
第四章运维流程
4.1一般规定
数据中心宜依据GB/T24405信息技术服务管理标准,建立数据中心服务支持流程,包括服务请求管理、事件管理、变更、问题管理。
4.2服务台
4.2.1数据中心应建立服务台,以记录、分解、跟踪来自故障的事件、服务请求、投诉建议及其他事项。
4.2.2服务台宜建立和提供多种沟通渠道,包括电子邮件、热线电话、移动应用等,提供7×24小时服务响应和支持。
4.2.3服务台应设置专门服务座席,由专人负责服务请求、事件等的集中受理和跟踪。
4.2.4数据中心应建立服务台相关管理制度,明确服务台工作职责、工作内容、监督考核等方面要求。
4.3服务请求管理
4.3.1数据中心应及时响应并记录来自内外部的各类服务请求,包括:
1.应接受来自用户的服务请求,并记录相关信息。
2.应对服务请求进行确认,根据客户合约和SLA要求,判断是否需履行此服务请求。
3.应根据服务请求类型,分派服务请求至数据中心服务团队。
4.3.2应根据要求履行服务请求,包括履行服务请求应包括:
1.应有明确的服务请求分类分级定义、处理时限和升级规则。
2.应履行服务请求,执行相应的响应、处理、升级等活动。
3.应监督、监控服务请求处理进展,并根据需要协调解决。
4.3.3应对服务请求进行回顾并关闭。
包括:
1.应明确服务请求关闭规则,服务请求履行完毕应与用户书面确认。
2.应定期回顾、更新服务请求列表并告知用户。
3.宜对服务请求的完成情况进行满意度调查。
4.应设计服务请求管理绩效指标,用于考量服务请求执行过程的符合度和有效性,如服务请求按时解决率、及时响应率等。
4.4事件管理
4.4.1所有事件均应被记录,包括接收的事件和主动发现的事件。
4.4.2应对事件进行分类分级,包括:
4.4.2.1应明确事件的分类分级的定义
4.4.2.2应按事件的影响度和处理优先级,确定事件等级。
4.4.2.3应定义各等级事件的响应时间、恢复时间、解决时间目标。
4.4.2.4应建立重大事件子流程。
4.4.3应快速解决影响数据中心服务的事件。
包括:
4.4.3.1应对事件进行分析,尽快处理解决,并记录事件的解决方法。
4.4.3.2事件涉及人员应该能够访问、匹配并关联相关信息,包括相关服务请求、已知错误、问题解决方案和配置管理数据库(CMDB)。
4.4.3.3应监督、监控事件处理进展,并根据需要协调解决。
4.4.4应定义和执行事件升级子流程,包括:
1.应明确定义事件升级规则,包括技术升级和管理升级处理规则
2.符合事件升级规则的事件,应根据事件升级规则进行升级和转移委派等以确保事件的及时解决。
4.4.5事件解决后,对事件处理过程进行回顾并关闭事件。
包括:
1.应有明确的事件关闭规则。
2.应在关闭事件时对事件的记录进行更新,确认事件的最终分类和分级,受影响的服务,以及导致事件发生的配置项等。
3.应设计事件管理绩效指标,用于考量过程的合规性和有效性,例如事件及时响应率、按时解决率等。
4.5问题管理
4.5.1应明确问题触发条件,并识别问题。
包括:
4.5.1.1应明确问题来源和触发条件。
4.5.1.2应识别问题并记录。
4.5.2应对问题进行分类分级。
包括:
4.5.2.1应明确问题分类分级的定义。
4.5.2.2应按问题的属性划分问题分类和优先级。
4.5.3应检查问题产生异常的根本原因。
包括:
4.5.3.1应分析问题现象和关联事件,定位产生异常的根本原因。
4.5.3.2应根据需要转移委派后线支持人员处理。
4.5.4应制定问题解决方案并实施。
包括:
4.5.4.1针对问题的根本原因,提出并实施根本解决方案,并记录解决过程。
4.5.4.2暂时无法根本解决的问题,应采用规避措施作为临时解决方案。
4.5.4.3应监督、监控问题处理进展,并根据需要协调解决。
4.5.5应对问题进行回顾和关闭。
包括:
4.5.5.1应有明确的问题关闭规则。
4.5.5.2应回顾问题的解决过程与结果。
4.5.5.3应设计问题管理绩效指标,用于考量过程的合规性和有效性等。
4.6变更管理
4.6.1应明确变更管理范围,制定变更策略。
包括:
4.6.1.1应制定变更策略,包括但不限于变更范围、变更的分类分级标准;实施前变更应被测试;实施过程中应及时与相关方进行沟通。
4.6.1.2新服务或服务重大变化的落实应参照变更管理执行。
4.6.1.3宜定义数据中心标准变更类型,以简化数据中心变更审批和实施过程。
4.6.1.4对紧急和重大变更的授权和实施,建立独立的策略和子过程。
4.6.2应接收、记录并评估变更。
包括:
4.6.2.1所有变更都被记录。
4.6.2.2应接收变更申请,并检查变更申请的完整性,评估变更的影响、风险和需要的资源。
4.6.3应制定变更方案。
变更方案内容应包括变更原因、变更实施方案、实施计划、回退方案或补救措施等。
4.6.4所有变更均应经过评审和授权后,方能执行。
高等级变更宜组织正式的变更评审会议,由基础设施运维、客户服务、运营管理等相关部门进行共同评审后,做出变更评审结论。
4.6.5应监督变更执行进展,协调变更实施。
包括:
4.6.5.1应全程推进、协调变更的实施。
4.6.5.2应对变更实施结果进行回顾及验证。
4.6.5.3应更新设备管理信息,并根据需要更新操作手册以及必要培训。
4.6.6应对变更实施过程进行回顾与关闭。
包括:
4.6.6.1应有明确的变更关闭规则。
4.6.6.2应回顾变更实施的过程和结果。
4.6.6.3设计变更管理绩效指标,用于考量过程的合规性和有效性等。
4.7风险管理
4.7.1一般规定
数据中心应建立风险管理过程,控制数据中心建设和运行风险。
风险管理的实施方法可依据GB/T24353《风险管理原则与实施指南》。
4.7.2数据中心的风险管理的内容和过程,包括风险背景建立、风险评估、风险处置、批准监督、监管审查、沟通咨询六个方面,其中监管审查、沟通咨询贯穿于风险背景建立、风险评估、风险处理、批准监督步骤过程中。
4.7.3数据中心基础设施运维工作风险管理应涉及人员的角色和责任宜结合信息安全风险管理相关体系进行分类定义,并建立管理机制。
4.7.4数据中心应依据基础设施运维工作范围,确定风险管理对象、范围、实施风险管理的准备、相关信息的调查和分析背景的建立。
4.7.5数据中心运维团队宜密切关注内外部环境变化,并评估变化可能带来的风险,包括:
4.7.5.1数据中心业务和客户的变化,组织架构和人员的变化,技术上的改变等;
4.7.5.2相关法律法规的变更。
4.7.6数据中心风险管理应制定风险评估计划、评估方案、评估方法和工具,并定期回顾和完善。
4.7.7数据中心应定期识别和记录影响数据中心安全运行的各类风险。
可从以下来源识别数据中心安全风险:
4.7.7.1已发生的安全事件和故障;
4.7.7.2数据中心人员日常运维中主动发现的隐患;
4.7.7.3监管方、客户方和第三方在审计中发现的问题和隐患;
4.7.7.4在内部检查中发现的风险隐患。
4.7.8数据中心风险识别过程除技术风险外,还应涵盖以下类型的风险:
4.7.8.1客户与合约:
合约及SLA执行上的风险等;
4.7.8.2供应商管理:
设备供应商、维保服务商、运营商、物业等方面可能影响安全运行的风险等;
4.7.8.3团队管理:
组织架构、岗位设置、人员能力方面的风险等;
4.7.8.4制度流程:
制度流程缺失、不健全等方面的风险等。
4.7.9数据中心应在风险评估之前,应从风险发生的后果、可能性、度量方法、等级等方面制定评价风险重要程度的标准,并持续不断地检查和完善。
4.7.10数据中心风险管理工作应针对已识别的风险进行定性和定量分析,根据风险发生可能性和影响确定风险等级,综合评价风险状况,并形成风险评估报告。
4.7.11数据中心风险管理工作应对评估出的风险,选择相应的风险处置措施,确定风险处置计划,包括风险处置措施、负责人、计划完成时间等。
4.7.12数据中心风险管理工作应对风险处置计划实施情况进行定期跟踪,对风险处置措施实施后的残余风险进行评估,确保风险可控可接受。
4.7.13数据中心风险管理应对背景建立、风险评估、处置的结果进行批准监督,建立批准监督流程和机制,并形成管理制度。
通过批准申请、批准处理和持续监督三个批准监督过程,对风险管理活动做决策和监管。
4.7.14数据中心风险管理应对批准的有效期、风险背景的变化情况进行持续监督,并形成监督记录。
4.7.15数据中心风险识别、评估及处置过程应形成制度记录文档。
4.7.16数据中心宜对风险管理的背景建立、风险评估、风险处置和批准监督全过程进行监控和审查,并输出相应的过程审查记录。
监控审查内容宜包括:
4.7.16.1风险管理过程有效性及成本有效性;
4.7.16.2风险管理结果的有效性和符合性;
4.7.17数据中心风险管理的审查工作应对高等级的风险每年审查一次,其他等级风险二年至少审查一次。
审查方式可以为现场或非现场的内部审查、外部审查和第三方检验检测机构审查。
4.7.18数据中心应建立风险管理的沟通咨询机制,保障风险管理中的背景建立、风险评估、风险处置、批准监督活动过程顺利有效,相关行动人员的协调统一,以及有效的知识技能培训咨询。
4.7.19数据中心沟通咨询过程应按照制度输出相应的沟通咨询度记录,并及时向内外部相关人员报告。
4.8能效管理
4.8.1、一般规定
1数据中心能效管理是在保证业务连续可用的基础上,应用工业自动化、数据采集分析等多个技术对数据中心全生命周期内连续供应的能源进行综合利用、能效分析评估及改善提升。
2数据中心机房应按照设计相关要求做好维护管理工作。
3针对维护管理中出现的问题,应及时评估分析并优化改进。
4采用能源利用效率(PUE/WUE)作为机房整体能效的衡量指标。
5应制定热源安全管理制度,明确控制机房内部和外部产生热量的工作细则,在保障机房设备工作温度的情况下,达到节能降耗的目的。
6数据中心应支持对内部各种设备的能耗进行综合管理。
4.8.2、能效管理体系
1通过采集和监控各类用能系统(电气、暖通、电梯、给排水等)整体的实际运行状态,找出关键耗能点和异常耗能点,进行控制和管理。
2能效管理体系须包含三个子系统:
即能耗的采集、分析评估与优化。
4.8.3、能效采集
1数据的收集宜采用自动化的监控系统和工具,借助智能电量仪、智能传感器等,并经监控系统进行统一数据上传和存储,减少人为因素影响。
2数据中心能源损耗数据应按照各物理机房模块、子系统、设备分别进行计量统计和可视化展示,包括IT设备运行功耗、电力线路损耗、制冷系统能耗等。
3应计算并可视化展示实时、日、月、季、年的能效数据(PUE),宜计算并可视化展示水效(WUE)。
4宜对保证数据中心连续运行的电力、制冷等关键系统的安全运行范围、系统最大承载能力、最佳效率区间等进行统计。
4.8.4、能效分析评估
1能够提供多种能耗分析如同比、环比、排名等方式,可实现对区域能耗、具体能耗类型、设备类型能耗等进行分析,并可生成设备能耗与系统能效分析报告。
2应能计算发现低利用率设备、低能效设备与异常能耗设备,形成节能操作工单或实现节能自动控制。
3需建立合理的评估机制,在机房实施相关节能方案后,应能对比机房节能方案实施前、后能耗数据,找出存在的主要问题并提出改进建议。
4.8.5、能效优化
1数据中心能效优化,应从机房、供电、散热、机房布局、设备选型等多个方面考虑降低能耗。
2应当建立完整的绿色能效管理制度,为数据中心绿色能效发展提供体制机制保障。
3宜应用模拟测试等优化方法,分析和测试相关变更可能对电源容量和冷却能力配置规划产生的影响。
第五章组织架构及人员管理
5.1运维组织管理
1
2
3
4
5
5.1
5.1.1数据中心等级应符合现行GB50174《数据中心设计规范》的相关规定。
应明确数据中心组织架构、岗位配置和各岗位工作职责,并形成组织架构图及岗位职责书面文档。
5.1.1.1对于A级数据中心应具备完整的运维团队,具备7*24小时服务响应和支持能力,以满足业务和客户服务需求。
5.1.1.1B级与C数据中心宜根据其数据中心规模与定位选择服务级别和服务模式。
1
2
3
4
5
5.1
5.1.1
5.1.2数据中心应根据自身特点和使用需求,选择相应的运维服务模式。
数据中心运维服务组织模式主要包括:
5.1.2.1自主维护模式:
所有运维团队和人员为组织自有人员,日常维护自主实施;
5.1.2.2全外包模式:
由第三方服务商提供全部驻场运维服务团队并进行管理,组织保留少量运营管理人员,进行服务管理和监控。
5.1.2.3部分外包模式:
骨干运维人员为组织自有人员,值班岗等非关键岗位人员采用外包驻场方式,由组织运维人员进行现场管理。
5.1.3应根据数据中心等级及业务功能和服务需求,配置相应数据中心服务团队。
数据中心运维组织架构中所配置的团队与岗位包括:
5.1.3.1数据中心客户服务团队:
数据中心提供服务的接口团队,也是协调客户与数据中心技术性服务团队的关键岗位。
客户服务团队工作职责应包括以下内容:
5.1.3.1.1负责数据中心中客户需求的管理;
5.1.3.1.2负责数据中心中客户相关工作协调。
5.1.3.2数据中心技术团队:
以数据中心技术、规划、建设等为工作核心的团队,工作重点应包括以下内容:
5.1.3.2.1负责数据中心的整体资源分配使用;
5.1.3.2.2负责数据中心项目建设与改造升级;
5.1.3.2.3负责数据中心数据中心规划建设设计和技术研究;
5.1.3.2.4负责对数据中心运维工作的技术支撑和标准的制定。
5.1.3.3数据中心IT团队:
以服务器、网络设备等业务设备和系统维护支持为主要工作,主要包括但不限于以下内容
5.1.3.3.1负责IT设施的日常变更与服务处理;
5.1.3.3.2负责IT设施的现场操作服务提供;
5.1.3.3.3负责客户远程技术支持工作。
5.1.3.4数据中心设施运维团队:
以数据中心设施运行提供保障支持为主要工作内容,主要包括以下内容
5.1.3.4.1负责数据中心设施的日常维护管理(巡检、定期维护、故障应急处理等);
5.1.3.4.2负责数据中心各设施维护厂商管理;
5.1.3.4.3负责与外部启用或部门的沟通与处理。
5.1.3.5安防管理团队:
负责管理数据中心的消防、周边和安全相关监控系统,主要职责包括以下内容:
5.1.3.5.1负责数据中心人员、设备出入的安全管理;
5.1.3.5.2负责数据中心建筑消防系统监控、火警响应、灭火系统操作;
5.1.3.5.3负责数据中心门禁权限、视频监控系统管理;
5.1.3.5.4负责数据中心建筑及周边安全巡检和安全事件响应。
5.1.3.6综合管理团队:
负责数据中心综合管理,如园区物业管理、日常运营管理等。
主要职责可包括以下内容:
5.1.3.6.1负责数据中心园区物业管理;
5.1.3.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 基础设施 运行 维护 管理 规范