机房类运维服务方案文档格式.docx
- 文档编号:17944598
- 上传时间:2022-12-12
- 格式:DOCX
- 页数:28
- 大小:43.69KB
机房类运维服务方案文档格式.docx
《机房类运维服务方案文档格式.docx》由会员分享,可在线阅读,更多相关《机房类运维服务方案文档格式.docx(28页珍藏版)》请在冰豆网上搜索。
项目
性能检查内容
高压压力、低压压力,冷冻
机房热点情况、室内机漏水检
水压力、温度,冷却水压力、温度,风机运行情况,滤网、内机排
罐阳极棒检查、过滤网检查等
水系统、灰尘情况等
输入输出功率,输入输出电流、断路开
导线、器件发热情况,断路开
供配电系统
关、接地电阻、零序电流、器件发热情
关、防浪涌器件情况等
况等
负载功率情况、器件发热情况、电池情
系统
况等录像备份管理、出入机房登记、器件灵
安全系统
敏度、画面清晰度、器件灵敏度、监控死角问题等云台运行等
设备运行是否有报警情况、照
设备运行机房环境
2、现场故障维修
每日巡检过程中,如有发现设备及环境系统有故障状态,需进行记录并恢复故障状态如不能立
即恢复故障状态,则需进行应急预案处理具体如下:
环境故障:
卫生、温湿度、照明
交换机故障:
交换机蜂鸣,交换机启动不正常,指示灯异常
空调故障:
空调压缩机故障、空调冷凝水故障、空调漏水故障、空调制冷故障、空调加湿器故障等
查看设备运行指示灯、机房照明运行情
明是否正常、机房卫生是否整
况、机房环境
洁等电时间等
器件、导线发热情况,电池放查、室外风机运转情况、加湿
脆弱性检查内容
配电柜故障:
配电柜内温度过高、配电柜打火现象等
在解决故障时,最大限度做好故障恢复的文档,力争恢复到故障点前的业务状态对于“系统瘫痪,业务系统不能运转”的故障级别,如果不能于30分钟内解决故障,应立即提出应急方案,确保业务系统的运行故障解决后24小时内,提交故障处理报告说明故障种类、故障原因、故障解决中使用的方法及故障损失等情况故障类型、级别及相应标准列表:
故障级别
响应时间
电话立即响应,5分钟内人员抵达现场,30分钟内恢复业务使用,2小时内提交
故障处理方案
II级:
属于严重问题;
其具体现象为:
出现部分部件失效、系统性能下降但能正常运行,不
影响正常业务运作
电话立即响应,5分钟内抵
24小时以
达现场,1小时内提交故障
内
处理方案
12小时以
内故障解决时间
I级:
属于紧急问题;
机房出现电力事故等意外情况导致业务停止、系统崩溃导致业
务停止、空调系统崩溃导致业务停止
级:
属于较严重问题;
出现系统报错或警告,但业务系统能继续运行且性能不受影
响
48小时以
达现场,2小时内提交故障
电话立即响应,30分钟内
IV级:
属于普通问题;
系统技术功能、
抵达现场,2小时内提交故
安装或配置咨询
障处理方案
3、后台故障维修
后台故障状态维修,需要在甲方允许的情况下,对设备进行维护及维修
质保期内的设备由我方查找故障原因并填写故障申请单,交由甲方进行协调处理,并协助甲方进行故障排除及维修如需联系厂商,则由我方负责
三级及四级故障状态,我方可自行进行维护和维修的设备,报由甲方同意后,我方自行进行设备维修,更换零配件部件等,并将维修记录保存文档交由甲方及我方双方管理
3天内
质保期外的设备出现故障,则由我方统一进行维修,费用由我方负责并将维修记录报由甲方确认并存档设备更换
对于无法修复的设备,在合同有效期内,经甲方审核,由乙方负责整体更换同型号或类似型号的产品,无法维修的设备交由甲方更换单个备品备件费用大于等于元时,报甲方审核同意备品备件费用由甲方承担;
更换单个备品备件小于元时备品备件费用由乙方承担,质保期内由供货商进行更换的除外4、资产管理
对硬件设备型号、数量、版本等信息统计记录对软件产品型号、版本和补丁等信息统计记录对机房设施设备连接统计记录对综合布线系统结构图的绘制对机房更换设备连接统计记录
每月向甲方上报低值易耗品记录,包括仓库存储情况、耗材使用情况机房更新及更换设备的统计
机房维护设备及备品备件的管理及记录5、应急处理
随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案
本预案共分为应用系统故障应急流程和机房突发事件应急流程系统故障应急流程一、系统故障应急流程说明
1、故障发生
系统运维服务小组可从以下途径得知故障的发生:
、运维服务中心通过网管告警发现故障、维护站点通过维护巡检发现故障、用户发现故障,报给呼叫中心
、驻场工程师发现故障2、报障受理
监控系统运维服务小组得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障情况
3、信息研判
运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案
4、预案启动
如需启动应急预案,则立刻通知系统突发故障应急领导小组,由领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理
5、资源确认
系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源依据经验进行调度和确认,主要有以下资源:
我公司技术支持人员;
相关厂家技术支持人员;
我公司聘请的技术专家6、预案执行
按照既定的预案进行突发故障抢修,如遇到问题及时向系统突发故障应急领导小组汇报7、预案终止
预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后报系统突发故障应急领导小组决定
8、结果上报
预案中止后,相关预案参与人员将整个事件过程中的经验和教训,修改、完善事件应急预案然后集中上报至系统突发故障应急领导小组
二、系统故障应急处理流程图
机房突发事件应急流程一、机房突发事件分类
1、自然灾害:
指地震、火灾等因自然因素引起的网络与信息系统的损坏
2、事故灾难:
指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏3、人为破坏:
指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络与信息系统的损坏二、应急处理人员组织机构
三、应急机构人员岗位职责
1、应急总指挥职责
、保证在任何时间,及时协调应急行动所有涉及的岗位人员;
、提供必须的紧急响应设备;
、在紧急情况下全面负责紧急行动;
、在必要时向外界求救,例如:
、、等2、应急副总指挥职责
、在总指挥领导下具体开展工作,当总指挥不在时履行总指挥职责;
、根据获得的应急信息下达命令3、各相关设备负责人职责
、负责尽快收集信息向应急总指挥汇报事故情况;
、负责现场临时设备抢救和对事态的控制;
、听从上级指挥人员的指挥四、突发事件处理原则
1预防为主立足安全防护,加强预警,重点保护基础信息网络和关系信息安全、稳定的重要信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施充分发挥各方面的作用,共同构筑安全保障体系
2快速反应突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判,果断决策,迅速处置,最大程度地减少危害和影响
3分级负责按照“谁主管,谁负责”的原则,建立和完善安全责任制及联动工作机制根据各负责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责
4以人为本把保障人员以及公共利益的安全作为首要任务
5常备不懈加强技术储备,规范应急处置措施与操作流程,定期进行预案演练,确保应急预案切实有效,实现网络与信息安全突发公共事件应急处置的科学化、程序化与规范化五、机房应急开关机具体措施
机房各设备关闭顺序如下:
六、机房日常维护
1、建立健全机房管理制度
在正常工作日内,信息技术部人员负责对机房进行监控,主要职责是:
巡视网络设备及系统的运行情况,发生异常情况及时处理,消除网络故障隐患
节假日期间技术人员轮流值班,负责处理有关异常情况
机房采取来人来访登记制度,未经允许,无关人员不得进入公司机房区域2、机房内严格采取防雷、防火、防尘、防静电等措施以及机房24小时监控等措施3、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况4、对机房的主要网络设备进行工作时间内全程监控,发现异常情况应及时进行处理,确保整个网络的正常运行七、服务器及存储设备故障处理
1、排错流程
2、应急处置具体措施机房漏水应急预案
发生机房漏水时,第一目击者应立即通知运维服务小组,并及时报告监控系统突发故障应急领导小组
若空调系统出现渗漏水,运维服务小组负责人应立即安排停用故障空调,清除机房积水,并及时联系设备供应方处理,同时启动备用空调,必要情况下可临时用备用空调对服务器进行降温
若为墙体或机房门渗漏水,运维服务小组负责人应立即采取有效措施确保机房安全,及时清除积水,维修墙体或门窗,消除渗漏水隐患设备发生被盗或人为损害事件应急预案
发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告系统突发故障应急领导小组,同时保护好现场
系统突发故障应急领导小组接报后,通知用户保卫部门、相关领导,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录
事发单位和当事人应当积极配合公安部门进行调查,并将有关情况向系统突发故障应急领导小组汇报
系统突发故障应急领导小组安排运维服务小组、事发单位及时恢复系统正常运行,并对事件进行调查运维服务小组和事发单位应在调查结束后一日内书面报告系统突发故障应急领导小组事态或后果严重的,应向相关领导汇报机房长时间停电应急预案
定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列突发事件时,按照以下方案进行处置:
当机房发生市电供电突然停电或是电源异常时首先应和后勤部门联系确认正常停电以及预计停电时间检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等不在电源供电范围内的设备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象
当确定停电时间超出机房承载范围后,首先确定停电的范围以及受影响的设备范围并及时通知各部门做好停电应急准备然后通知机房电源维护人和设备的负责人到达现场,做好各设备的电源停电准备在供电电量仅剩10%之后,严格按操作手册停掉各服务器的电源,最后停核心交换机和路由器,等待电力恢复
当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修对于恢复时间无法预计的,要通知后勤部门做好柴油机发电及移动电源车供电准备
恢复供电后,严格按照操作程序逐步恢复机房设备和的供电,以防瞬间电流过大造成设备损坏
通信网络故障应急预案
发生通信线路中断、路由故障、流量异常、域名系统故障后,操作员应及时通知本单位信息系统管理员,经初步判断后及时上报运维服务小组和系统突发故障应急领导小组
运维服务小组接报告后,应及时查清通信网络故障位置,隔离故障区域,并将事态及时报告系统突发故障应急领导小组,通知相关通信网络运营商查清原因;
同时及时组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转
事态或后果严重的,应向应急指挥办公室和相关领导汇报
应急处置结束后,运维服务小组应将故障分析报告,在调查结束后一日内书面报告系统突发故障应急领导小组
不良信息和网络病毒事件应急预案
发现不良信息或网络病毒时,信息系统管理员应立即断开网线,终止不良信息或网络病毒传播,并报告指挥调度中心运维服务小组和系统突发故障应急领导小组
运维服务小组应根据系统突发故障应急领导小组指令,采取隔离网络等措施,及时杀毒或清除不良信息,并追查不良信息来源
事态或后果严重的,应向监控中心办公室和相关领导汇报
处置结束后运维服务小组应将事发经过、造成影响、处置结果在调查工作结束后一日内书面报告系统突发故障应急领导小组
服务器软件系统故障应急预案
发生服务器软件系统故障后,运维服务小组负责人应立即组织启动备份服务器系统,由备份服务器接管业务应用,并及时报告系统突发故障应急领导小组;
同时安排相关责任人将故障服务器脱离网络,保存系统状态不变,取出系统镜像备份磁盘,保持原始数据
运维服务小组应根据系统突发故障应急领导小组的指令,在确认安全的情况下,重新启动故障服务器系统;
重启系统成功,则检查数据丢失情况,利用备份数据恢复;
若重启失败,立即联系相关厂商和上级单位,请求技术支援,作好技术处理
事态或后果严重的,应向监控中心应急指挥办公室和相关领导汇报
处置结束后运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组黑客攻击事件应急预案
当发现网络被非法入侵、网页内容被篡改,应用服务器上的数据被非法拷贝、修改、删除,或通过入侵检测系统发现有黑客正在进行攻击时,使用者或管理者应断开网络,并立即报告系统突发故障应急领导小组
接报告后,系统突发故障应急领导小组应立即指令运维服务小组核实情况,关闭服务器或系统,修改防火墙和路由器的过滤规则,封锁或删除被攻破的登陆帐号,阻断可疑用户进入网络的通道
运维服务小组应及时清理系统,恢复数据、程序,恢复系统和网络正常;
情况严重的,应向监控中心应急指挥办公室和相关领导汇报,并请求支援
处置结束后运维服务小组应将事发经过、处置结果等在调查工作结束后一日内报告系统突发故障应急领导小组核心设备硬件故障应急预案
发生核心设备硬件故障后,运维服务小组应及时报告系统突发故障应急领导小组,并组织查找、确定故障设备及故障原因,进行先期处置
若故障设备在短时间内无法修复运维服务小组应启动备份设备,保持系统正常运行;
将故障设备脱离网络,进行故障排除工作
运维服务小组故障排除后,在网络空闲时期,替换备用设备;
若故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查
业务数据损坏应急预案
发生业务数据损坏时,运维服务小组应及时报告系统突发故障应急领导小组,检查、备份业务系统当前数据
运维服务小组负责调用备份服务器备份数据,若备份数据损坏,则调用磁带机中历史备份数据,若磁带机数据仍不可用,则调用异地备份数据
业务数据损坏事件超过2小时后,运维服务小组应及时报告系统突发故障应急领导小组,及时通知业务部门以手工方式开展业务
运维服务小组应待业务数据系统恢复后,检查历史数据和当前数据的差别,由相关系统业务员补录数据;
重新备份数据,并在工作结束后一日内报告系统突发故障应急领导小组雷击事故应急预案
遇雷暴天气或接上级部门雷暴气象预警,运维服务小组应及时报告系统突发故障应急领导小组,经请示同意后关闭部分服务器,切断电源,暂停内部计算机部分网络工作
雷暴天气结束后,运维服务小组报经系统突发故障应急领导小组同意,及时开通服务器,恢复内部计算机网络工作,对设备和数据进行检查
因雷击造成损失的,运维服务小组应会同相关部门进行核实、报损,并在调查工作结束后一日内书面报告系统突发故障应急领导小组必要时,应向监控中心应急指挥办公室和相关领导汇报
空调设备故障应急预案
若机房专用空调损坏,应第一时间启用机房备用空调,并通知厂家上门进行维修,并及时报告信息部相关领导请示,获得授权后按机房设备关闭顺序关闭各类设备火灾事故应急预案
一旦机房发生火灾,应遵照下列原则:
首先确保人员安全;
其次保护关键设备、数据安全;
三是保护一般设备安全;
人员疏散的程序是:
机房工作人员立即按响火警警报,并通过电话向公安消防请求支援,所有人员戴上防毒面具,所有不参与灭火的人员按照预先确定的线路,迅速从机房中撤出;
人员灭火的程序是:
首先切断所有电源,启动自动喷淋系统或使用灭火器,灭火值班人员戴好防毒面具,从指定位置取出泡沫灭火器进行灭火电源设备故障应急预案
机房目前使用系统,在紧急情况发生时,应按如下步骤进行关机:
确认所有负载均已安全关机关闭负载电源
将的系统启用开关切换到的状态将电池连接断路器切换到的位置6、保密管理要求
为科学、有效地管理机房,促进网络系统安全的应用、高效运行,特制定本规章制度,请遵照执行一、机房管理
1、路由器、交换机和服务器以及通信设备是网络的关键设备,须放置计算机机房内,不得自行配置或更换,更不能挪作它用
2、计算机房要保持清洁、卫生,并由专人7×
24负责管理和维护(包括温度、湿度、电力系统、网络设备等),无关人员未经管理人员批准严禁进入机房
3、严禁易燃易爆和强磁物品及其它与机房工作无关的物品进入机房
4、建立机房登记制度,对本地局域网络、广域网的运行,建立档案未发生故障或故障隐患时当班人员不可对中继、光纤、网线及各种设备进行任何调试,对所发生的故障、处理过程和结果等做好详细登记
5、做好操作系统的补丁修正工作
6、网管人员统一管理计算机及其相关设备,完整保存计算机及其相关设备的驱动程序、保修卡及重要随机文件
7、计算机及其相关设备的报废需经过管理部门或专职人员鉴定,确认不符合使用要求后方可申请报废
二、机房安全保密制度
1机房所有人员必须严格遵守公司各项安全保密制度,高度重视信息系统的安全保密工作,积极参加各种形式的安全保密工作的学习培训活动,接受安全检查机房信息系统涉及全公司的管理、业务等企业核心信息,维护人员不得窥探、抄录、复制;
不得转告与工作无关的人员;
不得随意向外界透露操作人员未经财务审批不得私自动用、开设、查看、变更营业软件
2机房所有人员未经允许不得访问信息系统中用户信息、公文、报表、邮件等属于授权访问数据信息或私人信息
3机房所有人员XX,不得私自修改、查阅系统的有关信息
4严格遵守帐号口令管理制度和安全操作条例,根据访问数据级别使用相应权限的口令进入系统;
不得窃取、破译他人权限密码
5机房所有人员未经允许不得擅自抄录、复制设备图纸、电路组织资料、内部文件、系统软件、技术档案、用户资料,也不得擅自带离机房,使用后归还原处
6各种涉及密级的图纸、资料、文件等应严格管理,认真履行使用登记手续IP地址及密码等涉密信息不得让无关人员轻易获取
7机房内重要保密文件、数据的销毁,应使用碎纸机进行销毁,不得任意丢弃8机房内部的废弃设备、测试数据由仓管部门统一保存和处理
9机房所有人员严格遵守通信纪律,增强保密意识和法制观念,不得随意监测用户通信10机房内部所有维护和管理人员,均应熟悉并严格执行安全保密规定7、人员管理要求
参照甲方的有关工作制度进行人员管理,如作息时间、着装、考勤等人员派驻须经过甲方的
审核,人员更换须在招标人进行备案
对维保人员的管理员应按照甲方的要求和标准来进行执行人员具体职责如下:
一、硬件维护人员岗位职责:
1.及时高效地完成分配的硬件维修等各项任务,保证硬件的正常工作
2.维护人员要熟悉计算机原理和操作规程,熟悉仪器仪表使用方法维护工作应遵循微机故障与维修的操作步骤、基本原则和维修方法进行
3.经常检查供电系统是否正常,电器连接点是否牢固,用电器温度有无异常;
检查机箱、显示器上的开关是否完好对键盘、鼠标等易损件进行常规检查;
对硬件系统进行外观和静态检查;
对微机系统进行全面的动态检查,发现问题及时解决
4.寒假、暑假或长期不用期间,要定时对其进行开机上电操作,以使机器内部保持干燥5.寒假、暑假或长期不用期间,要使用塑料袋将主机、显示器及网线接头等严密包裹起来,避免受潮
6.网络连接线路在使用过程中会出现各种故障,如某一工作站不能连接上网或一组工作站不能连接上网,这需要维护人员熟悉网络拓扑结构,通过检查网线、网络连接点、网卡、服务器以及集线器、交换器等网络设备,找出故障点给予排除
7.当硬件发生故障时,及时排除故障,尽快恢复系统的运行8.定期进行硬件的例行维护,建立每台机器的维护档案9.每次维修必须进行登记,包括更换的设备和配件10.积极参加业务学习,不断提高业务水平二、软件维护人员岗位职责:
1.及时高效完成软件维护等各项任务,保证计算机系统的正常运行
2.日常维护保养时,开机关机一定要严格遵守操作规程,不可随意进行,特别在微机运行过程中不能随意冷启动机器机器运行当中,软件维护人员应时刻观察有无异常情况,及时发现及时处理3.软件维护人员应备有各种工具软件、常用应用软件、操作系统软件和程序语言软件并留存实验中心一份
4.软件维护人员平时要实时、定期对计算机病毒进行查杀及时对杀毒软件进行升级,保证杀毒的有效性要从预防病毒入手,对外来的软件或文件应事先查杀再使用断绝病毒传播途径5.积极协调硬件维护人员排除硬件故障
6.平时应根据实验内容和计算机技术发展水平及时调整和更新网络中的各种软件,以适应运用计算
机进行教学的需要
7.平时要做好系统保护与数据备份工作,系统出现问题后能够快速恢复8.认真参与业务学习,不断提高自身的软件维护水平9.作好软件的安全保密工作
8、定期检查方案与计划定期维修
定期维修是按时间计算,应对机房和机房设备作定期检修维修应包括以下内容:
1)对机房内部和周围环境作一次彻底性的清理,把卫生搞好2)对机房内所有设备作一次清洗,除尘3)对空调设备、新风设备的过滤装置作一次清洗4)排除设备在使用时出现的故障和缺陷
5)检查、测试机房电源系统工作的情况,并做好登记6)检查、测试机房空调设备工作的情况,并做好登记7)其它检查换季维修
换季维修是在每年进入夏季之前和进入冬季之前为保障机房及机房
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机房 类运维 服务 方案