运维考勤规范Word下载.docx
- 文档编号:13934168
- 上传时间:2022-10-15
- 格式:DOCX
- 页数:22
- 大小:94.15KB
运维考勤规范Word下载.docx
《运维考勤规范Word下载.docx》由会员分享,可在线阅读,更多相关《运维考勤规范Word下载.docx(22页珍藏版)》请在冰豆网上搜索。
次常规巡检服务,并填写巡检报告;
周巡检:
每周1次深度巡检服务,检查常规巡检报告,填写深度巡检报告;
月巡检:
每月1次月度深度巡检服务,执行周巡检的所有内容,制作性能曲线。
具体内容如下:
硬件设备及链路巡检
产品清单中的产品运行状态,检查各链路连接状态。
记录设备清单列表中的设备状态指示灯的状态。
集中存储系统巡检
检查磁盘阵列状态,包才5RAID组的状态、卷的状态。
检查存储文件系统的运行状态,包才gMDS系统状态、挂在卷状态、SMB服务状态。
记录存储系统的总量、增量、剩余量、OST卷的使用率、文件系统实时读写速率,并按照要求及时清理空间。
a.检查磁盘阵列状态
组的状态
c.磁盘状态d.检查存储系统MDSI行状态
(在元数据节点上运行top命令)
e.检查存储系统MDSHA犬态
(在元数据节点上运行crm_mon命令)
f.检查存储系统SM助艮务状态
(在接口节点上执行servicesmbstatus命令)
g.检查存储系统的总量、增量、剩余量、OS蹊的使用率
(在接口节点上执行lfsdf-h命令)
h.检查存储系统CTD助艮务状态
(在接口节点上执行servicectdbstatus命令)
备份系统巡检
(远程桌面到,通过Xshellssh至运行NBU^份软件)
检查磁带库中磁带的使用情况,磁带卷池的剩余容量。
检查备份服务器的运行状态,检查备份文件备份及数据路备份作业是否正常执行,查看备份日志;
若备份失败,应急情况下针对失败作业进行手动备份作业,并及时处理故障。
记录检查结果和执行结果。
检查当天备份作业是否成功执行
检查剩余可用磁带数目
每月初手动设定新的备份策略,划分对应的资源池,保证备份作业的连续性。
根据带库容量,运维驻场人员要根据客户需求,完成磁带的入库、出库、过期等操作。
工作要求
为保证集中统一存储系统的软硬件产品、备份系统的正常运行,我方提供1名具备5年工作经验的工程师与驻场工程师进行每周1次深度巡检服务,执行如下工作
执行日巡检内容。
收集集中存储中MD限点、OS■点、转换节点的日志并分析。
收集光纤交换机、以太网交换机、磁盘阵列日志并分析。
收集备份服务器及磁带库日志并分析。
根据日志分析结构,提供合理化建议方案。
根据客户需求,执行数据的删除,维护存储剩余空间。
分析结果若出现系统不可用现象,现场调查出现故障原因,记录出现时间,描述问题现象及影响,提出解决方案并现场解决问题。
出局故障分析报告及故障,内容包括故障信息描述、故障现象分析、故障造成的影响、故障导致损坏或丢失的文件列表、故障解决过程、问题改进措施等。
收集日志并分析
分析结果若出现系统不可用现象,现场调查出现故障原因,记录出现时间,描述问题现象及影响,提出解决方案并现场解决问题。
出局故障分析报告及故障,内容包括故障信息描述、故障现象分析、故障造成的影响、故障导致损坏或丢失的文件列表、故障解决过程、问题改进措施等。
日志搜集方法如下:
登录至ijmds使用xshellssh至Uroot目录下(cd/root);
在执行ls命令,显示root目录下的所有文件,log后缀名为.sh的文件为收集日志的脚本。
执行这个脚本(./文件名)。
在IO节点和接口节点上全部执行一遍,单独收集;
执行完上面的脚本后,登录mdsZ在mds2的home目录下生成所有节点的message搜集。
登录接口节点搜集日志中:
日志路径/var/log/messages
执行数据的删除
执行原则:
系统容量不足百分之90时,及时进行数据的删除,避免影响系统可用性。
执行流程:
由巡检人员发起,存储负责人责任确认,业务部负责人确认删除内容,巡检人员执行删除操作,执行完毕之后,再顺次找业务部负责人、存储负责人确认。
执行命令:
rm-f*****
严格填写数据删除单据,按单据指示操作。
为保证集中统一存储系统的软硬件产品、备份系统的正常运行,我方提供1名具备5
年工作经验的工程师与驻场工程师进行每月1次深度巡检服务,执行如下工作:
执行月巡检内容。
分析日巡检报告及周巡检报告,提出分析结果
针对故障问题,出现2次及以上问题,需针对问题彻底解决,杜绝在下一巡检周期再
次出现类似问题。
提交日巡检报告、周巡检报告、月巡检报告,向数据中心汇报月度巡检情况。
提交统一存储系统容量曲线、磁带库容量曲线报告等。
检查存储系统网络IP分配情况月巡检:
绘制存储系统、带库每日增量图文件系统容量增长曲线
每日增量
磁带库容量增长曲线图
T-每日增量
检查存储系统网络分配状况
按照以下表格分类及对应关系,检查存储系统网络分配状况是否正确。
节点网络IP
AS10000
节点
节点IPMI
(监控网络)
节点类型
管理网络
(千兆网络)
数据网络
(万兆网络)
结果
MDS01
控制节点
eeth0)
(bond。
)
正常
MDS02
IO01
数据节点
IO02
(eth0)
IO03
IO04
IO05
IO06
SC01
协议转换节点
SC02
IO07
(eth2)
IO08
IO09
IO10
IO11
IO12
SC05
(eth4)
(bondl)
SC06
SC07
SC08
存储单元IP
Product
CtlA-portl
CtlB-portl
状态
AS1000G6-H_1
AS1000G6-H_2
AS2000
设置存储阵列IP地址
CtlA-port1
CtlA-port2
CtlB-port1
CtlB-port2
AS1000G6-H_3
AS1000G6-H_4
光纤交换机网络
FCSwitch
IP
Switch1
Switch2
Switch3
Switch4
Switch5
Switch6
万兆交换机网络
10GbSwitch
千兆交换机
GbSwitch
带库网络
浪潮磁带库IP的设置没有按照顺序进行设置,单独指定了一个IP:
i6000
带库
备份服务器
备份介质服务器(MediaServer)IP设置为:
管理IP
IPMIIP
sv1
sv2
二、故障响应服务承诺及完成承诺指标采取的措施
总体方案
针对驻场服务和巡检服务,响应工程师进行双重考核,签到包含现场签到及我方公司签到两套签到体系,保障工程师按时上下班。
驻场工程师和巡检工程师每月向客户和项目经理提交当月巡检报告,用于考核相关工程师的工作。
本方案按故障等级提供不同的故障响应服务,力求在最短的时间内恢复业务运行,并排除故障,每季度提交故障排除报告,报告内容包括:
故障排除过程描述及故障分析、服务清单等。
我方针对故障处理向数据中心提出如下承诺:
等级
故障说明
服务承诺
I级紧级故障
存储系统不能提供服务
存储系统性能下降严重
网络中断
冗余节点同时出现故障
同一RAID组出现2块以上硬盘故
障
驻场时间:
现场工程师实时响应;
远程协助1小时内响应,16小时到达现场
非驻场时间:
现场工程师1小时响应;
远程协助2小时内响应,16小时到达现场
II级严重故障
存储系统能够提供服务,但发现严
里口X
备份系统无法提供服务
服务节点无发提供冗余功能
网络性能异常
远程协助4小时内响应,24小时到达现场
远程协助4小时内响应,24小时到达现场
III级一般故
存储系统能够提供服务
出现一般警告
同一'
RAID组一l块硬盘故障
远程协助4小时内响应,48小时到达现场
远程协助4小时内响应,48小时到达现场
相应措施:
项目经理深入到工作的每个环节,参与协调并督促相关部门完成故障处理。
针对处理结果,项目经理会按季度将完成情况及表现反馈到各部门主管,加入到我方公司的KPI考核。
详细方案规划
存储系统的关键部件采取热备份的形式,单个设备出现故障不会马上影响到系统正常运行,但必须及时发现并加以解决,以免造成系统可靠性的降低.一旦发现故障发生,首先要判别故障类型和故障位
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 考勤 规范