IT运维问题分析报告.docx
- 文档编号:25456443
- 上传时间:2023-06-08
- 格式:DOCX
- 页数:19
- 大小:27.27KB
IT运维问题分析报告.docx
《IT运维问题分析报告.docx》由会员分享,可在线阅读,更多相关《IT运维问题分析报告.docx(19页珍藏版)》请在冰豆网上搜索。
IT运维问题分析报告
IT运维问题分析报告
为提高IT运维用户服务感知满意度,提高运维工作效率,完善运维基础设施建设,现对IT运维工作中存在的紧迫性问题进行分析总结,报告如下:
一、运维现状
******承担了我局****平台、****系统、****系统辅助审批、****系统的基础环境运维,涉及到了硬件、网络、系统、安全等各个方面。
详细信息见附件一《IT运维简介》。
二、问题分析
根据IT运维现状,以及用户和中心各部对IT运维工作的意见和建议,参照《信息安全等级保护》三级标准,结合中心实际,对IT运维工作存在的问题分析总结如下:
(一)制度保障缺失
1.全局无《信息系统管理制度》,局用户没有信息化操作约束,运维团队无执行依据。
2.没有指导开展IT运维工作的保障制度,如《机房管理制度》、《密码管理制度》、《数据备份管理制度》、《系统管理制度》等。
不能有计划有目的地开展it运维工作。
(二)工作边界不清晰
各IT运维相关部门岗位职责划分不够细,造成运维工作有交叉,工作边界不清晰。
例如:
1.数据备份工作。
涉及到数据部和******,甚至全局所有用户。
2.信息系统涉密检查。
应有涉密主管部门牵头处理,涉及到IT运维的由运维
团队配合处理。
3.系统安全运维。
涉及到运维管理和数据管理,工作界定不清晰,工作有交叉。
4.系统管理。
应用系统基础环境搭建、系统开发、测试、运维,会涉及业务运维和技术运维团队。
(三)基础运维环境不完善
1.缺少统一的运维监控平台。
中心现已部署大量系统,每个系统都会涉及到一台甚至多台服务器,无统一的监控平台会导致服务器硬件、操作系统、应用服务、网络设备链路状态等关键部分出现故障时,无法第一时间发现并排查问题,运维的响应时间会变长。
同时也不能提前预防事件的发生。
2.缺少必要的安全防护。
专网缺少防火墙,所有用户和服务器处于同一网络中,服务器面临威胁。
没有漏洞补丁服务器,专网与因特网是隔离的,内网的计算机操作系统不能及时更新补丁。
缺少准入控制系统,本单位和外单位人员可以随意接入****专网,没有统一的用户身份认证,数据安全面临威胁。
3.缺少日志审计系统。
系统出现问题后无法追踪问题的根源并找到问题的最佳解决办法。
对服务器所作的修改无日志记录,出现问题后无法界定责任人。
(四)服务意识有待加强
1.目前缺少监控平台,无法对即将发生的重大事件做预测,也无法做到在用户发现问题之前将问题解决。
2.应用系统研发质量良莠不齐,故障不能快速定位,导致处理问题时间较长。
3.服务响应速度有待提高。
4.服务质量应有监管。
三、解决方案
(一)制度保障
1.制定IT运维管理制度。
2006年以来,运维团队根据实际工作需求陆续制订了《******信息系统管理制度》、《******机房管理制度》、《网络安全管理责任制度》、《信息安全管理与培训制度》、《信息资产和设备管理制度》等IT运维管理制度,但未经正式签发。
2.建立规范的it运维保障制度,让运维人员实施运维时有制度支撑。
2006年以来,陆续建立了《数据备份管理制度》、《服务器密码管理制度》、《服务器与数据库日常维护》、《服务器帐号密码权限配置策略》、《计算机日常维护管理》、《系统网络与信息安全总体策略》、《信息系统变更及发布管理制度》等IT运维技术管理制度,未经中心审议正式执行,仅作工作参考执行。
(二)明确工作边界
1.明确业务运维、技术运维和基础设施运维的工作边界。
业务运维主管业务流程中****业务处置服务;技术运维负责********;基础设施运维负责****信息系统运转所依赖的基础环境的运维,包括终端、网络、服务器、存储、安全等设施。
2.明确数据安全和IT运维之间的工作边界
中心IT安全工作有IT安全运维和数据安全管理两块,数据安全与IT安全运维是相互包含、相辅相成的关系,目前两块工作分工不明确,工作有交叉和阻碍
3.明确各部门的职责,做到权责分明。
(三)建设一个平台、二个系统,完善基础设施运维环境
1.建立统一的运维监控平台,对机房环境、服务器硬件、操作系统、应用系统、计算机网络等关键部分实施监控,在事件发生前检测并处理故障,逐步由被动救火变为主动防御。
2.部署准入控制系统、硬件防火墙和补丁分发服务器,对所有接入专网的用户进行授权访问,保证边界及系统安全。
3.部署日志审计系统,对所有的服务器和网络设备日志进行审计,分析可能存在的系统问题或性能问题。
审计用户的操作,以便出现问题可追踪和还原。
(四)建立三个服务机制和运维联系卡,加强巡检密度,提升用户服务感知满意度
1.建立IT运维事件告知机制结合日常运维巡检,将提前发现的运维事件告知相关运维责任部门,提前沟通协调解决,该工作已开展一个月。
附件二:
《IT运维事件告知单》
2.建立IT运维分析报告机制
建立IT运维月度报表机制,统计每月IT工作情况,分析总结月度运维事件,向领导汇报,给出合理化建议,并对IT运维月电力能源消耗进行记录,该工作已经开展半年。
附件三:
《IT运维报表》
3■增加巡检的密度,在发现潜在问题时及时向用户发出事件告知单进行处理。
该
工作已开展半年。
附件四:
《机房日常健康检查表》
4.建立定期走访机制,搜集用户对******的满意度和意见调查,以进一步提高服务质量。
服务行为质量调查工作已开展8年。
附件五:
《服务行为报告单》
附件六:
《服务行为报告单统计报告》
5.建立终端设备运维联系卡
附件七:
《终端设备运维联系卡》
附件一
概述*乐活*巴负责****网络、终端、业务系统和基础设施管理等IT运维工作,具体情况如下:
一、网络
现有专网、互联网、****内网和电子****外网四个网络。
(一)专网:
覆盖了绕城以内的分局、局直属单位和其他市局机关单位共14个分
支机构。
提供****业务办公及其他****信息化服务。
(二)互联网:
运行公众平台、****系统、电子报建等系统。
向公众提供****信息服务。
(三)****内网:
以用户身份接入市内网办****内网,提供内网公文传输、数据交换、业务办公和区(市)县****数据报送等服务。
(四)电子****外网:
以用户身份接入市电子****外网,运行****系统系统,向电子****外网用户提供基础地理信息服务,并向局机关用户提供互联网接入服务。
二、终端
专网、乐互联网、****内网和电子****外网共有约400台终端计算机,终端运维包
括计算机硬件、软件、操作系统、系统安全、数据保护和终端网络等维护工作。
1、机房
(一)基础设施情况
类别
名称
数量
基础保障系统
空调系统、动力系统、门禁系统、消防系统、
KVM
5个系统(共10
套设备)
服务器
IBMX86服务器、DELL
X86服务器
31台
磁盘阵列
IBMDS系列磁盘阵列、
HP1500阵列、豪威存
储阵列
7台
网络和安全设备
以太网交换机、存储交
换机、防火墙、IPS、路由器、负载均衡等
72台
骨干网络
裸光纤链路
约100公里
机房
面积120平米,机柜30台
30台
合计
约150台设备
运维团队对上述系统进行建设和日常运维管理
(二)系统情况
系统类别
系统名称
管理系统
DNSDHCPKaspersky、ADKVM-CCVSFVMware(3套)、SiteView、SymantecNetbackup、CAD2007server、腾讯通
业务系统
****系统辅助审批、市局****平台、****系统、
****系统、数管系统、数字平台、公众平台、高
新****平台、****行政办公、****业务办公系统、
****业务办公系统、Skyline、乡村****、****
平台测试系统等
合计
28个系统共219台虚拟机
运维团队承担了上述系统和虚拟机的基础环境搭建和运维
四、安全运维情况
(一)专网
1.终端和服务器系统部署卡巴斯基安全软件。
2.外单位接入使用硬件防火墙进行访问控制。
(二)互联网及电子****外网
1、入口采用迈普硬件防火墙进行访问控制和入侵防护。
2、服务器和终端系统部署卡巴斯基安全软件。
3、互联网和电子****外网使用迈普防火墙进行逻辑隔离。
(三)****内网
作为接入用户,安装****内网管理办公室提供的****安全管理软件。
五、人员、职责及工作开展
(一)人员
IT运维人员4人,两人为中心职工,两人为外维人员。
(二)职责
承担全局网络运维、终端运维、机房和系统管理、系统安全管理及其他IT运
维相关工作。
(三)工作开展情况
1.上半年工作总结
1)网络维护:
219次。
2)计算机维护:
共762起,其中软件577起,硬件167起,病毒18起
3)开展用户满意度调查工作
上半年共进行IT运维满意度调查203次,非常满意99%,基本满意1%,不满意0%。
其中用户意见主要体现在响应时间方面。
4)建立IT运维台账
IT运维登记表
2.专项工作
i.机房搬迁和升级改造
ii.IT运维管理:
优化、回收虚拟机资源,并对虚拟机按生产、测
试、一般进行分组管理;完成IT运维管理目标分析、网络安全体系建设目标分析;草拟服务器密码管理制度、服务器密码修改及管理方案。
iii.******规建局****系统网络建设和系统基础环境部署。
iv.****系统安全测评及专网网络测试。
v.卡巴斯基安全软件及裸光纤租用服务采购
vi.****内网****业务数据报送FTP服务器搭建、日常维护和培训
附件二
IT运维事件告知单
事件编号
填表日期
事件名称
所属部门
关联设备(系统)
事件现象
IT运维巡检人员:
******对该事件评
估及建议
******负责人签字:
签收部门负责人签字
附件三
IT运维报表
运维数据统计
\维护项目统计项目
网络运维
net
安全运维
sec
系统运维
sys
软件
运维
app
基础设施管理
in
运维管理
gl
硬件运维dev
总数
事件数量
40
7
27
77
31
26
46
254
百分比
16%
3%
11%
30%
12%
10%
18%
100%
五月份耗电量(不含空调)
月耗电量
(单位:
度)
15624
日耗电量
(单位:
度)
496
二、事件分析
根据工作内容和IT信息技术发展现状,对本月工作总结如下:
系统已经停止更新
我局正在进行windowsXP系统升级工作。
虚拟平台优化及故障处理
虚拟机存在VMWareTools需要升级或者安装的情况,虚拟机资源分配不合理。
3.专网存储资源分配及应用不合理
1、LUN空间分配使用不合理;
2、光纤交换机端口资源紧张;
4、外网病毒问题
1、电信通知我局内部存在活动蠕虫病毒对外部网络进行攻击行为;
2、****外网门户网站被植入木马病毒。
三、建议
系统升级
继续进行XP系统升级工作。
2.VMWare虚拟平台优化及故障处理
升级或安装VMWareTools,合理分配虚拟机资源
3.专网存储资源分配及应用不合理
1、建议每个LUN空间使用率不超过75%
2、起草《存储资源及应用管理规定》。
4.外网病毒问题
1、建议所有外网服务器安装杀毒软件。
附件四
机房日常健康检查
巡检设备清单(CheckListInformation)
序号
设备型号
SystemModel
序列号
SerialNo.
设备名称或管理IP
巡检结果
SystemModel
1
IBMX366
□正常□隐患□异常□其他:
2
IBMX3950
□正常□隐患□异常□其他:
3
□正常□隐患□异常□其他:
4
□正常□隐患□异常□其他:
5
□正常□隐患□异常□其他:
6
□正常□隐患□异常□其他:
7
□正常□隐患□异常□其他:
8
□正常□隐患□异常□其他:
9
□正常□隐患□异常□其他:
10
□正常□隐患□异常□其他:
11
□正常□隐患□异常□其他:
12
□正常□隐患□异常□其他:
13
□正常□隐患□异常□其他:
14
□正常□隐患□异常□其他:
15
□正常□隐患□异常□其他:
16
□正常□隐患□异常□其他:
17
IBMX366
□正常□隐患□异常□其他:
18
IBMX366
□正常□隐患□异常□其他:
19
IBMX3650M4
□正常□隐患□异常□其他:
20
NBU5230
□正常□隐患□异常□其他:
21
****网站
□正常□隐患□异常□其他:
22
□正常□隐患□异常□其他:
23
□正常□隐患□异常□其他:
24
□正常□隐患□异常□其他:
25
□正常□隐患□异常□其他:
26
未知
□正常□隐患□异常□其他:
27
****网站备份
□正常□隐患□异常□其他:
28
□正常□隐患□异常□其他:
29
未开机
□正常□隐患□异常□其他:
30
IBMDS5200
FC
□正常□隐患□异常□其他:
31
IBMDS4700
FC
□正常□隐患□异常□其他:
32
FC
□正常□隐患□异常□其他:
33
FC
□正常□隐患□异常□其他:
34
FC
□正常□隐患□异常□其他:
35
FC
□正常□隐患□异常□其他:
36
FC
□正常□隐患□异常□其他:
37
FC
□正常□隐患□异常□其他:
38
博科200EB
FC
□正常□隐患□异常□其他:
39
博科300
未用
□正常□隐患□异常□其他:
40
博科300
FC
□正常□隐患□异常□其他:
41
交换机
□正常□隐患□异常□其他:
42
交换机
□正常□隐患□异常□其他:
43
外网IPS
□正常□隐患□异常□其他:
44
外网负载均衡器
□正常□隐患□异常□其他:
45
专网****系统防火墙
□正常□隐患□异常□其他:
46
专网****系统IPS
□正常□隐患□异常□其他:
47
专网****系统负载均衡器
□正常□隐患□异常□其他:
48
外网网关
□正常□隐患□异常□其他:
49
外网汇聚
□正常□隐患□异常□其他:
50
外网汇聚
□正常□隐患□异常□其他:
51
□正常□隐患□异常□其他:
52
□正常□隐患□异常□其他:
53
□正常□隐患□异常□其他:
54
□正常□隐患□异常□其他:
55
MP3840
停用
56
3com3C16471
□正常□隐患□异常□其他:
57
NFW4000
□正常□隐患□异常□其他:
58
AtenKVM切换
KVM键鼠切换
□正常□隐患□异常□其他:
注:
此表结果为以上机器通电运行正常,各主机外观诊断信息灯没异常。
骨干网端口:
序号
设备
端口
描述
巡检结果
1
6604
P0/0,P0/1,P0/2
□正常□异常
2
6604
P0/0,P0/1
□正常□异常
3
6604
P0/0,P0/1
□正常□异常
备份检查
序号
设备
描述
巡检结果
备注
1
NBU软件
查看前一天备份情况
□成功口部分成功
□全部失败
基础设施
设备名
读数
空调1
空调2
电表
工程师:
日期:
附件五:
服务行为报告单
编号:
特别说明:
用户在此允许******维护人员进入其工作区域,以便对计算机、网络进行检验和维护,使其恢复正常工作状^态。
特别注意:
用户应在要求******技术人员进行计算机维护前,自行对计算机存储的数据进行备份,不能进行备份操作的
应向技术人员明确哪些数据需要备份,并由技术人员完成数据备份操作。
******对用户计算机系统的资料灭失、损坏或
本身无法使用不承担责任。
客户姓名:
客户地址
联系电话
服务编号/快速服务代码
服务类别:
硬件维护口软件维护口网络维护口安全维护口数据维护口外设维护口其他口
接受任务时间:
年月日时分
工程师姓名:
服务时间:
时分(开始)时分(结束)共用时:
时分
服务后任务状态:
完成口/未完成口下次现场服务时间:
月日时分
客户通过电话描述的故障现象:
处理结果:
使用配件明
细
新配件名称/型号
旧配件名称/型号
A
B
C
D
您的服务评价
总体满意度
响应时间
服务态度
处理结果
其他
非常满意
基本满意
不太满意
客户签名:
工程师签名:
日期:
年月日日期:
年月日
附件六:
服务行为报告单统计报告
、事件数量统计
时间
2013-12
2014-1
2014-2
2014-3
2014-4
2014-5
共计
数量
28
33
36
41
34
59
231
服务评价
非常满意
基本满意
不太满意
数量
229
2
0
三、说明:
从2013年12月开始使用《服务行为报告单》,共计231条记录,其中用户评价中:
1、“非常满意”229个;
2、“基本满意”2个,1个为313陈部长做出评价,对“响应时间”不太满意,原因为所需零部件没有库存,需要临时购买;
另一个为督察处刘静波做出评价,对“响应时间”不太满意,该办公室电脑需要更换电源,库存没有配件,需要临时购买;
3、“不太满意”0个。
附件七
终端设备运维联系卡
品牌型号
服务编号
处室
使用人
处理器
内存
硬盘
光驱
显卡
其他配件
******技术服务热线
********(办公室)***********(******)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IT 问题 分析 报告