数据中心基础设施管理系统DCIM总体方案.docx
- 文档编号:25671794
- 上传时间:2023-06-11
- 格式:DOCX
- 页数:13
- 大小:2.18MB
数据中心基础设施管理系统DCIM总体方案.docx
《数据中心基础设施管理系统DCIM总体方案.docx》由会员分享,可在线阅读,更多相关《数据中心基础设施管理系统DCIM总体方案.docx(13页珍藏版)》请在冰豆网上搜索。
数据中心基础设施管理系统DCIM总体方案
数据中心基础设施管理系统(DCIM)
总体方案
目录
1.平台概述及需求理解4
1.1.项目背景简介4
1.2.项目管理范围4
1.3.项目建设原则5
1.4.项目建设目标6
1.5.解决方案概述7
2.系统架构及实现原理11
2.1.系统架构11
2.1.1.采集层12
2.1.2.处理层12
2.1.3.管理层13
2.1.4.交互展现层13
2.2.系统集成14
2.2.1.第三方集成14
2.2.2.短信猫集成15
2.2.3.短信网关集成15
2.3.开发工具及技术介绍16
2.3.1.自定义流程引擎16
2.3.2.成熟的开发标准技术17
2.3.3.分布式通讯调度17
2.3.4.搜索引擎18
1.平台概述及需求理解
1.1.项目背景简介
伴随着数据中心规模的不断扩大,业务量的逐渐增大,对数据中心的运维管理也变的越来越重要。
一旦基础设施系统出现问题,而没有及时地得到妥善解决,常常会给企、事业造成很大的损失。
怎样能7x24小时保证设备系统的正常运行,避免各种故障的发生,优化和改进传统的运维模式,提高客户服务的及时性和满意度就显得非常重要。
因此,建设一套数据中心基础设施管理系统势在必行。
一个完备的运维管理系统能够提供7x24小时检测基础设施运行状态、各种资源状态的信息。
运维管理人员依靠流程管理系统可以及时排除故障避免造成重大损失,控制运维质量提高服务水平。
1.2.项目管理范围
项目内容:
Ø设施故障发现与警报;
Ø记录日常运维日志信息;
Ø设施故障统计;
Ø设施软硬件信息统计;
Ø服务进程管理;
Ø将数据信息存储备份,并采用不同方式直观的展示出来;
Ø服务人员绩效、考核管理;
Ø将数据生成报表;
1.3.项目建设原则
数据中心基础设施管理系统建设指导思想是:
“统一规划、分步实施、已有纳入、新建遵循”。
数据中心基础设施管理系统项目建设是要建设一个集中管控资源的运维平台,所以需充分考虑对已有各种产品组件做针对性的开发、整合工作。
在项目建设过程中,除满足系统功能需求外,遵循如下原则:
●安全性原则:
系统设计注重安全方面的设计,确保系统的安全运行。
系统提供安全认证技术,确保登录身份认证安全性、有效性。
●稳定性原则:
保证系统不间断运行,系统执行监控及操作任务时或出现自身故障,绝不能影响被监控及操作对象的正常稳定运行。
●开放性原则:
系统遵循行业主要的标准化组织所提供的标准或建议,采用标准的、开放性的技术,能够实现与其他厂商的产品无缝地连接;采用国际标准化组织及工业界广泛接受的有关标准和基于标准的通用软硬件平台。
●可扩展性原则:
在保持系统的基本体系结构长期稳定的前提下,可以有效地容纳和支持基础设施规模的不断扩大和复杂、业务种类的增多。
同时,能够在应用体系结构和软件模块划分两个方面支持整个应用的良好扩展性。
在体系结构方面采用多层结构划分,实现各层的高聚合和层间低耦合。
尽量使用模块化和插件化,使得扩展时对原系统的影响最小化。
●用户体验优化原则:
具有较高的易用性,界面友好,美观统一,并对人机交互进行优化设计。
●灵活性原则:
系统各子系统及子系统内功能模块具有一定的独立性,同时具有系统相关性和整体一致性。
系统提供自动化升级维护功能,系统的维护及拓展灵活、方便。
●规范性原则:
统一接口标准,规范数据字典。
定义监控接入标准,规范未来新建系统的监控。
1.4.项目建设目标
加强数据中心的维护平台建设,提高数据中心的运行管理水平,通过运维体系的建设,结合构建集中式的服务热线、运维流程、系统监控和综合展示系统,通过系统联动,及时、准确、全面反映与掌握数据中心的运行状态,保障各业务系统的正常运行,并达成如下目标:
(1)强化主动监控,实现集中管理。
以设施资源可用性监控为主线,构建数据中心统一集成的设施资源及应用服务监控平台,能够主动、及时地发现问题,并调度资源解决问题,形成数据中心运维管理主动服务的新局面。
(2)帮助定位故障,快速恢复系统运行。
建立集中的告警分析及展现平台,提供灵活、自动化的事件处理能力。
当故障产生时,可以进行故障的快速定位,发现故障原因,调度资源快速恢复系统服务,从而缩短故障解决时间,降低维护成本,提高系统整体可用性。
(3)掌握运行质量与效率,合理利用资源。
建立数据中心基础设施管理系统平台后,可以实时了解数据中心全部资源的负载与使用情况,根据需要从整体角度考虑资源的使用,同时可以根据业务高峰期的不同来调剂业务系统对资源的使用。
(4)规范运行管理,有序开展维护。
参照数据中心运维规范,对运维管理工作进行优化,对服务管理进行改善,将管理数据电子化,管理过程规范化。
根据相关制度进行运行维护管理,对内完善流程,对外提高服务,加强管理,使流程更规范更合理,使技术人员具备更高的工作效率,提高业务技术能力和解决实际问题的能力。
(5)共享运维经验,完善知识库。
把运维过程中产生的丰富经验进行积累和总结,形成有效的知识库,建立知识的共享机制,提供信息共享和交流的平台,提高数据中心运维人员的工作效率。
1.5.解决方案概述
DCIM系统是在在分析了国内数据中心管理现状和需求后,自主研发而成。
秉承以客户为中心、流程为导向的理念,实现对基础设施资源的全面管理,完美整合了人员、技术和流程三大要素,帮助用户以较低的成本提供稳定、优质的服务,共同实现基础设施服务的目标。
DCIM系统提供了“无缝式基础设施监控系统”功能,其系统架构清晰,采用模块化的设计理念,各功能模块既可独立运行、松散耦合;亦可整体功能无缝衔接覆盖整个业务系统,灵活的自由组合真正实现个性化的基础设施无忧运维。
DCIM系统提供一个图形化、可定制、统一的监控管理平台。
通过它实现对基础架构性能和告警数据的直接监控与展示,实现对用户环境的整体运行状态的监控管理。
1.故障预警和管理
前瞻性地发现系统的故障和性能问题,能够快速识别、隔离、诊断和修复生产中出现的问题。
1)前瞻性发现基础设施和应用系统的故障。
2)前瞻性检测复杂的应用性能问题。
3)基于业务的性能影响分析报告
4)快速识别、隔离和诊断问题的起因,事故根本原因分析。
5)对一些简单的故障问题,提供自动化修复故障的功能;对复杂的故障和性能问题,尽可能提供修复故障和改善性能的建议。
6)提供的丰富的事件通知功能,事件通知方式包括:
-Mail自动向指定邮箱发送告警邮件。
-短信自动向指定手机发送告警短信。
-声音自动产生声音告警。
-图像自动以图标形式显示告警事件。
-其它通过二次开发可实现特殊要求的告警方式。
7)提供监控参数化配置管理,参数超过设定阀值,产生报警信息。
2.多层次的视图展示
直观、准确地体现各层面的系统和业务运行状态,分别展示不同管理层次和范围的系统运行状态。
根据企业的业务特点和管理习惯,可将展示视图分成一级视图、二级视图和三级视图,分别展示不同管理层次和范围的系统运行状态(如下图所示)。
3.集中统一的管理界面
用户在统一监控管理平台上可查看所有视图,提供直观的图形用户界面。
1)基于上下文环境和组合视图,降低用户诊断问题的时间。
2)基于角色和权限的控制,增强管理的安全性。
3)提供可定制化的工作区和视图,提高操作的灵活性。
4.开放的接口
能够集成第三方监控工具,实现将第三方监控(例如BA、安防、柴发、电力或特定应用管理工具等)完全变为监控系统的一部分。
5.丰富的报表展示功能
提供统一的报表界面,具备强大的数据展现能力:
1)提供网络、系统、数据库、网络、中间件、应用和业务运转状况的集中统一报表
2)提供实时与历史性能报表
3)提供数据分析、展现和用户报表定制功能
4)预制报表模板
5)自动周期性报表,如日报、周报、月报、季报、年报等
6)支持PDF、HTML、Excel等报表格式
2.系统架构及实现原理
2.
2.1.系统架构
本次提供的数据中心基础设施管理系统涵盖较多被监控的对象,覆盖面较广,功能复杂,系统设计遵循模块式开发、部署,系统从底层到最上层的图形用户接口共分为四层,每一层实现不同的功能,系统整体的架构如下图所示:
整个系统管理架构分为采集层、处理层、管理层、交互展示层四个层次。
2.1.1.采集层
包括数据中心环境中的机房环境、暖通设备、电力设备、安防设备等被管理实体,是需要被实时监控的对象,是原始信息的来源。
所有的被管理对象通过标准协议或私有协议方式向管理端提供各种性能和事件数据。
2.1.2.处理层
包含两个功能,一是对管理实体中的数据进行数据采集;二是根据要求对数据进行必要的整合。
除了采集到的数据外,还可能包括各种管理数据,系统汇总后的数据、文档数据等。
系统管理的数据采集方式支持以下几种:
Ø采用定时轮循机制获取被监测设施的数据;
Ø监听代理端的TRAP消息实时获取数据;
Ø通过设备厂家提供的监控工具获取数据;
Ø通过读取日志文件获取数据;
Ø通过其他厂商监控平台获取数据。
2.1.3.管理层
数据中心基础设施管理系统所使用的各种业务逻辑,集中管理和协调各子系统之间的服务调用,是系统管理的核心管理平台,主要有如下功能要点:
1.性能管理,对基础设施实时监控,采集各种指标数据,并与告警模块关联,在产生异常时及时发出警告
2.告警管理,提供告警主动通知、告警统计、告警相关性分析等功能
3.统一事件处理,集中收集基础设施事件与告警,并提供告警相关性分析,辅助管理员排除故障
4.基于运维服务管理则实现运维管理功能,包括服务台、事件管理、问题管理、变更管理、配置管理、发布管理、知识库管理、SLA管理等模块。
2.1.4.交互展现层
展现层是DCIM系统与运维人员之间的人机交互接口,本次系统采用全WEB化的客户端界面,运维人员只需使用浏览器即可在网络中任意一台电脑上随时接入系统,系统支持portal功能,可以根据用户的需要呈现不同的功能和数据。
此外,系统支持email、短信、声光等多种方式的事件通知形式。
通过北向接口及标准协议,系统可将监控、采集数据推送至第三方管理平台及3D展示平台。
2.2.系统集成
2.2.1.第三方集成
DCIM系统在设计之初,充分考虑了开发性和可扩展性的需求,可以有效地容纳和支持基础设施规模的不断扩大和复杂、业务种类的增多,能够在设施体系结构和软件模块划分两个方面支持整个应用的良好扩展性。
系统预留业界较通用的接口,可以方便地实现与各类第三方系统的集成,支持通过以下方式进行对接和整合:
ØTrap:
基础设施管理系统可以接受第三方监控平台产生的trap,前提是双方确定好trap的报文格式,由DCIM系统内置的trap解析器进行解析和处理。
如工单的自动生成,告警消息的上报,确认和清除等等。
ØWebservice接口:
为了实现数据共享,可以通过webservice接口将监控平台的数据在基础设施管理系统进行展示或汇总分析。
如监控平台的topN数据展示,告警信息,与CI关联的设备信息,实时CPU,内存,磁盘信息、链路流量等信息。
ØHTTP接口:
功能与
(1),
(2)基本相同,是另一种数据交互方式,优点是调用方便,并且无需对引入第三方jar包,无需做侵入式修改。
ØJMS:
为了达到高实时性的要求,通过JMS推送机制,作为订阅客户端,可以接受推送过来的实时告警信息并在DCIM上进行展示,比如展示在业务视图上或工作区/服务台首页。
ØSOCKET:
可以支持socket双向通讯,由第三方监控平台开放socket监听端口,DCIM进行socket连接后进行数据通讯。
可以满足一些实时性要求比较高的需求。
ØAPI接口
2.2.2.短信猫集成
短信猫直接接在DCIM系统所在服务器的串口上,并给短信猫配置一张SIM卡,当需要发送短信时,DCIM系统直接通过串口通信协议与短信猫通信,将短信的收信人手机号码,短信内容发送给短信猫,由短信猫负责通过运营商的网络发送到指定接收人。
2.2.3.短信网关集成
对于客户具备相应的短信网关系统的情况下,DCIM系统支持与短信网关对接,通过数据库访问协议访问短信网关的后台短信数据库,将短信的收信人,短信内容插入数据库,由短信网关软件负责将数据库中的短信发送到指定接收人,目前支持与SQLServer2000、SQLServer2005、Oracle9i/10g数据库的短信网关集成。
2.3.开发工具及技术介绍
系列产品均采用JAVA+HTML5技术开发,实际情况证明,JAVA+HTML5技术是一项成熟可靠的技术,在全世界各个行业,有数不清的核心业务系统使用JAVA语言开发,大到银行核心业务系统小到各个论坛网站,JAVA平台提供了多种多样的特定技术来解决软件开发中遇到的各种问题。
目前的DCIM产品主要使用到了如下开发工具和技术:
2.3.1.自定义流程引擎
业内成熟、功能强大、性能稳定的流程引擎产品,通过使用流程引擎,可以使得企业业务人员和软件开发人员统一沟通的语言,使用流程建模工具即可完成交流,规避了业务人员不懂软件开发技术、软件开发人员不懂业务所带来的困扰;通过对流程的建模(结果以XML格式呈现),方便我们根据企业多变的业务情况灵活修改,流程引擎帮助我们管理各个流程实例的状态,软件开发商只需要在此基础上加入业务特定要求的表单数据即可,大大简化了开发企业流程管理软件的复杂度、降低了开发时间和财务成本,提高了软件交付的时间,也提高了软件的稳定性。
2.3.2.成熟的开发标准技术
DCIM基于JAVA企业版本技术规范开发,为浏览器/服务器模型软件系统,系统严格遵守JAVA企业版本规范,采用了成熟可靠的Struts、多线程、异步IO、线程池等可靠技术,确保DCIM系统稳定、可靠、系统资源占用低,能够长时间稳定运行。
2.3.3.分布式通讯调度
在整个DCIM管理系统的建设中,底层的监控是基础,离开了底层的监控上层的运维就无从谈起,那么监控软件如何能够快速、准确的按照管理员设定的监控策略对指定的被管对象进行监控,并将监控取到的各种数据完整的送往上层。
不同的被管对象,有不同的监控策略,比如某些重要配电设备,每秒钟就要采样1次,某些设备比如蓄电池内阻只需要30分钟采样一次即可,随着被监测对象数量的增多,不同的监测对象需要有不同的通讯调度策略,在同一时刻可能有数千个通讯需要调度执行,这对通讯调度器模块提出了很高的要求,如何能够在预先规定的时间内采集到数据而没有发生延迟现象?
DCIM系统通过分布式的通讯调度模块实现了该功能,其原理是通过并行的多台监控节点(嵌入式采集服务器),同时运行通讯调度工作,每个监控节点分别负责监控一部分被管对象,监控策略由中央策略节点下发,一旦下发到某个监控节点,监控节点会根据监控策略中规定的时间点准时触发相应的通讯。
通过多台监控节点的水平部署,解决了大规模通讯调度的问题。
2.3.4.搜索引擎
企业流程多种多样,业务复杂,这些流程有事件处理、严重问题处理、变更/发布处理等流程,当日常运维工作使用管理软件来完成运维流程工作一段时间以后,就会产生大量的工单,这些工单以结构化的形式记录存储在数据库的表中,由于工单中记录了很多字符串的文字信息,如何根据关键字快速寻找到想要的工单,是一个难题。
传统的关系型数据库虽然解决了结构化数据的存储、索引及搜索问题,但是无法做到对带有语义的字符串进行分词、索引,如果使用某个关键字对数据库表记录进行搜索的话,往往需要对全表进行逐行扫描,这会造成性能急剧下降,给用户带来非常差的搜索查询体验。
为了避免该问题,借鉴互联网搜索引擎对网页文本进行抓取、分词、索引、存储的相关技术,DCIM通过内置的搜索引擎,对流程工单数据自动进行分词、索引操作,操作人员日后可以通过任意关键字搜索业务数据,相比较于传统的数据库式的搜索,大大提高了搜索时输入的便利性(只需要输入几个关键字而不需要在多个查询条件中分别输入)和搜索速度及准确性。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据中心 基础设施 管理 系统 DCIM 总体方案