1、异地数据备份方案样本新一篇:VERITAS全线存储备份容灾解决方案第一章 劫难备份背景及优势1.1 什么是计算机业务系统劫难今天,XXXX比以往任何时候都更加依赖于计算机系统,计算机系统在为XXXX迅猛发展提供技术基本架构同步,由于顾客业务解决高度集中,以及不可预见故障和劫难,导致整个系统存在诸多劫难性破坏隐患,有也许成为整体系统中单故障点。因而,业务拓展与劫难防范是所有顾客都必要同步注重问题。那么,什么是计算机业务系统劫难呢?普通定义是指采用计算机系统解决重要电子数据丢失至不可恢复或由此导致业务中断以至于延长到不可接受时间。1.2 国外计算机业务系统劫难备份应用状况劫难备份筹划在发达国家电信
2、行业和金融行业得到了较早实行,现已较为普遍。例如在美国,因一九八五年纽约银行计算机故障,联邦管理部门更加强了在这方面监管力度。现美国计算机业务系统普通出于如下三方面来考虑劫难备份筹划:重要数据保护与业务持续运营需要:在美国,各行业内部竞争激烈;在计算机管理制度上较为完善;一旦因突发劫难而导致数据丢失或业务中断,将会导致重大乃至致命打击。审计规定:美国较大型公司普通会由第三家独立审计公司来提供其资信业务、管理等方面征询服务,而世界知名六大审计公司在对公司评估项目中均包括劫难备份筹划一项;评估公司数据在劫难等威胁破坏下数据完整性,一致性与安全性,及业务可恢复性等,有些征询审计公司还会参加验证所制定
3、容灾筹划详细过程和其可行性。缺少劫难备份筹划及其危害性会在评估报告中被显示出来。法律规定:美国政府及州政府通过多项法律强制性规定电信、金融业等大型公司备有计算机安全及劫难备份筹划。对于没有遵守这项劫难备份筹划公司,会遭受曝光及罚款等严重解决,同步亦也许对有关负责人采用罚款甚至监禁等惩罚。已知劫难例子有:日本神户大地震、美国佛罗里达州飓风(数百家公司实行了劫难备份筹划)、台湾大地震等。1.3 国内计算机系统劫难备份筹划应用状况随着国内入“世”脚步越来越近,老式产业在进入新市场新方式竞争中,公司电子信息架构搭建,成为最具备战略意义资源投资。作为信息架构核心数据,其安全备份和劫难恢复随着世纪交替Y2
4、K问题引起,逐渐引起人们思考和注重。当代公司必要直面一种迫在眉睫问题:如何对数据进行持续不断地存储,并通过有效地应用这些信息,提高公司利润率和竞争力。因此,在当今公司运营电子化进程中,存储将与网络、软件应用和系统CPU处在同等重要地位,成为决定系统成熟与否核心。由于存在着各种数据丢失也许,随着人们对网络系统依赖日益增长,从硬件到软件对数据保护和备份的确是不容忽视环节。公司IT专家们逐渐结识到,也许导致数据丢失因素重要有三种:自然灾害劫难性破坏导致数据永久丢失,最佳解决方案就是异地数据备份;计算机和网络系统硬件和软件故障,这种损失也只有通过完整数据备份来弥补;此外,自然免不了黑客破坏以及人员操作
5、失误。这些事故发生都是防不胜防,唯一能把损失降到最低办法就只有依赖具备数据备份和劫难恢复功能存储设备。近年来国内顾客在计算机应用方面飞速发展,计算机系统基本架构建设、特别是计算机容灾系统设计与建设正逐渐被顾客所注重。不言而喻,如果顾客业务系统有一套完备劫难备份/恢复体系,当突发性劫难发生后,业务系统核心业务数据损失将减至最小。特别是随着中华人民共和国加入WTO日益临近和行业竞争越来越激烈,完善劫难备份/恢复体系在不远将来将是国内公司发展可靠保障。在国内,随着Internet逐渐普及和电子商务热潮兴起,公司需要整合越来越多数据,而数据合并、管理、分享、保护都需要一种强大、高可靠性数据中心;同步,
6、随着国内公司经营者对公司数据信息价值和数据安全备份结识提高,存储设备投资也正在公司信息化建设投入中占据着越来越高比重。IT行业权威人士以为,在将来一至两年中,数据存储系统要耗费所有公司计算系统投资70。1.4 建设劫难备份中心重要意义随着计算机管理技术和网络技术发展,为了提高公司业务管理水平、增强公司市场竞争能力,越来越多公司开始使用计算机来解决内部寻常事务和外部业务往来,从而使得这些公司越来越依赖于系统管理数据和业务信息。特别是在公司业务不断增长、数据量成倍增长乃至浮现数据膨胀现象时,由此引起公司从数据膨胀、到计算机性能提高、再导致新一轮数据膨胀循环不断加剧,进而在公司中引起新数据安全恐慌,
7、数据失效问题时有发生。建设劫难备份中心目就是在于防止某些劫难性小概率事件也许对集中式信息系统导致不可恢复原始数据丢失,这些劫难性事件也许涉及为火灾,地震,电源故障及某些人为操作失误等,如下图所示。当代公司管理非常注重总体拥有成本(TCO)。所谓TCO,事实上是由实际成本、使用成本和风险成本三项构成。实际成本和使用成本在公司建设与生产中往往容易引起人们注重,因而考虑得非常周到。而风险成本不但是公司看不见、摸不着东西,也是公司运作时很难预料和把握内容。在使用计算机系统公司中,风险成本包括用于管理关系到公司生命各项数据与信息安全、正常、可靠高速运营所需费用。因此,为将风险成本降至最低,同步使公司长期
8、处在最佳状态,对公司业务和计算机管理与控制系统数据进行全面存储备份是一项绝对值得、也是必要投资。咱们懂得,随着公司计算机系统建设筹划逐渐实行,XXXX寻常业务同计算机系统联系越来越紧密。因而,业务主机系统运营浮现故障所带来业务影响范畴会被迅速扩大,而客户对公司计算机业务系统持续运营,业务系统、顾客数据高可用性以及业务计算机系统抵抗突发性劫难能力规定也必然急剧提高。XXXX建设劫难备份/恢复中心有如下意义: 重要业务数据在劫难发生后得以有效保护 重要业务在劫难发生后可以在设定期间内恢复,从而实现业务持续运营 业务计算机系统抵抗突发性劫难能力和级别提高 进一步提高XXXX名誉,增强客户及潜在客户信
9、心 扩大对同行业竞争对手优势第二章 劫难分析也许发生劫难因各都市/地区地理、气候、社会治安、都市管理,如供水、供电、通讯条件等差别而有所不同。仔细地分析各种突发性灾害发生也许性以及由此所导致后果,对于制定和构建完整和有很强针对性劫难备份体系是有很大协助。下表是一张分析表样本,可使咱们对于也许发生突发性劫难评估有较为清晰概念。也许劫难也许性:12345工作场合火灾数据中心火灾电源故障气候劫难(台风,洪水等)工业破坏都市事件(罢工,动乱等)硬件故障软件故障设备问题(如管道漏水等)供水故障通讯系统故障计算机故意破坏(如病毒等)爆炸威胁工作场合环境紧急事件(化学污染等)第三章 劫难备份设计目的3.1
10、劫难备份设计目的采用何种容灾方式(逻辑数据复制物理数据复制)实现劫难备份系统设计目的重要应从如下四个方面来考虑:详细数据类型与目的劫难保护:从顾客业务系统正常运作角度分析各种核心业务数据,作出重要性与可恢复性规定评估,并由此制定系统数据劫难保护政策。劫难发生后可恢复业务分析:对顾客各种业务与管理流程进行分析评估,并据此制定出顾客核心业务系统劫难备份/恢复方略。劫难发生后可恢复分析:对于突发性劫难这样重大事件,有时受灾地区并不苟求所有业务系统都可以可持续运营,故可按实际需求和比例进行分析,并由此配备相应容灾设备。劫难发生后业务可恢复时间指标:可以将劫难发生分为两类,一类是可以预测详细时间劫难,如
11、损害性极大台风等;另一类是不可预测详细时间突发性劫难,如地震、主机系统非筹划性Down 机等。针对两种不同劫难类型,要设定不同业务恢复时间指标。普通来说,对第一类劫难业务恢复时间要大大短于对第二类突发性劫难业务恢复时间依照顾客对系统容灾能力不同规定以及投资方面因素,HP公司提供各种容灾解决方案,各有侧重不同,咱们会从不同角度简介容灾系统实现办法,以及系统典型配备。第四章 劫难备份设计思路及模型为了设计与实行xxxx劫难备份系统,按照大型项目管理办法和公司在项目管理方面所积累丰富经验,在这里将整体项目设计与实行分为五个阶段:4.1容灾项目开始 明确xxxx劫难备份恢复筹划必要性 明确劫难备份筹划
12、负责人和实行队伍 制定项目实行时间表。4.2劫难风险分析 拟定对xxxx业务至关重要系统、网络和顾客 拟定由于自然或人为劫难对这些导致威胁和损失,并尽量精确为详细损失 收集各种业务和顾客对系统中断时间等规定4.3制定恢复筹划制定当劫难发生,原业务主机系统或网络系统不可用时,提供第二主机(灾备主机)或网络(灾备网络)选取方略。4.4方案实行开始实行劫难备份筹划,如数据实时在线备份、应用系统切换、记录本地数据备份磁带管理等。4.5支持与维护由指定人员、部门或公司提供容灾系统寻常支持与维护服务,保证劫难备份恢复系统可持续,高可用运营。如下为容灾方案实行各阶段框图:项目开始劫难风险分析方案实行支持与维
13、护制定恢复筹划对于其中核心某些第三项“制定恢复筹划”,依照xxxx业务特点,这里分为如下几种环节:1、制定业务主机系统集群系统热备份筹划:涉及对服务器、操作系统、应用系统、数据库系统、重要数据等热备份筹划。2、制定位于生产地、与业务主机系统有关前置服务器数据热备份筹划:涉及对其她机型操作系统、数据库系统、应用系统、重要数据和通讯配备等热备份筹划。3、制定网络通讯备份筹划:对网络设备、网络合同、网络参数设定、故障切换逻辑过程、通讯线路备份筹划等。4、制定客户端备份筹划:涉及终端设备,终端顾客注册与权限管理备份。5、制定磁带备份筹划:涉及系统备份、非系统数据文献备份、业务数据库数据备份,及与备份系
14、统有关其她全量备份、增量备份等,以构成完整系统保护办法。6、制定劫难备份批示系统:此系统用来提供清晰全面劫难备份指南,可以在劫难发生时在最短时间内找到劫难备份流程,与有关负责人和供应商联系方式,以及应当采用应急办法等。如下为流程框图:第五章 xxxx业务系统劫难备份恢复体系设计5.1 劫难备份恢复体系总体设计惠普公司为xxxx业务系统提供劫难备份恢复方案可以满足顾客对于计算机系统、数据最高保护规定,保证虽然发生断电,火灾等严重劫难时,顾客业务也可以7x24小时持续运营,同步保证业务数据在主中心和备份中心得到及时更新,保证顾客数据最大完整性。依照惠普公司近年来所积累实行高可靠性劫难备份恢复解决方
15、案成功经验,咱们可以承诺顾客在最小投资范畴内,按照惠普公司项目实行流程,在最短时间周期内达到整个项目设计目的,并且通过惠普公司完善周全售后服务体系,保证XXXX核心业务计算机系统全天候、安全、稳定运营。由于顾客数据中心核心业务系统相对集中,因而在数据中心实现核心业务数据规范化本地数据备份是灾备系统建设前提基本;同步通过进行重要业务数据远程同步实现顾客重要业务数据远程异地存储,为实现业务系统远程正常运作奠定坚实基本;容灾系统核心就是远程生产数据自动复制,由于顾客应用均为基于数据库联机事务解决()业务系统,因此业务数据远程复制核心就是保证数据库数据完整性、持续性,实时性和可恢复性。而当前惠普公司基
16、于顾客不同容灾需求所提供劫难备份恢复方案重要有如下四大类型:1) 通过应用程序来进行远程数据复制(应用层次);其重要原理就是通过修改应用程序或者使用BEA等公司中间件产品,使得前端平台在向数据库服务器发送生产数据时,同步向主数据中心和备份数据中心均发送交易数据,主数据中心解决交易数据并返回解决成果,备份中心在正常状况下,只解决交易数据,当主数据中心无法正常工作时,备份中心服务器接替主中心服务器向前端平台返回解决成果。2) 运用数据库厂家软件产品完毕远程数据备份(数据库层次);既有某些数据库厂家例如Oracle数据库可以提供STANDBY数据库功能,通过通信网络将实际数据库日记文献传至备份中心存
17、储系统,备份中心STANDBY数据库按照主数据库构造从日记文献中重新恢复数据库;又例如Informix数据库可以提供HADR(High-Availability Data Replication)功能,在初始化时将主数据中心数据库中所有dbspace进行一次零级备份,并恢复到备份数据中心数据库中,之后主数据中心数据库服务器可以通过通信网络将生产数据库逻辑日记文献传送至备份中心数据库服务器,备份中心secondary数据库将这些逻辑日记恢复到相应dbspace上3) 运用主机上安装操作系统级镜像软件进行远程数据镜像(系统软件,如HP-UX MirrorDisk/UX,Veritas Volume
18、 Replicator等);主中心存储设备与备份中心存储设备进行逻辑卷镜像,主机同步将数据分别写到本地和远程磁盘设备上,实现业务数据远程复制。4) 通过惠普最新存储产品XP系列磁盘阵列(磁盘阵列硬件层次),可以实现主数据中心和备份中心操作系统、文献系统、数据库、应用程序实时远程拷贝复制。主、备中心磁盘阵列自身就可以通过阵列上微解决器完毕数据实时同步功能,将劫难发生时核心数据损失降至最低,并且不需要主机干涉或占用主机资源,可以做到劫难发生同步实现应用解决过程恢复。远程备份系统重新启动可以做到象普通输入电源故障后重新启动那么简朴。如下是对各种容灾实现方案总体比较:数据量应用复杂度数据实时性对主机性
19、能影响带宽投资成本交易数据备份交易数据高(也许修改应用)低10%几十万数据库日记备份2-4倍交易数据数据库工具也许至少丢失1个LOG较高(10-20%)几十万镜像软件4-8倍交易数据应用透明高(I/O级),网络镜像软件故障影响主机业务高(10-30%)几百万磁盘阵列4-8倍交易数据应用透明高(I/O级)无几百万5.2 应用层方式容灾构造简介运用应用层容灾方式建立针对顾客业务劫难备份系统,其重要原理是通过应用程序或者中间件产品同步向主中心和备份中心传播未经解决生产数据,主中心服务器和备份中心服务器同步解决数据。在正常状况下,只用主中心和业务系统联系,备份中心只在后台解决数据;当主中心瘫痪时,由于
20、备份中心也存有生产数据库,也存有生产数据,因此可以迅速接管业务。由于是运用应用软件来实现数据同步及保证一致性,因而对于硬件方面影响较小。如图所示:这种方案重要长处就是:a) 由于通过网络传播交易数据时未经数据库解决,因此传播数据量小,对传播数据网络带宽规定不高;b) 传播数据过程中,主中心和备份中心异步进行,由传播距离产生延迟和通信带宽瓶颈不会相应用产生较大影响缺陷是:a) 相应用程序修改较大,增长应用软件商二次开发承担;b) 由于主,备数据中心业务解决过程为异步进行,如何保障数据一致性非常困难,需要在应用中对数据同步进行周密设计;这种容灾方式适合于传播距离极长(几千公里),且网络传播带宽和通
21、信质量无法得到有效保证顾客环境而对于存储设备则没有严格限制,顾客可以灵活选取满足容量和速度规定存储设备。5.3 数据库方式容灾构造简介531 原理数据库方式由于只是传送数据库日记,与应用没有直接关系,因而不必相应用程序作大量修改。如下简介重要以Oracle和Informix数据库为主。数据库方式容灾通过数据复制把数据定期、在线地复制到目地机器上去,以保持分布在不同地方两个或各种数据库系统内容一致性,来实现数据保护。但它将消耗大量主机资源(至少要占用监控和复制两个进程)。复制对象是数据库解决单位,如事务日记(逻辑日记),实现方式也有同步与异步两种,严格来讲,这种办法很难有真正同步方案。由于同步数
22、据复制规定做任何一笔交易,都要实时地将成果发送到远程站点中,等远程操作结束后,再执行下一笔交易;而在实际操作中,很难做到这一点,只能做异步数据复制。因此一种实时应用系统中,普通采用异步方式。备份数据中心通过网络连接到中央数据中心。在正常状况下,Oracle数据库运营在主数据中心服务器上,数据存储于主数据中心磁盘阵列中。运用Oracle数据库提供STANDBY数据库功能,可以通过通信网络将实际数据库日记文献传至备份中心存储系统,备份中心STANDBY数据库按照主数据库构造从日记文献中重新恢复数据库,以保持数据一致性。一旦中央数据中心浮现问题,顾客可以及时启动备份数据中心备份数据库以及有关应用。A
23、chivelog备份方式这一实现方式核心在于通过一种专用程序将主数据中心数据库中Achive Log 定期通过通信网络传播到备份中心数据库中。一旦主数据中心不能提供服务,备份中心一方面通过Redo Log恢复数据,然后再代替主数据中心恢复应用。基于数据库方式容灾可以把变化了数据定期、在线地复制到目地机器上去。对顾客来说,这种复制方式长处是可以较好地保证数据一致性,但它将消耗大量主机资源(至少要占用监控和复制两个进程)。此方案可以做到在有限投资范畴内,充分运用既有机器设备,实现应用系统和重要数据劫难恢复功能。作为惠普公司成熟劫难恢复技术,此方案已经在国内许多顾客中成功实行过。其中涉及:上海浦东国
24、际机场劫难恢复系统等。建立远程容灾环境: 运用中央数据库全备份(零级备份)建立劫难备份数据库 由专门进程负责传播中央数据库生成日记文献到远地,这里可以通过定义日记文献大小及传播时机来控制劫难发生时数据损失尽量减少,并可加快容灾应用切换速度,尽快恢复业务在备份数据中心系统上运营。 劫难备份数据库使用传播来日记文献(Archive log或Logical log)不断更新备份数据库,这时数据库始终处在恢复状态(Informix数据库为quiescent状态),其数据不可被访问(对于Informix数据库,备份数据库中数据可被用来进行读操作,但无法进行写操作)。 劫难备份数据库更新出错且无法解决时,
25、应重新建立备份数据库。 劫难备份数据库应定期做激活测试,以保证其在核心时刻可用性。 应用系统需考虑发生劫难时如何将联接切换到劫难备份数据库。容灾切换: 将中央数据库可获得日记文献传至劫难数据库后,将劫难备份数据库更新到近来点,并启动数据库供应用系统使用; 及时对劫难数据库做数据库全备份; 对损失数据进行修补; 以建立劫难数据库同样方式建立中央数据库,并将运营系统切换回中央数据库,该次切换可做到数据无损失; 及时对中央数据库做数据库全备份; 重新建立劫难备份环境,恢复容灾系统532容灾环境维护(中央数据库构造发生变化)寻常管理中,需对中央数据库归档日记(逻辑日记)目录定期进行备份和清理,亦需清除
26、劫难备份数据库归档日记(逻辑日记)目录中使用过归档日记(逻辑日记)。在系统运营过程中,也许发生变化中央数据库构造状况,这时需要进行恰当操作使劫难备份数据库跟上更新变化,保持数据库构造一致和同步:1 增长数据文献在中央数据库上增长数据文献将产生相应日记,当被施用到劫难备份数据库时控制文献中会加入此数据文献名,此时如劫难备份数据库能在相应目录找到此数据文献,恢复操作继续;否则会停止,在继续恢复操作之前,需选取如下操作:- 将此新数据文献拷贝到劫难备份节点相应目录下;- 在劫难备份数据库上执行命令Alter Database Create Datafile filename2 数据文献改名对中央数据
27、库数据文献进行改名,需要刷新劫难备份数据库控制文献,或在对中央数据库作该操作时亦对劫难备份数据库作类似操作,即可保证中央与劫难备份数据库同步。3 修改联机日记文献设立在对中央数据库联机日记文献进行增长、删除等操作后,都不会影响劫难备份数据库。但在中央数据库上执行命令Alter Database Clear Unarchived Logfile,或以Resetlogs选项打开数据库,则会使容灾备份数据库失效,由于容灾备份数据库无法得到进行恢复操作所需归档日记文献,这时需要重新建立容灾环境。4 修改控制文献若在中央数据库上使用Create Controlfile命令执行如下操作,将使容灾数据库控制
28、文献失效:- 变化联机日记组或文献最大数目参数- 变化数据文献最大数目参数- 变化并发打开数据库实例最大数目参数此时需要刷新劫难备份数据库控制文献。在中央数据库上使用带Resetlogs选项Create Controlfile命令将在下一次打开中央数据库时重置联机日记,日记序列回到1,从而导致容灾备份数据库失效。5 数据库启动参数建议使中央数据库与劫难备份数据库参数配备相似,以免因参数不同影响容灾数据库性能甚至恢复操作实现。6 刷新劫难备份数据库控制文献当中央数据库控制文献发生变化时,依照如下环节刷新劫难备份数据库控制文献:- 停止劫难备份数据库恢复操作- 关闭劫难备份数据库- 在中央数据库上
29、执行命令Alter Database Create Standby Database Controlfile As filename 创立供劫难备份数据库使用控制文献- 在中央数据库上执行命令Alter System Archive Log Current归档出当前日记- 将上两步产生控制文献及归档日记文献传送至容灾节点- 启动劫难备份数据库在Nomount状态,执行Alter Database Mount Standby Database使数据库处在Mount状态- 进行劫难备份数据库正常恢复操作7 关于Unrecoverable操作产生数据中央数据库上用Unrecoverable选项操作(如Create Tableunrecoverable)产生数据更新不生产日记,因而无法传送到劫难备份数据库,此时只能采用如下三种办法之一:- 在劫难备份数据库中,使受该操作影响数据文献处在Offline状态。劫难切换后,删除劫难备份数据库中相应表空间。该办法在容许损失此整个表空间数据时才干使用。- 重建容灾环境- 在中央数据库上备份该操作影响表空间,归档当前日记,传送到容灾节点后,启动劫难备份数据库恢复操作。注意:如在中央数据库做了Unrecovera