vcsarchitecturesGB.docx
- 文档编号:24050023
- 上传时间:2023-05-23
- 格式:DOCX
- 页数:26
- 大小:534.69KB
vcsarchitecturesGB.docx
《vcsarchitecturesGB.docx》由会员分享,可在线阅读,更多相关《vcsarchitecturesGB.docx(26页珍藏版)》请在冰豆网上搜索。
vcsarchitecturesGB
作者:
MichelleM.Mol;产品市场经理
JimSenicka;技术产品经理
VERITASClusterServer™灾难恢复架构解析
简介3
理解灾难恢复的基本术语3
恢复点目标(RPO)3
恢复时间目标(RTO)3
计划内停机4
非计划内停机4
VERITAS集群服务器的灾难恢复架构4
最适合我的环境的最佳方案是什么?
5
提供的产品方案5
本地集群5
客户案例6
扩展集群(城域灾难恢复/区域集群)8
客户案例9
城域集群(metropolitanClustering)的选择:
复制数据集群(RDC)11
客户案例12
广域灾难恢复14
客户案例15
结论16
简介
许多企业需要实施高可用性架构,同样,他们也需要对其关键任务应用和数据库实施灾难恢复/业务永续方案。
如果能够充分利用现有的硬件和基础架构,那么就极有可能在有限的预算之内实现这些需求。
进行灾难恢复的传统步骤包括多种方法,从标准的基于磁带的数据恢复到广泛区域内的同步数据复制。
对于那些没有基础架构支持广泛区域内数据复制方案的企业,仍然可以采用其他方法获得应用和数据库的快速恢复,同时还能够对本文中所讨论的站点故障实施保护。
VERITAS支持几种集群架构,满足多种数据中心的需求。
本文意图详细解释各种数据中心的架构,并提供了配置每种架构的细节信息。
理解灾难恢复的基本术语
需要理解的两个关键概念是您的恢复点目标(RecoveryPointObjective,RPO)和恢复时间目标(RecoveryTimeObjective,RTO)。
发生故障或灾难时,对于恢复工作所需时间有一个清楚的认识是至关重要的,同样,了解现在的数据在恢复之后是什么样子的也同等重要。
可能并非所有应用和数据库都需要相同级别的可用性,如下是对RPO和RTO的简要描述:
恢复点目标(RPO)
灾难或故障之后你能承受丢失多少数据?
能够接受的丢失数据总量是多少?
恢复点目标指的是必须把数据恢复如初的位置。
企业必须制定令人满意的恢复点目标和恢复时间目标。
很多人侧重于RTO或能够接受的停机时间。
但是,它应该与考虑能忍受丢失多少数据同等重要。
数据是至关重要的,数据的丢失(即使仅仅是几分钟、几小时或是几天)能给企业带来深远的负面影响。
今天,许多公司灾难恢复计划的主要方法是依靠磁带进行备份和恢复。
虽然磁带备份很重要且是一切全面的灾难恢复计划的基础,但是这通常意味着至少损失一天的数据和停机几天,原因来自于从磁带恢复的时间总量。
这种方法也许能满足某种业务需求,但是如果不能满足,必须采取一些能够减少恢复数据时间的技术。
恢复时间目标(RTO)
恢复时间目标是恢复系统对数据的访问所需的时间。
例如,如果客户宣称需要45分钟才能使应用系统恢复在线,可忍受的停机时间的极限是1小时,那么在实际的灾难中,只有15分钟时间制定强制切换决策点(MandatoryDecisionPoint)。
强制切换决策点(MandatoryDecisionPoint)的解释如下:
一旦产生中断,时钟开始计时。
最终用户将受到多长时间的影响?
商业需求:
需要应用在1小时内在线。
问题:
时钟是从灾难生的那一时刻而开始计时的,而不是备用系统开始启动的时刻。
1.最多承受1小时的停歇
2.故障检测时间耗费掉IT恢复时间
3.即使仅仅是本地故障,仍然需要一些时间检测实际的故障
4.这决定了强制切换决策点只有15分钟
计划内停机
如果对应用、数据库或服务器进行升级或维护,在这期间使用集群是维持高可用性的必要方法。
非计划内停机
如果应用、数据库或服务器发生故障,运行在服务器上的服务将切换到其他服务器上,以避免长时间的停机,并且还要保持快速的恢复目标。
VERITAS集群服务器的灾难恢复架构
VERITAS认为不是所有的数据中心的情况都是相似的。
在本地站点为高可用性所建立的基础架构可能无法满足每项业务的管理或可用性需要。
但是,独立使用VERITASClusterServer或将其与VERITAS其它产品联合运用,在几乎任何开放系统环境下都能够获得期望的可用性。
VERITAS提供和支持几种集群架构,能够满足大多数公司的数据中心架构需求:
∙能够共享数据的本地高可用性
∙城域集群
∙为灾难恢复进行广域内的集群(全局集群)
VERITAS能够为任何企业需求提供高可用性(HA)和灾难恢复(DR),无论高可用性或灾难恢复计划是针对本地单站点的,还是短距离内城域网(MAN),抑或全局范围内广域网(WAN)。
不论数据中心的基础架构或SAN和网络连接的可用性是怎样的,VERITAS都可以提供已经被广泛验证的围绕高可用性和存储管理产品建立的高可用性或灾难恢复架构。
最适合我的环境的最佳方案是什么?
本地集群与广域内灾难恢复的区别是相对清晰的:
本地集群保护数据中心内的硬件和软件,使之免受故障困扰,广域灾难恢复使用复制技术,防护远距离覆盖区域内的灾难。
取决于高可用性/灾难恢复方案面对的“中间传输距离”,将集群技术与镜像或复制技术结合到单一集群中,能够以最小的成本保护关键任务应用和数据库,这引起了人们强烈的兴趣。
一个高可用性集群也能提供灾难恢复功能么?
主要的变化之一导致了一些问题,例如这样一个概念“多远才算足够远?
”。
传统上认为灾难恢复中心提供完整的保护必须有数百甚至上千英里的距离。
底线是多数机构的灾难恢复和数据需求需要在线的数据保护,RPO和RTP接近零。
这意味着客户期望提供灾难恢复功能与简单的配置本地高可用性集群类似,但是跨越多重站点,且费用并不昂贵。
客户们现在意识到短距离(1到100公里)能够提供灾难恢复,防护大多数具体的威胁,例如火灾、洪水或停电等。
对于那些能够影响整个城域的威胁,传统磁带备份和异地磁带库能够满足要求,或者,为了满足RPO和RTO,企业要配置跨越城域的广域集群。
在本文如下的部分将详细介绍VERITAS产品,这些高可用性集群产品从本地数据中心到城市区域再到广域范围。
本文的目的是阐述VEERITAS能够提供高可用性和灾难恢复无缝连接的解决方案,这些方案基于现有的基础架构,能够满足企业对RPO和RTO的要求。
提供的产品方案
1
本地集群
定义
一个VCS集群由连接到共享存储设备的不同应用组合的多重系统构成。
VERITASClusterServer监控和控制应用和数据库,并且能够在软硬件发生多种故障时对应用和数据库进行故障切换或重启。
常常定义一个集群为一套连接到冗余网络联接的系统。
这种方案能够在应用、操作系统或硬件在某个站点发生故障时,恢复本地的UNIX或Windows服务器,也可以尽可能的降低应用系统计划内和计划外的停机时间。
本地集群,也称为共享存储集群,是目前最流行的通过应用和数据库故障切换提供高可用性的方案。
环境
∙用于应用和数据可用性的冗余服务器、网络和存储架构使用多重服务器与共享存储系统的连接。
∙系统被连入一个专用的网络互联结构中,通常使用以太网传递系统状态和软硬件资源的信息――VCS使用快速专用协议GAB/LLT进行状态通信。
∙集群中的每个系统都能够在需要时访问共享存储系统上的应用数据
∙区别于扩展集群,它不把数据复制或镜像到其他数据中心(往往在单一阵列中,利用镜像/RAID来提供磁盘保护)
∙SAN结构可以简化大型的集群(大于两个节点),这在当前的所有集群中具有代表性。
例如,使用交换机和集线器
∙所有集群组件服务器、SAN结构、存储系统全部共存于某个站点上。
∙集群中的所有服务器在一个单独的位置(单数据中心)
优点
∙使用共享存储系统上的数据实现应用恢复(零数据损失)
∙将应用和数据库的停机时间降至最低(自动故障切换)
∙优化服务器整合(N+1故障切换情形)
∙快速恢复时间目标,满足严格的服务水平协议和高可用性
缺点
∙在灾难中,数据中心或站点成为单一的故障点
故障切换行为
当应用程序、数据库或服务器发生故障时,VCS将降低对发生故障的应用或数据库的依赖等级,升高集群中运行此服务的其他服务器的等级。
所有服务器都是本地的(在同一个数据中心中)并且是共享的存储系统。
由于服务器访问相同的存储系统,发生故障的服务器所访问的数据可以被那些恢复服务功能的服务器所访问。
何时考虑本地集群
1.您有特定的应用和数据库需要保持高可用性么――这意味着不能长时间的停机?
2.您对应用和数据库长时间停机感到失望么?
3.您希望在计划内停机期间避免应用或数据库的停机么?
4.您无法在应用、数据库或服务器故障时,满足恢复时间目标么?
在当今基于SAN的结构中,VERITASClusterServer能够提供N+1(N个运行服务器和一个待机服务器)和N-to-N(所有服务器都在运行服务)集群,它对于将几乎全部应用和数据库进行集群有着重大的意义。
现在常见的集群配置是为每8个或更多运行通用应用和数据库的服务器配备一个“备用”服务器,这可以减少计划内和计划外停机时间量。
IT管理员检测故障以及采取适当的措施解决问题所花费的时间量可能会造成数小时的停机。
应用或数据库或此二者都停机时,用户无法访问数据。
适用于此方案的VERITAS产品
∙VERITASStorageFoundation/HighAvailability(VERITASFileSystem,VolumeManager和ClusterServer)
RPO/RTO详情
恢复点目标(RecoveryPointObjective):
能从什么位置开始恢复数据?
在这种设置下,集群一直使用共享存储系统,因此,当发生故障时,集群中的其他服务器仍然能继续访问同样的数据。
恢复时间目标(RecoveryTimeObjective):
在原始的检测故障过程中需要手工干预,然后采取相应的措施停止应用再在另一台服务器上启动应用,集群降低了恢复时间目标。
使这个过程自动化能够确保在发生故障时,应用或数据库能够快速准确的切换到另一台服务器上。
成本比较
由于IT管理员不得不学习一种新技术,且要提供一台服务器用于故障切换,所以实施包含任何集群技术的本地高可用性方案的成本增加了。
但是,通常情况下,停机时间的成本远远超过了采用能显著减少计划内、外停机时间的新技术。
再者,VCS超越了传统思想中的1台服务器+1台备用服务器,这种模式是第一代高可用性软件需要的方式。
通过使用N+1集群,VCS的成本更低,例如,在1比1集群模式(一台主动服务器和一台备用服务器)下,服务器的冗余成本是100%。
如果采用8+1集群模式,冗余成本降低到12.5%。
客户案例
ICONClinical
ICONClinical是临床医学和生物业界的领先厂商,在全球提供杰出的药物研究和生物计量服务。
这些服务包括:
∙对交付药物的全部过程提供临床试验支持
∙使用自己的应用系统记录试验相关的全部专利/医师/药物信息。
通过ICONClinical电话系统或网络界面披露与试验有关的病人的信息,例如症状或每日健康情况。
这些信息是通过阶段3临床试验的关键组件。
数据中心信息
∙数据中心支持遍布五大洲的14个国家的23个办公室,超过1500个雇员。
收入信息
∙到今年为止,净收益增加36%,在Q2FY03期间,新增业务净收入6700万美元。
问题描述
∙MicrosoftSQL2000数据库和用户应用系统需要保持99.9%的系统可用性
∙
向与临床试验相关的医师和病人提供24x7的服务
∙需要为已有的软硬件提供高可用性和灾难恢复的解决方案
本地高可用性环境描述
∙操作系统:
Windows2000Server
∙服务器:
Compaq和Sun
∙存储器:
Hitachi
∙应用系统:
MicrosoftExchange2000,SQL7,SQL2000,Citrix,客户应用系统
∙总存储量:
300GB
VERITAS产品
∙NetBackup
∙VolumeManager
∙ClusterServer
∙VolumeReplicator
∙GlobalClusterManager
成功
集群超出了他们的预期:
∙需要一种本地高可用性和灾难恢复方案应对应用或服务器停机。
本地和灾难恢复站点都满足了他们99.9%系统可用性需求
∙需要一种能利用现有软硬件投资的方案――应用和低端Windows服务器的标准版本
∙易于通过GUI界面配置和管理
扩展集群(城域灾难恢复/区域集群)
2
注意:
一份单独的白皮书详细说明了区域集群(campusclustering)配置,可以通过VERITAS网站查找
定义
扩展/区域集群(stretch/campusclustering)是一种扩展到两个以上站点的集群,它使用光纤连接进行数据镜像和集群通讯。
当企业在办公地点采用了SAN结构,且要在短距离进行灾难恢复时,通常采用这种典型结构。
VERITAS在华尔街的许多客户已经搭建了区域集群,他们利用VERITASVolumeManager镜像将数据中心隔开几英里远,通过这种方式为本地站点故障(例如火灾、洪水或当地停电等)提供了灾难恢复能力。
另外,区域集群为扩展数据中心面临的有限增长空间提供了持续的可用性。
环境
∙一个集群通过子网或SAN光纤通道,扩展到多个建筑、数据中心或站点
∙在建筑物、数据中心或站点最多可自由分配32个节点
∙本地存储系统在集群节点间相互镜像
∙使用DWDM的新数据交换机,能够支持长达100KM的距离
∙站点间的距离取决于存储网络基础架构
优点
∙区域集群对每个站点都提供了本地高可用性,防护站点故障。
∙成本效率,单一方案――无需复制(采用远程镜像同步地将数据拷贝到全部站点,零数据损失)
∙将应用和数据库的停机时间降至最低(自动或手动故障切换)
∙充分利用现有的SAN基础架构
∙外观和操作与配置本地集群环境很相似――无需进行特殊的配置
∙防护单一故障地点发生的与气候相关的停电和电力网故障
∙允许数据中心扩展――创建一个跨越站点的服务器、存储系统和应用的单一逻辑群
∙允许跨多重网络进行故障切换(提供DNS升级)(可以通过咨询服务按需定制VCS3.5中的代理选件,这些代理选件包含在VCS4.0基础产品中)
缺点
∙成本――需要SAN架构光纤通道
∙距离受存储系统限制――拥有足够性能的镜像存储能力
故障切换行为
例如:
如果三台服务器在建筑A中,另外两台服务器在建筑B中,当对建筑A中的一台服务器进行故障切换时,VCS会尝试将应用切换到建筑A中的另一台服务器上。
如果建筑A内的服务器全部停机,所有服务都被切换到建筑B中。
VolumeManager利用远程镜像已经将数据保存在建筑B中。
何时考虑区域集群
1.您已经使用SAN光纤通道了么?
2.两个站点之间的距离是多少?
站点间相距80KM么?
3.您想通过提供灾难恢复水平,将已经在光纤中投入的近百万美元的投资发挥到最大限度么?
使用VERITASVolumeManager、FlashSnap和VERITASClusterServer,无需在软件和硬件上花费更多的资金就可以获得灾难恢复水平。
VERITASVolumeManager已经内嵌了在两个站点间提供镜像的技术。
在远程站点上同步保存数据的副本来保护数据,而应用和数据利用VERITASClusterServer保持高可用性。
VERITASVolumeManager和VERITASClusterServer的有机结合能够提供数据和应用的可用性,这种可用性不仅用于本地数据中心,也可在建筑物或站点发生停电、火灾或洪水等意外事件时提供灾难恢复水平。
适用于此方案的VERITAS产品
提供本地集群的相同产品:
∙VERITASStorageFoundation/HighAvailability(VERITASFileSystem、VolumeManager和ClusterServer)
o建议:
VERITASFlashSnap-VERITASFlashSnap提供了快照技术套件,满足客户多种多样的point-in-time拷贝需求。
在区域集群环境中,FlashSnap能够在建筑或阵列失效后,快速恢复站点间的卷镜像。
只要全部卷的镜像没有重新建立,FlashSnap将跟踪所有写入存储系统的操作,以便通过增量方式加速镜像卷的重新同步。
FlashSnap提供了能将point-in-time拷贝导入到集群内其他节点的功能,从而实现对数据的脱机处理。
例如,在一栋建筑中运行的数据库和应用,可以在灾备节点上运行报表实例。
RTO/RPO详情
恢复点目标:
使用区域集群配置后,能将数据恢复到什么时刻的状态?
使用VERITASVolumeManager在两个站点间同步镜像,所以当主要地点发生站点故障时,能在二级站点找到数据的准确副本。
由于应用性能的考虑,VERITAS建议二级站点不应超过80KM的距离。
恢复时间目标:
何时应用或数据能恢复在线运行?
令这个架构充满魅力的地方是快速的恢复时间和它提供的容灾保护水平。
发生本地灾难(火灾、洪水等)时,应用、数据库和数据等全部服务都将从一个站点切换到未受灾难影响的另一栋建筑物中的站点。
如果客户配置了本地集群的建筑遭受了灾难,配置了区域集群的恢复时间目标仅需几秒/几分钟,而仅仅配置了本地集群则需要几天/数周的时间。
要考虑到配置新服务器、加载服务和装载数据所需的时间,以及闲置用户和损失生产力的开销。
如果办公地点已经建有基础架构,那么配置区域集群具有明显的优点。
成本比较
实施这种方案能充分利用已经在网络基础设施上的投资,同时提供灾难恢复水平。
从本地灾难进行恢复的代价是惨重的,由于需要花费时间在另一个站点重建配置,甚至可能会导致业务流失。
这种架构涉及到配置VERITASClusterServerandVERITASVolumeManager,相对并不昂贵,轻度灾难恢复解决方案便能够满足大多数灾难恢复需求。
客户案例
TheWellcomeTrust
TheWellcomeTrust是一个独立研究基金的慈善机构,于1936年根据HenryWellcome爵士的意愿创办。
基金来自私人捐赠,计划以长期稳定和逐步增长的方式进行管理。
它的任务是“鼓励和促进那些旨在改善人类和动物健康的研究”,到这个为止,它支持“blueskies”研究和临床应用研究,它也鼓励医疗进步方面的研究发现。
问题描述
∙TheWellcomeTrust管理40亿英镑的基金,所以公司需要不间断的业务,即使在办公建筑发生事故时。
∙公司希望充分利用对基础设施的投资,利用现有的网络投资和公司资产配备灾难防护水平。
∙
客户不能负担超过100英里的另一个热站点(hotsite)
区域集群环境描述
∙集群内服务器的数量:
6个节点;
∙数据中心包含50多台服务器(两个数据中心,每个站点一个)
∙服务器:
Compaq100
∙存储器:
CompaqMSA1000
∙应用程序:
MicrosoftSQL,MicrosoftExchange,CustomApplication
距离
∙大约500米
VERITAS产品
∙VolumeManager
∙ClusterServer
∙ClusterServeragentforMicrosoftSQL
∙ClusterServeragentforMicrosoftExchange
成功之处
利用捆绑在VERITASVolumeManager内远程镜像功能和ClusterServer,客户能够获得本地高可用性,并在不增加成本的情况下获得灾难防护水平。
由于一些与数据中心无关的原因,客户已经投资建立了光纤基础架构,实施这个水平的灾难恢复则将对基础网络的投资发挥到极致。
3
城域集群(metropolitanClustering)的选择:
基于数据复制的集群(RDC)
定义
RDC是使用数据镜像的复制方法,在两个站点间的扩展集群,使用layer-2网络连接进行集群通讯。
由于延迟对应用性能的影响,允许的距离不像在广域网内异步TCP/IP方案那样宽松,但是RDC确实为多种灾难恢复情况提供了一种直接的单集群解决方案。
RDC配置内的数据复制必须同步的,达到自动故障切换的目的。
(VERITAS不希望在异步环境中存在不一致数据副本的情况下,由数据集群做出自动故障切换决策。
异步复制时需要手动干预,以保证你确实想将集群切换到旧版本数据下的状态)。
现在,这种结构仅支持Solaris、HP和Windows系统。
Solaris:
支持带有VERITASVolumeReplicator的VCS,SRDF,和HitachiTrueCopy。
Windows和HP:
支持带有EMCSRDF的VCS。
这将在VERITAS发布的4.0版本(计划2004年发布Q1版本)中得到强化,在这个版本中,本地和远程故障切换可以任意结合,并能够支持各种规模的集群。
与RDC相关的一个问题是何时考虑用这种方案替代含VM镜像的区域集群方案。
通常的准则是这样的:
如果您没有SAN基础架构也不想对其进行投资,但您能够为VCS运行专用的以太网,并进行同步数据复制,这时就可以采用基于数居复制的集群(RDC)架构了。
在大多数案例中,如果已经建立了SAN,区域集群是更好的选择,因为卷镜像已经包含在VERITASVolumeManager中,无需再投资购买复制软件。
另外,在任何情况下,镜像功能都比通过IP网络进行同步复制的性能优越。
环境
∙最少两台服务器――每个被复制的存储系统处有一台服务器
∙集群通过以太网(IP)连接在多栋建筑、数据中心或站点展开。
∙本地存储系统在每个地方的集群节点上进行同步复制。
∙一个集群:
位于多个站点的服务器是同一个集群的一部分。
优点
∙可以使用IP而不是SAN(使用VERITASVolumeReplicator)
∙成本――无需SAN基础架构(光纤)(使用VERITASVolumeReplicator)
∙防护本地建筑物、数据中心或站点发生的灾难
∙充分利用现有的以太网基础架构
∙同步复制数据并且避免站点故障导致的数据损失
缺点
∙解决方案更加复杂(必须在任何故障情形下通盘考虑复制方向和数据流通)
∙如果在远距离上使用同步复制,应用性能会受到潜在的影响
∙受限于两个站点
∙只能进行同步复制
故障切换行为
例如:
如果一台服务器位于建筑A中,另一台服务器位于建筑B中,建筑A中的服务器发生故障,VCS将应用切换到建筑B中的另一台服务器上。
使用VVR在IP网络上复制数据,或使用硬件自身的协议进行复制。
在任何情况下,复制都会同步进行。
何时考虑复制数据集群
您是否需要灾难恢复并且站点距离不超过100多英里?
您另外一个站点是否在200公里内,并且用以太网作为网络连接?
RDC类似于区域集群,但是它使用IP网络复制数据,而不是通过SAN光纤通道。
成本的节约体现在企业不必购买SAN
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- vcsarchitecturesGB