容错计算机网络系统综合可用性基本理论与分析方法研究_精品文档PPT文件格式下载.ppt
- 文档编号:15503361
- 上传时间:2022-11-02
- 格式:PPT
- 页数:82
- 大小:9.45MB
容错计算机网络系统综合可用性基本理论与分析方法研究_精品文档PPT文件格式下载.ppt
《容错计算机网络系统综合可用性基本理论与分析方法研究_精品文档PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《容错计算机网络系统综合可用性基本理论与分析方法研究_精品文档PPT文件格式下载.ppt(82页珍藏版)》请在冰豆网上搜索。
个小时FDDI、ATM网卡:
个小时CPU:
个小时在企业内联网和互联网的发展过程中,应用软件的更新周期越来越短,使得软件在发布之前根本没有足够的时间来测试其可靠性。
目前,导致系统失效的新软件问题已不再仅仅局限在应用层上,而且还经常出现于驱动程序差错、安装或备份程序差错以及操作系统差错上与网络操作直接相关的软、硬件问题(如网卡故障、应用软件的个别组件有问题以及协议和网卡驱动程序有错等)计算机网络的容错技术网络连接端容错在图(a)所示的局域网中,每台主机通过一个网卡与集线器相连,没有采用容错措施。
(b)中每台主机通过两块网卡与一个集线器相连。
主机上的两块网卡作为一个网卡使用。
当一个网卡故障时,系统可以立即启用另一个网卡,对应用程序没有影响。
由于两个网卡作为一个网卡使用,因此两块网卡只能连接在同一网段上。
(c)中所示的局域网采用两个独立的网络,每台主机分别接在两个网络上。
在正常情况下,两个网络同时工作,当一个网络故障时,另一个网络能完成所有的网络功能,因此(c)所示的网络具有较强的容错能力。
服务器系统的容错技术镜像磁盘存储技术廉价冗余磁盘阵列技术群集技术双服务器系统工作站容错技术及其它对于一些重要的应用站点,一是要考虑备用工作站,注意并不是1个站点配1个备用工作站,而是多个站点配1个工作站;
二是选用元件可靠性高的机器用作工作站。
其它容错技术主要采用冗余智能网卡、冗余处理器功能模块、ECC(纠错码)内存和ECC保护的主机总线等措施改善其容错性能。
计算机网络软件容错计算机网络的软件容错技术极为关键的是选择网络操作系统,不同的网络操作系统对整个系统的软硬件容错都有很大的影响。
网络系统中通常包括服务器、工作站、打印机、集线器、交换机、路由器、软件及数据等多种设备和资源,对这些设备和资源进行管理就是网络操作系统的基本任务,随着不停机系统的普及,网络操作系统逐步增加了容错的处理措施及对容错软件的管理。
这些措施和软件包括UPS电源监控保护、热修复、写后读校验、磁盘镜像、磁盘双工、双机热备份、群集和事务跟踪等。
不同的网络操作系统容错措施及所支持的容错软件不同,如NovellNetware基本上不支持群集技术,而Unix和WindowsNT群集技术在支持服务器数量上不同,Unix所支持的服务器数量多,而且技术成熟。
另一方面,Unix抵御病毒的能力最强,NovellNetware最弱。
随着网络系统越连越大,特别是不停机系统的逐步增多,应用软件容错要求越来越高。
如Xbase系列的Dbase和Foxbase没有考虑事务处理能力,Foxpro开始有所考虑,但还不完善,所以Foxbase在网络系统上运行的效果很差。
Foxpro已有所改善,VisualFoxpro在大部分功能上逐步向大型数据库靠拢。
各种应用软件对容错的适应性不同。
Sybase和Oracle等大型数据库几乎都不支持自动热备份,但支持共享磁盘的群集来提高系统的容错性;
Oracle能比较充分的发挥群集技术的优势,在系统中做到任务均衡,Sybase则做不到任务均衡。
计算机网络可靠性研究现状网络是一个图,它是否可靠当然在于它是否能够连通网络拓扑可靠性节点和链路都存在故障概率数学家、理论家网络可靠性研究初期,计算机通信技术刚刚开始,通信媒介质量较差,站点交换设备的性能比较低,网络的管理水平也没有跟上,网络经常处在断路状态,客户更关心计算机网络的站点之间能否通信。
因此需要借助图论解决系统可靠性预计。
网络怎么这么慢?
电影都看不了网络拓扑可靠性的局限随着计算机网络应用的发展,网络的应用环境恶化,拥塞崩溃成为网络应用中的一个突出的故障模式。
网络用户网络性能评价网络能不能用当然与性能相关性能测量计算机网络科学家随着现代信息技术的发展,电子产品的可靠性得到了迅速的提高,电子产品的连续无故障工作时间由原来的几百小时延长到30到40年,通信信道的质量也得到了提高,带宽拓宽,信道的传输误码率达到了109数量级。
此时计算机网络站点之间能否通信已不再是网络可靠性研究的重点,人们更关心现在的计算机网络完成功能的能力,即用完成性来衡量计算机网络的性能。
网络性能评价的局限性如何设计一个健壮的网络?
以网络性能(如网络延迟、吞吐量等)为主要研究内容的计算机网络性能评价由于没有考虑网络故障对性能造成的影响而往往高估网络性能。
因此,离开以网络故障为主要内容的可靠性指标而单纯的进行网络性能评价和仅仅考虑网络是否连通而不考虑网络的性能指标均不能全面的评价一个网络是否真实可用。
综合考虑容错计算机网络存在故障的条件下网络的性能问题,成为容错计算机网络系统综合可用性研究的主要内容。
工程师关键节点网络可靠性评价方法比较比较项目抗毁性生存性完成性出发点网络拓扑(抽象图)网络拓扑随机性网络拓扑随机性业务性能指标连通度连通率基于业务性能的概率指标研究方法图论图论概率论图论、概率论及相关的通信理论测度性质固有可靠性固有可靠性使用可靠性复杂性小中大实用性小中大从目前的研究情况看来,对计算机网络可用性的定义大体可以分为以下5种:
定义1:
在人为或自然的破坏作用下,网络在规定的条件下和规定的时间内的生存能力。
定义2:
在人为或自然的破坏作用下,网络在特定环境下和规定时间内,充分完成规定的通信功能的能力。
环境、时间和充分完成功能是这一定义的三要素。
定义3:
当传输和交换发生故障时网络可以维持正常业务的程度。
定义4:
网络由源点到终点能够成功地传输所需信息地概率。
定义5:
在给定时间间隔,设备能在给定条件下执行要求功能地概率。
迫切解决的关键性问题网络可靠性评价指标混乱基于拓扑连通方法不考虑网络设备故障网络业务性能在网络可靠性分析中考虑不足极少考虑网络协议的影响尚未形成网络综合可用性体系结构网络可用性评价指标体系基于网络拓扑连通和基于网络性能的分析方法始终是迥然不同的两条研究途径,尽管各个领域的专家学者均发现计算机网络可靠性研究非常重要,但仁者见仁智者见智的研究结果是造成了计算机网络可靠性研究概念混乱、评价指标繁杂,往往使人感觉到无所适从,因此迫切需要建立计算机网络可用性的统一理论和分析方法体系。
网络设备故障分析在面向可靠性理论的网络可靠性分析中,通常忽略对网络设备可靠性分析,而简单的将网络设备的可靠度定义为一个常值或认为绝对可靠在实际的网络可靠性分析中,一方面在使用中现有的可靠性分析方法往往很难预先估计出关键设备的可靠度,另一方面却发现尽管计算机网络设备目前可靠性很高,但网络的关键性设备(如数据交换设备)中软硬件故障共同作用的结果常常不仅影响设备硬件也影响系统软件的正常运行。
虽然许多文献对于这种软硬件相关系统的可靠性进行过分析,但是同时考虑软硬件故障相关性的研究并不多。
由于容错计算机网络系统中大量使用硬件冗余和软件容错技术,使得对于设备的可靠性分析更加的困难。
网络业务性能对网络可用性影响网络可靠性分析中通常假定网络的故障主要由网络设备软硬件的失效造成,因而在计算网络的可靠度时将设备失效概率定义为常值。
但是实际上,在计算机网络中的数据交换设备(如路由器、交换机等)存在两种主要的故障模式:
固有故障和拥塞故障。
设备的固有故障主要由设备软硬件本身的失效模式决定,不随网络业务量等因素的影响。
设备的拥塞故障产生的主要原因在于:
设备的缓冲区有限,而注入到设备中的网络的业务流量超出了设备的处理能力,因而造成了设备的阻塞,使设备处于不可用状态。
局域网可用性分析结构特殊协议特殊仅仅分析局域网的结构可靠性和协议的效率均无法反映出局域网的真实可用度。
根据可用度的定义,可用度应该是在规定的时间内完成规定任务的能力。
局域网的任务是实现信息的传输,因此局域网中除了存在主机软硬件故障外,信道的信息拥塞、传输时延过长也是其关键故障模式,这突出的表现为:
当一台主机有数据收发时,在局域网内并不能实现数据的实时传输。
对于网络的用户来讲,过大的网络延迟时间往往令人难以忍受,甚至导致传输任务失败。
因此,在分析局域网可用性时,应当考虑基于用户的可用度模型。
计算机网络体系结构广域网局域网经济性能、响应速度网络吞吐量网络拓扑连通性MTBF、MTTF传输的差错率计算机网络可靠性体系结构物质基础结构保证性能可用网络设备层网络设备包括交换设备和传输设备硬件容错分服务器端容错、网络连接端容错;
服务器端的容错包括镜像磁盘存储技术、廉价冗余磁盘阵列(RAID)、双服务器及群集技术;
连接端设备主要包括网卡、通信电缆、集线器、交换器和路由器等。
通常采用的容错办法:
一是选择本身具有一些容错功能的设备,二是在设计系统时,采用备用设备。
网络拓扑层根据网络的路由选择规则,网络总是在可用的路由集中选取一条最短路由作为输出路由;
源节点s到目的节点d间的路由集网络业务层网络的通讯业务性能(网络吞吐量S、数据传输延迟时间D等),这是用户和管理者最关心的问题,也是体现网络可用性能的一个重要因素。
计算机网络业务性能不仅与网络的配置(网络的拓扑结构G(V,E)、路由、通信介质容量C)和流入网络的信息流f有关,也与网络设备的可靠性(、)有关。
网络可用性分析模型N(G,C,f,S,T)其中:
G=G(V,E)为计算机网络的拓扑结构图;
C表示链路的容量集;
f表示链路上的稳定数据流量集;
表示网络设备的故障率集;
表示网络设备的维修率集;
S表示源节点的集合;
D表示信宿节点的集合。
网络设备层故障树中描述的容错网络服务器系统的各个部件之间的故障相互独立,因此在故障树中没能反映出系统的软件和硬件故障之间的相互影响。
事实上,网络的服务器系统是典型的故障相关性设备,服务器硬件在运行过程中的临时故障如处理器过热或系统盘存储的溢出,将有可能导致软件运行的异常,在极端的情况之下,甚至可能导致死机等故障模式。
在这种情况下,对服务器的用户来讲,将是服务器的不可用状态。
但是由服务器的故障树中,根本无法反映出这种故障机理,因此,由故障树分析得到的服务器系统的可用度并不准确。
基于Petri网的可靠性建模定义定义:
一个三元组PN是一个Petri网,当且仅当:
(1)(网非空);
(2)(二元性);
(3)(流关系仅在于和的元素之间)(4)(没有孤立元素);
可修系统模型标识GF稳态概率1100.4503322010.549668注:
故障率:
/h维修率:
/h串联系统GSPN可用性模型标识G1G2G3F1F2F3GSFS稳态概率1111000100.1337382110001010.1279693010101010.1559074011100010.1634065100011010.0925706000111010.1130977001110010.1174878101010010.095826注:
/h/h/h/h/h/h并联系统GSPN可用性模型注:
/h/h/h/h/h/h标识G1G2G3F1F2F3GSFS稳态概率1111000100.1330302101010100.0959653001110100.0970514011100100.1629775110001100.1283006010101100.1573837001110100.1179058000111010.112230表决系统GSPN可用性模型注:
/h/h/h/h/h/h标识G1G2G3F1F2F3GSFS稳态概
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 容错 计算机网络 系统 综合 可用性 基本理论 分析 方法 研究 精品 文档