华工综合的高性能复习题考试复习用Word下载.docx
- 文档编号:15359173
- 上传时间:2022-10-29
- 格式:DOCX
- 页数:23
- 大小:715.25KB
华工综合的高性能复习题考试复习用Word下载.docx
《华工综合的高性能复习题考试复习用Word下载.docx》由会员分享,可在线阅读,更多相关《华工综合的高性能复习题考试复习用Word下载.docx(23页珍藏版)》请在冰豆网上搜索。
更着重于功能而不是性能的增加
网格计算(GridComputing)
分布式高性能计算(Distributed,HighPerformanceComputing:
DHPC),或称元计算(Metacomputing)
单指令单数据流:
SISD普及程度:
MIMD>
SIMD>
MISD
单指令多数据流:
SIMD
多指令单数据流:
MISD
多指令多数据流:
MIMD
⏹对称多处理(共享存储并行)机(SMP:
SymmetricMultiProcessing);
⏹分布共享存储多处理机(DSM:
DistributedSharedMemory);
⏹大规模并行机(MPP:
MassivelyParallelProcessors);
⏹工作站(微机)机群(COW:
ClusterOfWorkstation、BeowulfPC-Cluster);
⏹并行向量多处理机(PVP:
ParallelVectorProcessors)
均匀访存模型(UMA:
UniformMemoryAccess)
非均匀访存模型(NUMA:
NonuniformMemoryAccess)
Cache一致性非均匀访存模型(CC-NUMA:
Coherent-CacheNonuniformMemoryAccess)
分布式访存模型(DMA:
DistributedMemoryAccess)
2.试比较PVP、SMP、MPP、DSM和Cluster并行机结构的不同点,以典型系统举例说明。
SMP:
对称多处理器,共享存储,高速缓存一致性,低通信延迟,不可扩放性
SSMP:
可扩放共享存储多处理机,共享存储,扩放性好
CC-NUMA:
非均匀存储访问,高速缓存一致性,扩放性好
MPP:
大规模处理器数,分布存储,使用物理分布的存储器和I/O,扩放性好
DSM:
存储器物理分布,通过目录实现共享存储
3.列出常用静态和动态网络的主要参数(节点度、直径、对剖带宽和链路数)以及复杂度、
网络性能、扩展性和容错性等。
常用的标准互联网络有哪些?
并行机规模:
并行机包含的结点总数,或者包含的CPU总数;
结点度:
互联网络拓扑结构中联入或联出的一个结点的边的条数,称为该结点的度;
结点距离:
两个结点之间跨越的图的边的条数;
网络直径:
网络中任意两个结点之间的最长距离;
点对点带宽:
图中边对应的物理联接的物理带宽;
点对点延迟:
图中任意两个结点之间的一次零长度消息传递必须花费的时间。
延迟与结点间距离相关,其中所有结点之间的最小延迟称为网络的最小延迟,所有结点之间的最大延迟称为网络的最大延迟;
折半宽度:
对分网络成两个部分(它们的结点个数至多相差1)所必须去掉的边的网络带宽的总和;
总通信带宽:
所有边的带宽之和
快速以太网、FDDI、Switcher、ATM、Myrinet、nfiniband、Qudrics、HiPPI
4.比较UMA、NUMA(CC-NUMA、COMA、NCC-NUMA)和NORMA存储器体系结构
的主要特征,并以典型系统来说明其优缺点。
UMA(UniformMemoryAccess)模型是均匀存储访问模型的简称。
其特点是:
物理存储器被所有处理器均匀共享;
所有处理器访问任何存储字取相同的时间;
每台处理器可带私有高速缓存;
外围设备也可以一定形式共享。
NUMA(NonuniformMemoryAccess)模型是非均匀存储访问模型的简称。
特点是:
被共享的存储器在物理上是分布在所有的处理器中的,其所有本地存储器的集合就组成了全局地址空间;
处理器访问存储器的时间是不一样的;
访问本地存储器LM或群内共享存储器CSM较快,而访问外地的存储器或全局共享存储器GSM较慢(此即非均匀存储访问名称的由来);
每台处理器照例可带私有高速缓存,外设也可以某种形式共享
COMA(Cache-OnlyMemoryAccess)模型是全高速缓存存储访问的简称。
各处理器节点中没有存储层次结构,全部高速缓存组成了全局地址空间;
利用分布的高速缓存目录D进行远程高速缓存的访问;
COMA中的高速缓存容量一般都大于2级高速缓存容量;
使用COMA时,数据开始时可任意分配,因为在运行时它最终会被迁移到要用到它们的地方。
CC-NUMA(Coherent-CacheNonuniformMemoryAccess)模型是高速缓存一致性非均匀存储访问模型的简称。
大多数使用基于目录的高速缓存一致性协议;
保留SMP结构易于编程的优点,也改善常规SMP的可扩放性;
CC-NUMA实际上是一个分布共享存储的DSM多处理机系统;
它最显著的优点是程序员无需明确地在节点上分配数据,系统的硬件和软件开始时自动在各节点分配数据,在运行期间,高速缓存一致性硬件会自动地将数据迁移至要用到它的地方。
NORMA(No-RemoteMemoryAccess)模型是非远程存储访问模型的简称。
NORMA的特点是:
所有存储器是私有的;
绝大数NUMA都不支持远程存储器的访问;
在DSM中,NORMA就消失了。
5.比较并行计算模型PRAM、BSP和logP。
评述它们的差别、相对优点以及在模型化真
实并行计算机和应用时的局限性。
PRAM模型由Fortune和Wyllie1978年提出,又称SIMD-SM模型。
有一个集中的共享存储器和一个指令控制器,通过SM的R/W交换数据,隐式同步计算
优点:
适合并行算法表示和复杂性分析,易于使用,隐藏了并行机的通讯、同步等细节。
缺点:
不适合MIMD并行机,忽略了SM的竞争、通讯延迟等因素
BSP模型
由Valiant(1990)提出的,“块”同步模型,是一种异步MIMD-DM模型,支持消息传递系统,块内异步并行,块间显式同步。
p:
处理器数(带有存储器)
l:
同步障时间(Barriersynchronizationtime)
g:
带宽因子(timesteps/packet)=1/bandwidth
▪计算过程
由若干超级步组成,
每个超级步计算模式为左图
优缺点
强调了计算和通讯的分离,
提供了一个编程环境,易于
程序复杂性分析。
但需要显
式同步机制,限制至多h条
消息的传递等。
logP模型
由Culler(1993)年提出的,是一种分布存储的、点到点通讯的多处理机模型,其中通讯由一组参数描述,实行隐式同步。
模型参数
L:
networklatency
o:
communicationoverhead
gap=1/bandwidth
P:
#processors
注:
L和g反映了通讯网络的容量
捕捉了MPC的通讯瓶颈,隐藏了并行机的网络拓扑、路由、协议,可以应用到共享存储、消息传递、数据并行的编程模型中;
但难以进行算法描述、设计和分析。
BSPvs.LogP
BSPLogP:
BSP块同步BSP子集同步BSP进程对同步=LogP
BSP可以常数因子模拟LogP,LogP可以对数因子模拟BSP
BSP=LogP+Barriers-Overhead
BSP提供了更方便的程设环境,LogP更好地利用了机器资源
BSP似乎更简单、方便和符合结构化编程
6.比较在PRAM模型和BSP模型上,计算两个N阶向量内积的算法及其复杂度。
设两个向量分别为A和B
PRAM:
Step1:
每个处理器处理A的N/P个数值和B的N/P个数值,共N/P次乘法和N/P次加法
Setp2:
按照树递归方法计算局部和,共logP
BSP:
2n/P+logP*g+logP*l+logP
7.什么是加速比(speedup)、并行效率(efficiency)和可扩展性(scalability)?
如何描
述在不同约束下的加速比?
约束条件:
8.如何进行并行计算机性能评测?
什么是基准测试程序?
P95
基准测试程序(Benchmark)用于测试和预测计算机系统的性能,揭示不同结构机器的长处和短处,为用户决定购买或使用那种机器最合适他们的应用要求提供决策。
/////////////////////////////////////////
9.什么是可扩放性测量标准?
等效率函数的涵义是什么?
什么是可扩放性测量标准:
等效率测度(ffiii)•EfficiencyMetrics)
效率:
加速比/处理器数
简单情况下能得分析结果
•等速度测度(SpeedMetrics)
速度:
每秒处理的数据量
便于通过实验数据得到结果
•平均时延测度(LatencyMetrics)
时延:
理想并行时间与实际并行时间的差距
等效率函数的涵义:
如果问题规模W保持不变,处理器数p增加,开销To增大,效率E下降。
为了维持一定的效率(介于0与1之间),当处理数p增大时,需要相应地增大问题规模W的值由此定义函数fE(P)为问题规模W随处理器数变化。
fE(p)p的函数,为等效率函数。
10.什么是分治策略的基本思想?
举例说明如何应用平衡树方法、倍增技术、和流水线技术。
并行算法的基本设计技术
•平衡树方法
•倍增技术
•分治策略
•划分原理
•流水线技术
什么是分治策略的基本思想:
将原问题划分成若干个相同的子问题分而治之,若子问题仍然较大,则可以反复递归应用分
治策略处理这些子问题,直至子问题易求解。
举例说明如何应用平衡树方法:
设计思想
树叶结点为输入,中间结点为处理结点,由叶向根或由根向叶逐层并行处理。
•示例P149
求最大值
计算前缀和
举例说明如何应用倍增技术:
又称指针跳跃(pointerjumping)技术,特别适合于处理链表或有向树之类的数据结构;
当递归调用时,所要处理数据之间的距离逐步加倍,经过k步后即可完成距离为2k的所有数据的计算。
示例
表序问题P152运行时间:
t(n)=O(logn)p(n)=n(算法610)p(n)是处理器数目
求森林的根P153运行时间:
t(n)=O(logn)(算法611)
举例说明如何应用流水线技术:
将算法流程划分成p个前后衔接的任务片断,每
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 华工 综合 性能 复习题 考试 复习