奥鹏教育南开大学21春学期《并行程序设计》在线作业.docx
- 文档编号:23811300
- 上传时间:2023-05-21
- 格式:DOCX
- 页数:38
- 大小:22.35KB
奥鹏教育南开大学21春学期《并行程序设计》在线作业.docx
《奥鹏教育南开大学21春学期《并行程序设计》在线作业.docx》由会员分享,可在线阅读,更多相关《奥鹏教育南开大学21春学期《并行程序设计》在线作业.docx(38页珍藏版)》请在冰豆网上搜索。
奥鹏教育南开大学21春学期《并行程序设计》在线作业
第一次:
1
2分
下列哪门课程不是并行程序设计的先导课?
A计算机概论
B高级语言程序设计
C计算机体系结构
D数据库系统
我的得分:
2分
我的答案:
D
2
2分
为利用cache空间局部性,需满足____。
Acache空间足够大
Bcacheline足够大
C程序访问的数据量足够小
D程序访存模式符合空间局部性特点
我的得分:
2分
我的答案:
D
3
2分
OpenMP的缺点不包括____。
A常见并行结构的表达并不总可行
B局部性处理不易
C不易编写多核单核通用程序
D性能控制不易
我的得分:
2分
我的答案:
C
4
for(i=0;i<10;i++)A[i]=A[i]+1;此循环____数据依赖。
2分
A存在
B不存在
C不确定
D以上皆错
我的得分:
2分
我的答案:
B
5
2分
编写矩阵乘法的Neon程序,若矩阵元素为双精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。
A2
B4
C8
D16
我的得分:
2分
我的答案:
A
6
2分
在用pthread_mutex_trylock对互斥量进行加锁时,若其已上锁,则线程进入____状态。
A初始化
B阻塞
C继续执行
D销毁
我的得分:
2分
我的答案:
C
7
2分
以下说法正确的是____。
A多对多广播的高效算法基于一对多广播的高效算法
B多对多归约的高效算法基于多对一归约的高效算法
C多对多广播的高效算法基于串行的一对多广播算法
D以上皆错
我的得分:
2分
我的答案:
C
8
2分
SSE运算指令中未提供____指令。
A算术运算
3/13
B矩阵运算
C逻辑运算
D比较运算
我的得分:
2分
我的答案:
B
9
2分
SSE是____平台的SIMD架构。
Ax86
BPOWER
CSPARC
DARM
我的得分:
2分
我的答案:
A
10
2分
在使用信号量之前必须对其进行____。
A初始化
B加锁
C加1
D销毁
我的得分:
2分
我的答案:
A
11
2分
CUDA共享内存是由____共享。
AGrid中所有线程
B一个Block中所有线程
C一个Warp中所有线程
DGPU中所有线程
我的得分:
2分
我的答案:
B
12
2分
对于条件变量,下列说法错误的是____。
A可以用互斥量实现相同功能
B不能用互斥量实现相同功能
4/13
C较之互斥量方案节省资源
D较之互斥量方案代码更简洁
我的得分:
2分
我的答案:
B
13
2分
OpenMP编译指示中说明共享变量是用____子句。
Aprivate
Bshared
Cschedule
Dnowait
我的得分:
2分
我的答案:
B
14
2分
为了充分利用CPU内的多条流水线,程序应满足____。
A相邻指令无依赖性
B相邻指令相互依赖
C整段程序中指令无依赖性
D整段程序中指令相互依赖
我的得分:
2分
我的答案:
A
15
2分
对于向量化,以下说法错误的是____。
A总会有打包/解包开销
B若运算对象连续存储,可消除打包开销
C若运算结果连续存储,可消除解包开销
D打包/解包开销由数据存储决定
我的得分:
2分
我的答案:
A
16
2分
对于起泡排序程序两层循环是否存在数据依赖,下面说法正确的是____。
A外层存在,内层不存在
B外层不存在,内层存在
C两层都不存在
5/13
D两层都存在
我的得分:
2分
我的答案:
D
17
2分
单精度浮点数矩阵乘法进行AVX并行,期望的加速比为____.
A等于8
B小于8
C4到8之间
D等于4
我的得分:
2分
我的答案:
B
18
2分
OpenMP主要是通过____来更高层抽象的多线程编程。
A设计实现新的语言
B为现有语言提供大量库函数
C为现有语言扩展编译指示
D新编译器实现自动并行化
我的得分:
2分
我的答案:
C
19
2分
OpenMP能实现的是____。
A避免数据竞争
B提供任务划分策略
C确保加速
D确保降低通信开销
我的得分:
2分
我的答案:
B
20
2分
对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,还需进行SIMD寄存器中几
个元素的___操作才能得到结果矩阵的一个元素。
A排列
B交换
C广播
D归约
我的得分:
2分
我的答案:
D
21
2分
对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一
个元素,这种说法是____。
A正确的
B错误的
我的得分:
2分
我的答案:
B
22
2分
在条件不成立时,使用pthread_cond_wait____。
A令线程阻塞
B解锁互斥量
C解锁互斥量然后令线程阻塞
D加锁互斥量
我的得分:
2分
我的答案:
C
23
2分
SSEintrinsics_mm_load_sd命令的功能是____。
A对齐标量读取单精度浮点数
B未对齐标量读取单精度浮点数
C对齐标量读取双精度浮点数
D未对齐标量读取双精度浮点数
我的得分:
2分
我的答案:
C
24
2分
编写矩阵乘法的Neon程序,若矩阵元素为单精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。
A2
B4
C8
D16
我的得分:
2分
我的答案:
B
25
2分
CUDA线程层次中不包括____。
AKernel
BGrid
CBlock
DThread
我的得分:
2分
我的答案:
A
26
2分
使用____无法直接实现“主线程等待4个从线程完成任务”。
A1个信号量
B障碍
C1个互斥量
D4个互斥量
我的得分:
2分
我的答案:
C
27
2分
编译器编译OpenMP并行循环时,会自动生成一些代码,其中不包括____。
A创建和管理线程代码
B循环划分给线程的代码
C找出数据依赖的代码
D线程同步的代码
我的得分:
2分
我的答案:
C
28
2分
以下哪条不是推动并行计算发展的因素?
A存储是系统瓶颈
B单CPU发展已能满足应用需求
C利用标准硬件构造并行机令升级容易
D编程环境标准化逐步发展
我的得分:
2分
我的答案:
B
29
2分
SSE有____个专用寄存器。
A4
B8
C16
D33
我的得分:
2分
我的答案:
B
30
2分
主线程创建了4个线程,它们打印各自的线程号(0-3),未使用任何同步,则输出顺序____。
A必然是0123
B必然是4321
C不可能是4321
D以上皆错
我的得分:
2分
我的答案:
D
31
2分
链表数据结构的查找、插入、删除等操作,既有对链表的读也有对链表的写,对此,采用互斥量加解锁每个节点
的同步机制相比加解锁整个链表的方式的缺点是____。
A粒度太粗,节点读写一致性不能保证
B粒度太粗,线程不必要的等待
C粒度太细,加解锁开销大
D粒度太细,总体读写一致性不能保证
我的得分:
2分
我的答案:
C
32
2分
SSE的shuffle指令的8位二进制整数参数被划分为4个2位二进制整数imm8[0:
3],若imm8[2]=j则表示___。
A将第一个源寄存器的第j个元素放在目标寄存器位置2
B将第二个源寄存器的第j个元素放在目标寄存器位置2
C将第一个源寄存器的第2个元素放在目标寄存器位置2
D将第二个源寄存器的第2个元素放在目标寄存器位置2
我的得分:
2分
我的答案:
B
33
2分
当处理器数量不变时,随着问题规模增大,效率增大对____成立。
A部分并行算法
B所有并行算法
C所有并行算法都不
D以上皆错
我的得分:
2分
我的答案:
A
34
2分
对于效率E,下面描述错误的是____。
A理想并行E=1
B总是在0~1之间
C可能>1
D可能随着处理器数量增大趋向于0
我的得分:
2分
我的答案:
B
35
2分
____执行pthread_sem_wait操作,线程进入阻塞状态。
A当信号量已加锁时
B当信号量为0时
C当信号量已超过阈值时
D当信号量已销毁时
我的得分:
2分
我的答案:
B
36
2分
任务依赖图中顶点权重之和表示____。
A任务数
B任务难度
C串行执行时间
D并行执行时间
我的得分:
2分
我的答案:
C
37
2分
编写矩阵乘法的SSE程序,若矩阵元素为双精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。
A2
B4
C8
D16
我的得分:
2分
我的答案:
A
38
2分
pthread_rwlock_rdlock是对读写锁进行____操作。
A加锁
B解锁
C加读琐
D加写锁
我的得分:
2分
我的答案:
C
39
2分
OpenMP中指定多线程中只有主线程执行代码块的指令是____。
Aompsingle
Bompmaster
Compslave
Dompparallel
我的得分:
2分
我的答案:
B
40
2分
当问题规模不变时,随着处理器数量增大,加速比____。
A必然增大
B必然减小
C必然不变
D以上皆错
我的得分:
2分
我的答案:
D
41
2分
采用多核、众核技术提升CPU性能,相对于单核的优势不包括____。
A架构设计更容易
B更易突破物理极限
C能更充分利用现有资源
D功耗优势明显
我的得分:
0分
我的答案:
A
42
2分
在对互斥量进行解锁时,还会执行____操作。
A互斥量初始化
B互斥量销毁
C唤醒阻塞线程
D以上皆错
我的得分:
2分
我的答案:
C
43
2分
在分布式内存架构编程中,进程间不能____。
A进行通信
B进行同步
C发送和接收消息
D通过读写变量交换数据
我的得分:
2分
我的答案:
D
44
2分
超立方中相邻节点二进制编号____。
A至少差1位
B至多差1位
C恰好差1位
D差异不固定
我的得分:
2分
我的答案:
C
45
2分
CUDA的优点不包括____。
A可移植性
B入门简单
C标准的SPMD模式
D不再需要图形API
我的得分:
2分
我的答案:
A
46
2分
采用MPI主从模型解决矩阵每行排序问题,主进程每次向一个从进程发送10行作为一个任务相对于每次发送1
行的缺点是____。
A更不利于负载均衡
B增大了通信开销
C提高了计算次数
D增加了从进程空闲
我的得分:
2分
我的答案:
A
47
2分
每个AVX寄存器宽度为____位。
A32
B64
C128
D256
我的得分:
2分
我的答案:
D
48
2分
我们在小规模系统和小规模输入下测试了几个并行算法,应选择哪个应用在实际系统中?
A选择性能测试并行时间最少者
B选择性能测试加速比最大者
C选择性能测试效率最高者
D应结合可扩展性分析做出选择
我的得分:
2分
我的答案:
D
49
2分
Flynn分类法中,下面哪种体系结构在实际中几乎没有意义?
ASISD
BSIMD
CMISD
DMIMD
我的得分:
2分
我的答案:
C
50
2分
一个程序用pthread_create创建了4个线程,此时系统中属于这个程序的共有____线程。
A4
B5
C6
D7
我的得分:
2分
我的答案:
B
第二次:
1
2分
利用cacheline一次读取多个数据字的机制优化程序访存性能,其机理是____。
A降低了访存延迟
B隐藏了访存延迟
C利用了cache空间局部性
D利用了cache时间局部性
我的得分:
0分
我的答案:
A
2
2分
for(i=2;i<10;i++)A[i]=A[i-2]+1;此循环____数据依赖。
A存在
B不存在
C不确定
D以上皆错
我的得分:
2分
我的答案:
A
3
2分
记并行时间为T,串行时间为T',处理器数量为p,则额外开销应如何计算?
AT'-T
BT-T'
CpT
DpT-T'
我的得分:
2分
我的答案:
D
4OpenMP的优点不包括____。
2分
A从头编写并行程序很自然
B串行程序并行化简单
C不必关心低层细节
D可移植、可扩展
我的得分:
2分
我的答案:
A
5
2分
编写矩阵乘法的Neon程序,若矩阵元素为双精度浮点数,则应对矩阵乘—加计算的循环进行____路循环展开。
A2
B4
C8
D16
我的得分:
2分
我的答案:
A
6
2分
两个矩阵相乘,若矩阵总规模小于cache大小,则优化访存的最佳方法是____。
A先将两个矩阵读入cache再进行乘法
B先转置第一个矩阵再进行乘法
C先转置第二个矩阵再进行乘法
D以上皆错
我的得分:
2分
我的答案:
A
7
2分
MPI不包括的通信类别是____。
A点对点通信
B数据传输组通信
C计算和数据传输组通信
D加锁解锁通信
我的得分:
2分
我的答案:
D
8
2分
加速比计算中串行时间应该取求解同一问题的哪个串行算法的时间____。
A任意一个串行算法
B作为并行算法基础的那个串行算法
C已知最优的串行算法
D所有串行算法的平均时间
我的得分:
2分
我的答案:
C
9
2分
在128位的SIMD寄存器中,我们不能保存____。
A16个8位整数
B8个16位短整型
C4个32位整型
D16个字符的字符串
我的得分:
2分
我的答案:
D
10
2分
在使用互斥量之前必须对其进行____。
A初始化
B加锁
C解锁
D销毁
我的得分:
2分
我的答案:
A
11
2分
对于效率E,下面描述错误的是____。
A理想并行E=1
B总是在0~1之间
C可能>1
D可能随着处理器数量增大趋向于0
我的得分:
2分
我的答案:
B
12
2分
n个节点的线性阵列中,节点最远通信距离为____。
A1
BO(logn)
CO(sqrt(n))
DO(n)
我的得分:
2分
我的答案:
D
13
2分
对矩阵每行排序的程序进行多线程并行化,对矩阵采用____。
A简单均匀块划分即可保证负载均衡
B循环划分才能实现负载均衡
C动态划分才能实现负载均衡
D随机划分才能实现负载均衡
我的得分:
2分
我的答案:
C
14
2分
如果运算对象是独立无关的变量,则在向量运算之前需____。
A将变量拷贝到连续区域
B将变量地址拷贝到连续区域
C将变量逐个传输到向量寄存器
D以上皆错
我的得分:
2分
我的答案:
A
15
2分
我国最近一次夺得全球超级计算机计算能力冠军的是____。
A天河1号
B天河1A
C天河2号
D神威.太湖之光
我的得分:
2分
我的答案:
D
16
2分
OpenMP能实现的是____。
A避免数据竞争
B提供任务划分策略
C确保加速
D确保降低通信开销
我的得分:
2分
我的答案:
B
17
2分
SIMD并行模式是将多个____运算打包并发执行。
A不同
B相同
C混合
D依赖
我的得分:
2分
我的答案:
B
18
2分
pthread_create函数中设置一个参数为“线程函数参数”的原因是____。
A它调用线程函数时可直接传递,性能更优
B它需要预处理之后传递给线程函数
C线程函数不是用户程序调用,只能采用这种方式由系统代为传递参数
D没有特别用意
我的得分:
2分
我的答案:
C
19
2分
SSE有____个专用寄存器。
A4
B8
C16
D33
我的得分:
2分
我的答案:
B
20
2分
全球500强超算在操作系统上越来越体现出____一家独大的趋势。
AUnix
BWindows
CLinux
Dios
我的得分:
2分
我的答案:
C
21
2分
条件变量相对于互斥量的优点是____。
A是多源状态
B加锁解锁开销低
C条件不成立时阻塞线程并自动解锁加锁
D以上皆错
我的得分:
2分
我的答案:
C
22
2分
当条件判断____时,控制流语句SIMD并行化可能达到较好效果。
A绝大部分结果为真
B绝大部分结果为假
C全部结果都一样
D绝大部分结果都一样
我的得分:
2分
我的答案:
D
23
2分
将寄存器设置为4个给定单精度浮点数的SSEintrinsics指令是____。
A_mm_set_ps
B_mm_set1_ss
C_mm_setzero_ss
D_mm_setzero_ps
我的得分:
2分
我的答案:
A
24
2分
OpenMP归约指令采用的是一种____算法。
A分治
B贪心
C动态规划
D排序
我的得分:
2分
我的答案:
A
25
2分
单精度浮点数矩阵乘法进行AVX并行,期望的加速比为____.
A等于8
B小于8
C4到8之间
D等于4
我的得分:
2分
我的答案:
B
26
2分
OpenMP中指定多线程中只有主线程执行代码块的指令是____。
Aompsingle
Bompmaster
Compslave
Dompparallel
我的得分:
2分
我的答案:
B
27
2分
pthread_join的作用是____。
A强制终止指定线程
B检测指定线程是否结束
C等待指定线程结束才返回
D向指定线程发送数据
我的得分:
2分
我的答案:
C
28
2分
静态线程编程模式的缺点是____。
A线程管理开销高
B系统资源利用率低
C线程负载不均
D线程通信开销高
我的得分:
2分
8/13
我的答案:
B
29
2分
用pthread_barrier_init初始化障碍,应提供的参数不包括____。
A障碍对象
B障碍初值
C障碍属性
D参与的线程数
我的得分:
2分
我的答案:
B
30
2分
SSE指令移动单精度浮点数,不能实现____。
A将64位数据移动到SSE寄存器高位
B将64位数据移动到SSE寄存器低位
C将32位数据移动到SSE寄存器指定位置
D在两个SSE寄存器高/低64位间移动
我的得分:
2分
我的答案:
C
31
2分
并行计算的新兴应用领域不包括____。
A制药
B数字媒体
C国防
D游戏
我的得分:
2分
我的答案:
C
32
2分
互斥量mutex机制,在任何时刻____进入它保护的区域。
A允许任意数量任意类型的线程
B允许一个读线程任意个写线程
C允许一个写线程任意个读线程
D只允许一个线程
我的得分:
2分
我的答案:
D
9/13
33
2分
对于向线程函数传递参数,下列说法错误的是____。
A线程函数并非用户程序调用,因此无法直接传递
B线程函数必须接受void*参数,因此只能传递大小不超过指针的数据对象
C线程通常通过此途径获取线程号
D不同线程间的参数传递相互无关,即使它们具有相同的线程函数
我的得分:
2分
我的答案:
B
34
2分
OpenMP不会自动地在____位置设置barrier。
A并行结构开始
B并行结构结束
C其他控制结构开始
D其他控制结构结束
我的得分:
2分
我的答案:
C
35
2分
SSE的shuffle指令的8位二进制整数参数被划分为4个2位二进制整数imm8[0:
3],若imm8[1]=j则表示___。
A将第一个源寄存器的第j个元素放在目标寄存器位置1
B将第二个源寄存器的第j个元素放在目标寄存器位置1
C将第一个源寄存器的第1个元素放在目标寄存器位置1
D将第二个源寄存器的第1个元素放在目标寄存器位置1
我的得分:
2分
我的答案:
A
36
2分
适合进行SIMD并行化的串行程序特点不包括____。
A大数据对象
B数据项连续存储
C流式计算
D算术计算密集
我的得分:
2分
我的答案:
A
37
2分
对于加速比S和处理器数量p,下列说法正确的是____。
A有可能S>p
B必然S
C不可能S=p
D两者无关联
我的得分:
2分
我的答案:
A
38
2分
采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加___前缀。
A__global__
B__device___
C__shared__
D__private__
我的得分:
2分
我的答案:
C
39
2分
在条件不成立时,使用pthread_cond_wait____。
A令线程阻塞
B解锁互斥量
C解锁互斥量然后令线程阻塞
D加锁互斥量
我的得分:
2分
我的答案:
C
40
2分
关于OpenMP循环并行程序的编写,下列说法中正确的是____。
A程序员需要编写线程创建和管理代码
B程序员需要编写循环划分代码
C程序员需要编写调度策略代码
D程序员只需指出对哪个循环进行并行,循环划分和调度策略是什么
我的得分:
2分
我的答案:
D
41
2分
OpenMP主要是通过____来更高层抽象的多线程编程。
A设计实现新的语言
B为现有语言提供大量库函数
C为现有语言扩展编译指示
D新编译器实现自动并行化
我的得分:
2分
我的答案:
C
42
2分
CPU时钟频率1GHz,每个时钟周期两个计算单元可执行4条指令,内存延迟125ns,进行向量点积运算,无cache
情况下,计算能力为
A8MFlops
B125MFlops
C1GFlops
D4GFlops
我的得分:
2分
我的答案:
A
43
2分
CUDA共享内存是由____共享。
AGrid中所有线程
B一个Block中所有线程
C一个Warp中所有线程
DGPU中所有线程
我的得分:
2分
我的答案:
B
44
2分
1)R=XR*1.3;G=XG*1.8;B=XB*1.1;2)R=X[0]*1.3;G=X[1]*1.8;B=X[2]*1.1;这两个程序片段哪个进行向量
化效率更高?
A1)
B2)
C不确定
D以上皆错
我的得分:
2分
我的答案:
B
45
2分
并行计算还主要用于国防、工程研究等领域,这种说法是_
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行程序设计 教育 南开大学 21 学期 并行 程序设计 在线 作业