HPC高性能计算项目Linpack性能测试报告.docx
- 文档编号:24228962
- 上传时间:2023-05-25
- 格式:DOCX
- 页数:33
- 大小:86.87KB
HPC高性能计算项目Linpack性能测试报告.docx
《HPC高性能计算项目Linpack性能测试报告.docx》由会员分享,可在线阅读,更多相关《HPC高性能计算项目Linpack性能测试报告.docx(33页珍藏版)》请在冰豆网上搜索。
HPC高性能计算项目Linpack性能测试报告
HPC高性能计算项目
Linpack性能测试报告
1Linpack简介
Linpack是国际上最流行的用于测试高性能计算机系统浮点性能的benchmark。
通过对高性能计算机采用高斯消元法求解一元N次稠密线性代数方程组的测试,评价高性能计算机的浮点性能。
Linpack测试包括三类,Linpack100、Linpack1000和HPL。
Linpack100求解规模为100阶的稠密线性代数方程组,它只允许采用编译优化选项进行优化,不得更改代码,甚至代码中的注释也不得修改。
Linpack1000要求求解1000阶的线性代数方程组,达到指定的精度要求,可以在不改变计算量的前提下做算法和代码上做优化。
HPL即HighPerformanceLinpack,也叫高度并行计算基准测试,它对数组大小N没有限制,求解问题的规模可以改变,除基本算法(计算量)不可改变外,可以采用其它任何优化方法。
前两种测试运行规模较小,已不是很适合现代计算机的发展。
HPL是针对现代并行计算机提出的测试方式。
用户在不修改任意测试程序的基础上,可以调节问题规模大小(矩阵大小)、使用CPU数目、使用各种优化方法等等来执行该测试程序,以获取最佳的性能。
HPL采用高斯消元法求解线性方程组。
求解问题规模为N时,浮点运算次数为(2/3*N^3-2*N^2)。
因此,只要给出问题规模N,测得系统计算时间T,峰值=计算量(2/3*N^3-2*N^2)/计算时间T,测试结果以浮点运算每秒(Flops)给出。
HPL测试结果是TOP500排名的重要依据。
衡量计算机性能的一个重要指标就是计算峰值或者浮点计算峰值,它是指计算机每秒钟能完成的浮点计算最大次数。
包括理论浮点峰值和实测浮点峰值。
理论浮点峰值是该计算机理论上能达到的每秒钟能完成浮点计算最大次数,它主要是由CPU的主频决定的。
理论浮点峰值=CPU主频×CPU每个时钟周期执行浮点运算的次数×系统中CPU数。
2HPC集群测试环境
测试集群为某项目部署的60个刀片计算节点,主机名为comput1到comput60,集群内部管理网IP地址为192.168.172.1-60,集群计算网IP地址为12.12.12.1-60,详情请参考各节点的/etc/hosts文件。
登录方式为,从集群管理节点login登录,可ssh到各计算节点。
集群软硬件环境如下:
硬件环境
CPU
2*IntelXeonE5-2680v3(2.5GHz)12c
内存
8*8GBDDR4ECC
硬盘
双硬盘
网络
InfinibandFDR56Gbps
软件环境
OS
CentOSrelease6.6(Final)
编译器
IntelCompilerXEVersion15.0Build20150121
MPI
OpenMPI-1.8.5
HPL
2.1
单节点Linpack双精度浮点计算理论峰值计算数值为:
2.5(主频GHz)*16(每时钟周期运算次数)*24(核心/节点)=960GFlops
集群整机Linpack双精度浮点计算理论峰值计算数值为:
2.5(主频GHz)*16(每时钟周期运算次数)*24(核心/节点)*60(节点数量)=576000GFlops=576TFlops
3单机Linpack测试
测试方案
2.1.1测试对象:
HPC集群所有60个刀片计算节点
2.1.2测试目标:
1.检验所有节点是否能正常运行、是否存在软硬件异常;
2.检验各刀片计算节点的计算效率是否正常;
3.检验各刀片计算节点在长时间持续高负载运行时,性能是否正常且稳定;
4.检验各刀片计算节点在长时间持续高负载运行时,温度和散热否正常;
5.检验各刀片计算节点在长时间持续高负载运行时,供电是否正常稳定;
2.1.3测试步骤:
1)进行测试之前,需要确保整个集群环境正常。
所有节点正常,且无负载,调试好Infiniband网络,确保风扇正常、CPU温度无异常,确保测试相关的环境变量已导入,无异常进程和服务。
2)随机选取任一计算节点,通过不断调整和优化相关测试参数,测得单机Linpack效率较高时的运行参数。
3)使用在2)中获取的运行参数,同时对各节点进行单机Linpack测试。
4)建立测试目录,将输入文件HPL.dat和测试程序xhpl拷到本目录下,手动运行单机Linpack测试命令:
nohupmpirun-np24/public/software/benchmark/hpl/2.1/intel/xhpl.Linux_Intel64>&`hostname`_single.log&
测试结果
单机(NB=168)
主机名
节点数
CPU核心数
理论峰值(Gflops)
实测峰值(Gflops)
效率
N
NB
P
Q
node1
1
24
960
6.82E+02
71.0%
79897
168
4
6
node2
1
24
960
7.18E+02
74.8%
79897
168
4
6
node3
1
24
960
7.10E+02
74.0%
79897
168
4
6
node4
1
24
960
6.98E+02
72.7%
79897
168
4
6
node5
1
24
960
6.78E+02
70.6%
79897
168
4
6
node6
1
24
960
6.88E+02
71.7%
79897
168
4
6
node7
1
24
960
6.74E+02
70.2%
79897
168
4
6
node8
1
24
960
6.88E+02
71.7%
79897
168
4
6
node9
1
24
960
6.79E+02
70.7%
79897
168
4
6
node10
1
24
960
6.97E+02
72.6%
79897
168
4
6
node11
1
24
960
6.98E+02
72.7%
79897
168
4
6
node12
1
24
960
6.96E+02
72.5%
79897
168
4
6
node13
1
24
960
6.88E+02
71.6%
79897
168
4
6
node14
1
24
960
7.27E+02
75.8%
79897
168
4
6
node15
1
24
960
6.83E+02
71.1%
79897
168
4
6
node16
1
24
960
6.88E+02
71.6%
79897
168
4
6
node17
1
24
960
6.85E+02
71.4%
79897
168
4
6
node18
1
24
960
6.86E+02
71.4%
79897
168
4
6
node19
1
24
960
7.19E+02
74.9%
79897
168
4
6
node20
1
24
960
6.82E+02
71.0%
79897
168
4
6
node21
1
24
960
6.84E+02
71.3%
79897
168
4
6
node22
1
24
960
7.10E+02
74.0%
79897
168
4
6
node23
1
24
960
6.85E+02
71.4%
79897
168
4
6
node24
1
24
960
6.83E+02
71.2%
79897
168
4
6
node25
1
24
960
7.16E+02
74.6%
79897
168
4
6
node26
1
24
960
6.86E+02
71.4%
79897
168
4
6
node27
1
24
960
7.19E+02
74.9%
79897
168
4
6
node28
1
24
960
6.87E+02
71.6%
79897
168
4
6
node29
1
24
960
6.92E+02
72.0%
79897
168
4
6
node30
1
24
960
6.82E+02
71.0%
79897
168
4
6
node31
1
24
960
6.89E+02
71.8%
79897
168
4
6
node32
1
24
960
6.83E+02
71.2%
79897
168
4
6
node33
1
24
960
7.18E+02
74.8%
79897
168
4
6
node34
1
24
960
6.88E+02
71.6%
79897
168
4
6
node35
1
24
960
6.82E+02
71.0%
79897
168
4
6
node36
1
24
960
7.18E+02
74.8%
79897
168
4
6
node37
1
24
960
7.10E+02
73.9%
79897
168
4
6
node38
1
24
960
6.93E+02
72.2%
79897
168
4
6
node39
1
24
960
7.18E+02
74.8%
79897
168
4
6
node40
1
24
960
7.18E+02
74.8%
79897
168
4
6
node41
1
24
960
7.15E+02
74.5%
79897
168
4
6
node42
1
24
960
6.88E+02
71.7%
79897
168
4
6
node43
1
24
960
6.98E+02
72.7%
79897
168
4
6
node44
1
24
960
7.27E+02
75.7%
79897
168
4
6
node45
1
24
960
7.22E+02
75.2%
79897
168
4
6
node46
1
24
960
6.85E+02
71.3%
79897
168
4
6
node47
1
24
960
7.02E+02
73.1%
79897
168
4
6
node48
1
24
960
6.84E+02
71.3%
79897
168
4
6
node49
1
24
960
6.89E+02
71.8%
79897
168
4
6
node50
1
24
960
6.96E+02
72.5%
79897
168
4
6
node51
1
24
960
6.86E+02
71.4%
79897
168
4
6
node52
1
24
960
7.07E+02
73.7%
79897
168
4
6
node53
1
24
960
7.15E+02
74.5%
79897
168
4
6
node54
1
24
960
6.91E+02
72.0%
79897
168
4
6
node55
1
24
960
7.18E+02
74.8%
79897
168
4
6
node56
1
24
960
7.06E+02
73.5%
79897
168
4
6
node57
1
24
960
6.75E+02
70.5%
79897
168
4
6
node58
1
24
960
6.87E+02
71.5%
79897
168
4
6
node59
1
24
960
7.19E+02
74.9%
79897
168
4
6
node60
1
24
960
6.93E+02
72.2%
79897
168
4
6
均值
72.7%
结果分析
如上表所示,实测单机Linpack效率最高为75.8%,最低为70.2%,60个计算节点的单机效率平均值是72.7%(NB=168)。
各节点运行效率正常,且表现稳定。
4整机Linpack测试
测试方案
3.1.1测试对象:
HPC集群所有60个正常的节点
3.1.2测试目标:
1.检验所有节点是否能正常运行、是否存在软硬件异常;
2.检验并行环境及计算网络的状态是否正常;
3.检验集群计算效率是否正常;
4.检验集群在长时间持续高负载运行时,性能是否正常且稳定;
5.检验集群在长时间持续高负载运行时,温度和散热否正常;
6.检验集群在长时间持续高负载运行时,供电是否能正常;
3.1.3测试步骤:
1).进行测试之前,需要确保整个集群环境正常。
所有节点正常,且无负载,调试好Infiniband网络,确保风扇正常,CPU温度无异常,确保测试相关的环境变量已导入,无异常进程和服务。
2).通过不断调整和优化相关测试参数,测得整机Linpack效率较高时的运行参数和结果数据。
3)根据2)参数进行24小时压力测试。
4)建立测试目录,将输入文件HPL.dat和测试程序xhpl拷到本目录下,手动运行整机Linpack测试命令:
nohupmpirun-np1440-machinefilenodelist/public/software/benchmark/hpl/2.1/intel/xhpl.Linux_Intel64>&total_nodes.log&
测试结果
60节点整机Linpcack
节点数
CPU核心数
理论峰值(Gflops)
实测峰值(Gflops)
效率
N
NB
P
Q
60
1440
57600
4.122e+03
71.50%
622119
168
36
40
60
1440
57600
4.159e+03
72.27%
622119
168
36
40
60
1440
57600
4.019e+03
69.77%
622119
168
36
40
60
1440
57600
4.141e+03
71.89%
622119
168
36
40
结果分析
60节点的整机Linpack效率为72.3%,计算性能表现稳定良好,测试期间,集群整体运行状态正常稳定,电源、风扇及功耗等硬件监控情况稳定无异常。
5附录
HPL.dat修改说明
HPL输入文件内容如下,一般需要调整三部分参数进行优化测试:
1)问题规模的个数及大小,可设置为多组,N=1表示一组,需要一个Ns值。
问题规模计算方法为sqrt(总内存*1024*1024*1024/8)*80%
1#ofproblemssizes(N)
40000Ns
2)NB值,即分块大小,取经验值,一般设置168、192、232、1024
3#ofNBs
1922321024NBs
3)P和Q的设置(进程数目的设置),P和Q设置一般为1组,原则为:
P*Q=进程数
P≤Q且P和Q尽量接近
例如16进程,P=Q=4,如32进程,P=4,Q=8
1#ofprocessgrids(P×Q)
4Ps
4Qs
修改好的HPL.dat示例(红色为修改项):
HPLinpackbenchmarkinputfile
InnovativeComputingLaboratory,UniversityofTennessee
HPL.outoutputfilename(ifany)
6deviceout(6=stdout,7=stderr,file)
1#ofproblemssizes(N)
79897#=sqrt(总内存*1024*1024*1024/8)*80%Ns
1#ofNBs
168192#NBs
0PMAPprocessmapping(0=Row-,1=Column-major)
1*#ofprocessgrids(PxQ)
4Ps
6Qs
16.0threshold
1#ofpanelfact
012PFACTs(0=left,1=Crout,2=Right)
1#ofrecursivestoppingcriterium
24NBMINs(>=1)
1#ofpanelsinrecursion
2NDIVs
1#ofrecursivepanelfact.
012RFACTs(0=left,1=Crout,2=Right)
1#ofbroadcast
0BCASTs(0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM)
1#oflookaheaddepth
0DEPTHs(>=0)
2SWAP(0=bin-exch,1=long,2=mix)
64swappingthreshold
0L1in(0=transposed,1=no-transposed)form
0Uin(0=transposed,1=no-transposed)form
1Equilibration(0=no,1=yes)
8memoryalignmentindouble(>0)
附录1单机测试原始输入文件
HPLinpackbenchmarkinputfile
InnovativeComputingLaboratory,UniversityofTennessee
HPL.outoutputfilename(ifany)
6deviceout(6=stdout,7=stderr,file)
1#ofproblemssizes(N)
798971088001081601075201062401049601130240Ns
2#ofNBs
168192448384NBs
0PMAPprocessmapping(0=Row-,1=Column-major)
1#ofprocessgrids(PxQ)
414Ps
641Qs
16.0threshold
1#ofpanelfact
012PFACTs(0=left,1=Crout,2=Right)
2#ofrecursivestoppingcriterium
24NBMINs(>=1)
1#ofpanelsinrecursion
2NDIVs
3#ofrecursivepanelfact.
012RFACTs(0=left,1=Crout,2=Right)
1#ofbroadcast
0BCASTs(0=1rg,1=1rM,2=2rg,3=2rM,4=Lng,5=LnM)
1#oflookaheaddepth
0DEPTHs(>=0)
2SWAP(0=bin-exch,1=long,2=mix)
64swappingthreshold
0L1in(0=transposed,1=no-transposed)form
0Uin(0=transposed,1=no-transposed)form
1Equilibration(0=no,1=yes)
8memoryalignmentindouble(>0)
附录2单机测试输出文件
随机选取一个计算节点输出,本报告以comput57节点为例的单机测试的原始输出文件:
================================================================================
HPLinpack2.1--High-PerformanceLinpackbenchmark--October26,2012
WrittenbyA.PetitetandR.ClintWhaley,InnovativeComputingLaboratory,UTK
ModifiedbyPiotrLuszczek,InnovativeComputingLaboratory,UTK
ModifiedbyJulienLangou,UniversityofColoradoDenver
================================================================================
Anexplanationoftheinput/outputparametersfollows:
T/V:
Walltime/encodedvariant.
N:
TheorderofthecoefficientmatrixA.
NB:
Thepartitioningblockingfactor.
P:
Thenumberofprocessrows.
Q:
Thenumberofprocesscolumns.
Time:
Timeinsecondstosolvethelinearsystem.
Gflops:
Rateofexecutionforsolvingthelinearsystem.
Thefollowingparametervalueswillbeused:
N:
79897
NB:
192
PMAP:
Row-majorprocessmapping
P:
4
Q:
6
PFACT:
Left
NBMIN:
2
NDIV:
2
RFACT:
Left
BCAST:
1ring
DEPTH:
0
SWAP:
Mix(threshold=64)
L1:
transposedform
U:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- HPC 性能 计算 项目 Linpack 测试报告
![提示](https://static.bdocx.com/images/bang_tan.gif)