word版本hslogic中文说明and英文报告.docx
- 文档编号:29724821
- 上传时间:2023-07-26
- 格式:DOCX
- 页数:25
- 大小:194.12KB
word版本hslogic中文说明and英文报告.docx
《word版本hslogic中文说明and英文报告.docx》由会员分享,可在线阅读,更多相关《word版本hslogic中文说明and英文报告.docx(25页珍藏版)》请在冰豆网上搜索。
word版本hslogic中文说明and英文报告
设计中文说明
&
英文Report
所有的英文report您可以根据中文说明做参考进行补充
具体代码查看这里的8个文件夹,里面分别介绍了8个问题的说明。
问题1:
·英文关键字:
5-numbersummariesforeachofthevariables。
·中文简要说明:
主要是求解每个变量的5-summaries。
·设计说明:
5-summaries主要包括:
>Minimumxvalue:
最小值;
>Lowerquartile:
下四分位数;
>Median:
中值;
>UpperQuartile:
上四分位数;
>Maximumxvalue:
最大值;
这里分位数的基本定义为:
四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。
第一四分位数(Q1),等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数(Q2),等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数(Q3),等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距。
因此,在这里,我们通过MATLAB来实现这五条公式的计算:
fori=1:
C
min_each_Pro(i)=min(data(:
i));
end
fori=1:
C
Q1_each_Pro(i)=prctile(data(:
i),25);
end
fori=1:
C
med_each_Pro(i)=median(data(:
i));
end
fori=1:
C
Q3_each_Pro(i)=prctile(data(:
i),75);
end
fori=1:
C
max_each_Pro(i)=max(data(:
i));
end
·计算结果:
运行,得到如下的结果:
Minimumxvalue
最小值
Lowerquartile
下四分位数
Median
中值
UpperQuartile
上四分位数
Maximumxvalue
最大值
·英文Report:
Inthisquestion,basedonthetopic,wemustcalculate5-numbersummariesforeachofthevariables.Inmathematicstheory,5-numbersummariesincludeMinimumxvalue,Lowerquartile,Median,UpperQuartile,Maximumxvalue.
Inmatlab,weusethefunctionofmin,prctile,median,maxtocalculcateeachvalues.theresultsasfollow:
Tab1resultof5-Numbersummaries
Minimumxvalue
Lowerquartile
Median
UpperQuartile
Maximumxvalue
问题2:
·英文关键字:
Median,mean,modefor11variaablesinthedata.Discussbrieflywhatyoucanlearnfromthis.
·中文简要说明:
设计一个表格,计算11个变量的中值,平均值,和众数,然后简要的讨论从这些值上可以得到什么信息。
一般情况下,选取几个特殊的变量来证明你的观点。
·设计说明:
中值:
是在一组数据中居于中间的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。
如果这组数据包含偶数个数字,中值是位于中间的两个数的平均值。
平均值:
变量的瞬时值在给定时间间隔内的平均值。
对于周期量,时间间隔为一个周期
众数:
在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。
修正定义:
是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。
我们在MATLAB中使用如下的函数实现:
fori=1:
C
med_each_Pro(i)=median(data(:
i));
end
med_each_Pro=med_each_Pro';
fori=1:
C
ave_each_Pro(i)=mean(data(:
i));
end
ave_each_Pro=ave_each_Pro';
fori=1:
C
k=sort(unique(data(:
i)));
b=hist(data(:
i),k);
[x,y]=max(b);
mod_each_Pro(i)=k(y);
end
mod_each_Pro=mod_each_Pro';
·计算结果:
运行,得到如下的结果:
Tab2Median,mean,mode
Median
中值
Mean
平均值
Mode
众数
·英文Report:
Inthisquestion,basedonthetopic,wemustcalculateMedian,mean,modefor11variaablesinthedata.Inmatlab,weusethefunctionofMedian,Mean,Modetocalculcateeachvalues.theresultsasfollow:
Tab2Median,mean,mode
Median
Mean
Mode
Now,wewillselectsomekindofvariablestoprovewhatIhavelearn,normally,wewillchoice
3variablesof'Healthexpenditurepercapita(currentUS$)',Fordiscussmoreclearly,wewillusetheplottogetsomefigure.
Iwillusethematlabcodeasfollow;
figure
plot(data(:
1));title('Healthexpenditurepercapita(currentUS$)');holdon;
plot(1:
136,med_each_Pro
(1),'r-*');holdon;
plot(1:
136,ave_each_Pro
(1),'b-o');holdon;
plot(1:
136,mod_each_Pro
(1),'g-o');
legend('median','mean','mod');
thefigureislikethis:
Figure1Median,mean,modeandHealthexpenditurepercapita
Wecanknowthevalueofmeanisbiggerthanmedian,andmeanisbiggest,whilemodevalueisthesmallest.thisvaluecanreflectthevalueofHealthexpenditureofmostcounryislow.Somodeisverysmall.
这里你还可以补充更多。
问题3:
(对于翻译过程中可能存在的理解偏差,我们会说明,本题理解偏差,可视化技术是指你们的课程中提到的技术还是MATLAB的视觉显示技术?
这里我们人为是MATLAB的技术)
·英文关键字:
3variables,demonstrate3differentvisualizationtechniques。
·中文简要说明:
就是选择三个变量,并使用三种不同的可视化技术来显示这三个变量。
·设计说明:
本题我们认为就是使用三种不同的显示方法,来画出三个不同变量。
·计算结果:
三种显示技术为stem,plot,stairs。
·英文Report:
略。
这里主要是一个理解偏差,如果您那有不同的理解方式,请及时和我们联系。
问题4:
·英文关键字:
Correlations,spearmanorkendallrankcorrelationsbetweenhappinessandothervariables
Usecorrorcorrcoeforusingequations。
Absolutevaluestrongest,
Positive
Negative。
Thismeaning
Abovealliscorandr-cor。
·中文简要说明:
计算happiness和其他变量的相关值和等级相关值,计算方法使用corr函数或者直接的数学公式,然后讨论相关和等级相关两种情况下,那个值的绝对值最具有代表性,这个值是正的还是负的。
有什么含义。
这里首先介绍一下相关和等级相关的相关知识。
相关一般都比较熟悉,就是比较两个数据的相似成都,这里重点介绍等级相关。
斯皮尔曼等级相关系数
斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以使用单调函数来描述。
假设两个随机变量分别为X、Y,它们的元素个数均为N,两个随即变量取的第i(1<=i<=N)个值分别用Xi、Yi表示。
对X、Y进行排序(同时为升序或降序),得到两个元素排行集合x、y,其中元素xi、yi分别为Xi在X中的排行以及Yi在Y中的排行。
随机变量X、Y之间的斯皮尔曼等级相关系数可以由x、y或者d计算得到,其计算方式如下所示:
由排行集合x、y计算而得(斯皮尔曼等级相关系数同时也被认为是经过排行的两个随即变量的皮尔逊相关系数,以下实际是计算x、y的皮尔逊相关系数):
肯德尔相关系数
肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。
一个肯德尔检验是一个无参数假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性。
肯德尔相关系数的取值范围在-1到1之间。
当τ为1时,表示两个随机变量拥有一致的等级相关性;
当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;
当τ为0时,表示两个随机变量是相互独立的。
假设两个随机变量分别为X、Y(也可以看做两个集合),它们的元素个数均为N,两个随即变量取的第i(1<=i<=N)个值分别用Xi、Yi表示。
X与Y中的对应元素组成一个元素对集合XY,其包含的元素为(Xi,Yi)(1<=i<=N)。
当集合XY中任意两个元素(Xi,Yi)与(Xj,Yj)的排行相同时(也就是说当出现情况1或2时;情况1:
Xi>Xj且Yi>Yj,情况2:
Xi 当出现情况3或4时(情况3: Xi>Xj且Yi Xi 当出现情况5或6时(情况5: Xi=Xj,情况6: Yi=Yj),这两个元素既不是一致的也不是不一致的。 公式一: 其中C表示XY中拥有一致性的元素对数(两个元素为一对);D表示XY中拥有不一致性的元素对数。 公式二: 这一公式适用于集合X或Y中存在相同元素的情况(当然,如果X或Y中均不存在相同的元素时,公式二便等同于公式一)。 公式三: 这一公式中没有再考虑集合X、或Y中存在相同元素给最后的统计值带来的影响。 公式三的这一计算形式仅适用于用表格表示的随机变量X、Y之间相关系数的计算。 ·设计说明: 本课题采用MATLAB自带的函数来实现,如果您有进一步的需求,我们可以考虑自编等级相关的计算函数。 correlation (1)=corr(data(: 10),data(: 1)); . . correlation_Kendall (1)=corr(data(: 10),data(: 1),'type','Kendall'); . . correlation_Spearman (1)=corr(data(: 10),data(: 1),'type','Spearman'); . . 这里分别计算出三种相关。 ·计算结果: 运行,我们可以得到如下的运行结果: Tab3corandrankcor Correlations SrankCorrelations KrankCorrelations Health 0.5888 0.7663 0.5724 Fertility -0.6127 -0.5121 -0.3471 Life 0.7604 0.7867 0.5885 Net 0.1859 0.3098 0.1944 Populationdensity 0.0672 0.0551 0.0386 Populationgrowth -0.2065 -0.2910 -0.1944 Armed 0.0609 0.1128 0.0615 Internetusers 0.6445 0.7271 0.5311 Populationsize 0.0319 -0.0849 -0.0559 Developing(ed) -0.5316 -0.5558 -0.4593 这里首先说明一下三种相关系数的实际意义: 相关: 两个或几个随机变量协同变化的程度。 当变量间呈现同一方向的变化趋势时称为正相关,反之则称为负相关。 S等级相关: 斯皮尔曼等级相关,是等级相关的一种。 它适用于只有两办变量,而且是属于等级变量性质,具有线性关系的资料。 如果是属于等距或等比性质的变量,若按其取值大小,赋以等级顺序,亦可计算等级相关。 K等级相关: 肯德尔系数又称和谐系数是表示多列等级变量相关程度的一种方法。 这种资料的获得一般采用等级评定的方法,即让K个被试(或称评价者)对N件事物或N种作品进行等级评定,每个评价者都能对N件事物(或作品)好坏、优劣、喜好、大小、高低等排出一个等级顺序。 他们都有一个值域,即-1,1,1的时候是完全相关,-1,完全不相关,0为相反独立。 将相关值仿真,可以看到如下的曲线: Figure4correlationsandrankcorrelations 这里首先求最大的绝对值。 max_correlation=max(abs(correlation)) max_correlation_Kendall=max(abs(correlation_Kendall)) max_correlation_Spearman=max(abs(correlation_Spearman)) 在MATLAB中运行结果如下所示: max_correlation=0.7604(3,+); max_correlation_Kendall=0.5885(3,+); max_correlation_Spearman=0.7867(3,+); 而每个相关的正负最大最小值为: max_correlation=[-0.6127(2,-),0.7604(3,+)]; max_correlation_Kendall=[-0.4593(10,-),0.5885(3,+)]; max_correlation_Spearman=[-0.5885(10,-),0.7867(3,+)]; 从上面的分析,我们可以看到不管是哪种计算方式,其最大值均为第三个变量的相关结果,其变量名称为: Lifeexpectancyatbirth,total(years) 问题一: 由此可以看到,一个国家的幸福指数很大程度上和这个国家的国民寿命有很大的关系。 此外和幸福指数最不相关的是是否发展中国家,或者是性别因素。 因此,研究一个国家的幸福指数,我们可以更多的参考其国民的人均寿命。 问题二: 从研究的数据发现,在研究相关性的时候,两种相关都比较合适,在研究非相关的时候,我们发现等级相关更能反映实际情况,而相关分析的结果在与实际情况的对比中会有一定的误差。 ·英文Report: 您可以补充前面关于相关的相关的介绍。 Basedonthetopic,wecanusecorrfunctioninmatlabtocalculatethecorrelationsandrankcorrelations,thematlabcodeis: correlation (1)=corr(data(: 10),data(: 1)); correlation_Kendall (1)=corr(data(: 10),data(: 1),'type','Kendall'); correlation_Spearman (1)=corr(data(: 10),data(: 1),'type','Spearman'); theresultisinthetable3. Tab3corandrankcor Correlations SrankCorrelations KrankCorrelations Health 0.5888 0.7663 0.5724 Fertility -0.6127 -0.5121 -0.3471 Life 0.7604 0.7867 0.5885 Net 0.1859 0.3098 0.1944 Populationdensity 0.0672 0.0551 0.0386 Populationgrowth -0.2065 -0.2910 -0.1944 Armed 0.0609 0.1128 0.0615 Internetusers 0.6445 0.7271 0.5311 Populationsize 0.0319 -0.0849 -0.0559 Developing(ed) -0.5316 -0.5558 -0.4593 Maybe,checkthedatadirectly,foundnothing,sowewannafigurethecurveinmatlab,ofcourse,theallofthemhavethevalueof-1and1.1issymbleofcorrelate,while-1isthesymbleofnon-correlate.thefigureislikethat: Figure4correlationsandrankcorrelations Now,wewillusemaxfunctiontogetthemaxvalueforeachcorrelation. max_correlation=max(abs(correlation)) max_correlation_Kendall=max(abs(correlation_Kendall)) max_correlation_Spearman=max(abs(correlation_Spearman)) wecangettheresults: max_correlation=0.7604[3,+]; max_correlation_Kendall=0.5885[3,+]; max_correlation_Spearman=0.7867[3,+]; thenumberismaxvalue,while3issymbleofnameofvariables,hereis‘Lifeexpectancyatbirth,total(years)’,+isitsrealvalue. basedontheseresults,weknow,themostimportantfactorofhappinesslevelis‘Lifeexpectancyatbirth,total(years)’ofthecountry. 关于问题的回答,您可以进一步补充。 问题5: (此题存在一定翻译的理解偏差,whichofthesecorrelations。 。 。 这里是指三种不同方法得到的相关值还是不同变量之间的相关值,这里我们理解为前者,如果有偏差,再修改) ·英文关键字: Randomizationtesting,correlationsaresignificant ·中文简要说明: 通过随机测试,来分析那个变量的相关数具有最大显著性,选择两个变量,讨论他们和幸福指数的相关数与p值的关系。 ·设计说明: 本模块主要的工作就是设计随机测试模块。 下面简要介绍以下随机测试模块的基本工作流程如下所示: 这里,我们主要根据排列的方法进行测试。 ·计算结果: 这里,随机测试模块,我们单独写成一个模块,其代码如下所示。 主要根据上面的基本计算流程进行。 function[P_value,s,u,c]=randomization_test(seq,sim,sd,Ex) %seq输入序列 %sim模拟次数 %sd方差 %Ex期望 [Nk]=size(seq); y=seq; ifEx==1 y=y-repmat(mean(y),[N1]); end ifsd==1 y=y./repmat(std(y),[N1]); end c=(y'*y)/(N-1); [us]=svd(c); s1=s (1); P_value=0; forir=1: sim forik=2: k y(: ik)=y(randperm(N),ik);%MATLAB中随机测试函数 end [uisi]=svd((y'*y)/(N-1)); P_value=P_value+(si (1)>=s1); end P_value=P_value/sim; 通过这个代码我们就可以求出p值。 下面我们要分析第四题得到的相关数中那个最具有显著性。 我们将第四题得到的三个组相关数带入这个函数,两两组合,得到如下的结果: fori=1: 10 correlations1(i,1)=correlation(i); correlations1(i,2)=correlation_Kendall(i);%correlation_Kend
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- word 版本 hslogic 中文 说明 and 英文 报告
![提示](https://static.bdocx.com/images/bang_tan.gif)