属性数据建模分析毕业设计.docx
- 文档编号:1399827
- 上传时间:2022-10-22
- 格式:DOCX
- 页数:33
- 大小:385.84KB
属性数据建模分析毕业设计.docx
《属性数据建模分析毕业设计.docx》由会员分享,可在线阅读,更多相关《属性数据建模分析毕业设计.docx(33页珍藏版)》请在冰豆网上搜索。
属性数据建模分析毕业设计
属性数据建模分析
属性数据建模分析—某项调查数据的统计分析
中文摘要
摘要:
本文的目的是通过对问卷调查中的数据进行相关性分析和聚类分析,
以便探索出影响女性健康的因素。
首先,本文把问卷中的20个问题作为变量,并用SPSS软件计算它们的Kendall的τ相关系数。
其次,运用SAS软件实现对这20个问题的聚类分析。
最终得出一些结论,如精神比较衰弱的女性心慌气短和胸闷的可能性较大,泌尿系统受感染的患者一般会有尿黄、尿频的症状等等。
因此相关性分析和聚类分析对医生诊断以及开药都具有很大的指导性,故本文建议医生在诊断时要善于参考相关性分析和聚类分析的结果。
关键词:
属性数据;女性健康;相关性分析;聚类分析
Attributedatamodelingandanalysis
-statisticalanalysisofasurveydata
英文摘要
Abstract:
Thetaskofthispaperistoexplorethefactorsthataffectwomen’shealth,soitneedstothecorrelationanalysisandclusteranalysisofquestionnairedata.Firstofall,20questionsinthequestionnaireas20variables,anditusesSPSSsoftwarecalculatetheKendallτcorrelationcoefficient.Secondly,itusesSASsoftwaretoachieveaclusteranalysisofthese20questions.Finally,itdrawssomeconclusions,suchas,mentallyweakwomenaremorelikelytofeelchesttightnessandshortnessofbreath,Urinarysystemofinfectedfemalepatientsusuallyhavedarkurineandfrequenturination,
andsoon.Therefore,thecorrelationanalysisandclusteranalysishavealotguidancefordoctorstodiagnoseandprescribemedication,sothisarticlesuggeststhatdoctorsshouldrefertotheresultsofcorrelationanalysisandclusteranalysis.
Kewords:
attributedata;women'shealth;correlationanalysis;clusteranalysis
1引言
1.1研究背景和意义
专门针对属性数据的分析方法起源于20世纪初的英国,20世纪早期,属性数据领域的研究主要集中于变量间的关联性。
其后,Yule提出了属性变量关联性的优势比度量。
同为统计学家和遗传学家的Fisher于1922年引入了刻画卡方分布族特征的自由度,并于1934年引入了Fisher精确检验。
针对属性数据的模型最早出现在20世纪30年代,probit模型在处理毒理学中二分响应的应用中流行起来。
1938年R.A.Fisher和FrankYates提出了log[π(1-π)]变换。
同是医师及统计学家的JosephBerkson于1944年为该变换引入了术语“logit”。
1951年,JeromeCornfield通过该模型,在案例对照研究中使用优势比去近似相对风险,logistic模型逐步流行起来。
20世纪50年代和60年代早期,出现了大量有关多向列联表关联性和交互结构的工作,这激起了1965至1975年间人们对对数线性模型的研究。
近来,属性数据领域的研究焦点在于对聚簇关联响应数据拟合logistic回归模型。
这些研究一方面对聚簇关联数据的边缘进行建模,另一方面利用广义线性混合模型进行建模。
近年来,随着计算机技术的迅猛发展,针对属性数据的特殊统计方法的应用日益广泛,尤其是在生物医学和社会科学领域。
这个现象一定程度上反映了过去几十年里属性数据分析方法的发展,同时也反映了科学家和应用统计学家方法论的日益精湛。
随着社会分工的日益复杂,人们的工作压力日益增大,由压力而引发的健康问题也逐渐受人关注。
往往,疾病的产生是有迹象的,这种迹象就蕴藏在生活的细节之中。
为此,我们对感到身体不适的女性患者做了详细的问卷调查,目的是通过一系列问题来探索出影响女性健康的因素。
我们的问卷遍布女性生活的各个方面,比如有常见的问题1,“您会疲乏困倦吗?
”。
也有心理因素方面的问题17,“您会无缘无故叹气吗?
”。
对于这些问题的回答,我们设立5个单选项,分别是从不、偶尔、有时,经常和总是。
对于这些选项,我们赋予了有序变量类型的值,从1到5。
此外,我们也对被调查者的文化水平做了详细的记录,同时也赋予有序变量类型,从1到5依次变高。
1代表“小学、初中、无”,2代表“高中、中专、职高、中技、职工”,3代表“专科、大专、大学、大本、本科”,4代表“研究生、硕士、硕研”,5代表“博士”。
因此,这篇文章主要分析问卷中问题的相关性以及对问题的聚类分析。
1.2数据来源和预处理
本文的实测数据来源于XXX,该数据为女性健康信息。
在统计学的研究中,数据可以说是至关重要的。
对于庞大的数据,如何利用适合该数据的数据处理软件是统计分析一开始必须做的工作。
适合数据类型的数据库可以大大简化统计分析的过程,同时可以很方便地得到正确的结论。
因此,我们准备选用MSExcel软件对数据进行初步处理。
MicrosoftExcel是微软公司的办公软件Microsoftoffice的组件之一,是由Microsoft为Windows和AppleMacintosh操作系统的电脑而编写和运行的一款试算表软件。
Excel是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。
由于我们的数据的来源是调查问卷,因此我们利用Excel强大的赋值和筛选功能可以大大简化我们的程序,使文字化的数据变为属性数据。
为了简单起见,对有缺失值的数据通过Excel筛选功能直接删除,最后将剩下的问卷中20个问题的的数据采集输入到Excel软件中。
具体数据情况如表1.1所示。
表1.1Excel数据整理情况
人员编号
文化程度
文化程度赋值
问题1
…
问题19
问题20
1
硕士
4
2
…
1
1
2
大专
3
3
…
2
2
3
初中
1
2
…
1
1
4
大专
3
3
…
2
2
5
中专
2
4
…
2
2
6
高中
2
2
…
1
1
7
大专
3
2
…
2
2
8
高中
2
2
…
1
1
9
大专
3
2
…
2
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1024
硕士
4
2
…
4
1
1025
大学
3
2
…
3
1
1026
大学
3
3
…
2
3
1027
大学
3
2
…
3
1
表1.1显示了Excel中数据井然有序的状态。
选择好整理数据的软件以后,我们还要选择软件对数据进行统计学的分析,比如相关性分析和聚类分析。
同时,为了便于分析类别,我们把这20个问题制成表2.1以供查阅。
表2.1问卷调查中的问题列表
1
您会疲乏困倦吗?
2
您会心慌气短(呼吸急促,接不上气)吗?
3
您患感冒的频率如何?
4
您喜欢安静、懒得说话(喜欢懒言)吗?
5
您稍一活动就出虚汗吗?
6
您感到全身或手脚怕冷吗?
7
您受冷、进冷食时拉肚子吗?
8
您白天尿多、色清吗?
9
您夜间小便2次以上吗?
10
您感到手脚心发热或手脚心出汗吗?
11
您感到口唇发干或口干喝水多吗?
12
您面部潮红或偏红吗?
13
您大便秘结或干燥吗?
14
您小便时尿道有发热感、或尿色深浓吗?
15
您感到情绪低沉或情感脆弱吗?
16
您会精神紧张、焦虑不安吗?
17
您会无缘无故叹气吗?
18
您月经前感到乳房胀痛吗?
19
您面部油腻或鼻部油腻吗?
20
您舌苔厚腻吗?
1.3属性数据的相关概念
1.3.1属性数据的定义
首先我们定义属性数据,属性变量是具有由类的集合组成的度量表。
例如,政治哲学可分为“自由主义者”,“温和主义者”或“保守者”;住房类型的选择可分为“独立住宅”,“套房”或“公寓”;对文化水平可分为“小学,“中学”,“大学”和“研究生”。
属性量表在调查态度和意见的社会学科中十分普遍,同时,属性量表也经常出现在保健学、行为学、教育学、公共健康和动物学等领域。
当被研究问题的结果能够按是否符合特定的标准而划分为不同的类别时,属性变量就产生了。
1.3.2名义变量和有序变量的区别
属性数据的度量量表主要有两种类型。
许多属性量表具有自然的顺序,例如,治疗效果(很好,好,一般,差)、公司存货水平的评估(太低,合理,太高)、感到焦虑症状的频率(从不,偶尔,经常,总是)等。
具有有序量表的属性变量就称为有序变量。
非有序量表的属性变量则称作名义变量,例如,宗教信仰(天主教徒,犹太教徒,新教教徒,其他)、喜爱的音乐类型(古典,乡村,摇滚,爵士,民族)等。
对于名义变量,各类别的排序并不重要。
统计分析并不依赖于各个类的排列顺序。
针对名义变量的分析方法所得的结果并不因为各类别排列顺序的改变而异,针对有序变量的分析方法要依赖各个类排序的顺序。
大多数情况下,各类别由低水平到高水平排列还是由高水平到低水平排列并不会对结果造成影响,但若按其它方式重新排列各个类别,结果便会改变。
适用于有序变量的分析方法并不适用于名义变量,因为名义变量并不具有有序的类别。
名义变量和有序变量均可用名义变量分析法,因为它们仅要求具有属性量表即可。
然而,当使用名义变量分析有序变量时,并没有利用有序变量各类别顺序的信息,这可能会导致严重的功效损失。
通常,我们最好针对数据真实的量表类型使用相应的分析方法。
属性数据一般是定性的,它区别于诸如体重、年龄和收入等数值变量或定量变量。
我们将发现把有序数据当作定量变量处理通常是有利的,例如,给各类别分配有序得分。
1.4SPSS和SAS介绍
SPSS(StatisticalPackagefortheSocial,社会科学统计软件包)是由美国斯坦福大学开发的统计分析软件,它使用Windows的窗口方式展示各种管理和分析数据的方法,可方便地用于特定的科研统计。
其基本功能包括数据管理、统计分析、图表分析、输出管理等,它在社会科学、自然科学的各个领域都能发挥巨大的作用,并已经应用于经济学、生物学、教育学、医学以及体育、农业、林业等各个领域。
SAS(StatisticsAnalysisSystem)软件是在20世纪70年代由北卡罗莱纳州立大学编写出来的,当时用来处理数据,作生物分析用。
随着SAS的发展,SAS内部自带函数和过程一直在增加,功能逐渐强大和完善。
目前,S
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 属性 数据 建模 分析 毕业设计