计量分析讲义.docx
- 文档编号:1672033
- 上传时间:2022-10-23
- 格式:DOCX
- 页数:27
- 大小:155.45KB
计量分析讲义.docx
《计量分析讲义.docx》由会员分享,可在线阅读,更多相关《计量分析讲义.docx(27页珍藏版)》请在冰豆网上搜索。
计量分析讲义
计量分析讲义
洪永泰
壹、资料的性质和资料分析
一、统计分析的两大领域
二、资料的性质
(一)依取得方式分
资料性质
特征
推论效度
例子
观察性资料
顺其自然(不改变自然世界)
相关分析
民意调查、田野调查
实验性资料
操纵自然(改变自然世界)
因果分析
广告效果测试、新药测试
1.资料的性质会影响推论效度,如果观察性资料之间存有时间先后的关系,经常会被用来当作推论因果关系的依据,但仍有争议。
例:
社会流动—父母的社经地位vs.子女的社经地位
社会学者认为两者之间有因果关系,但统计学者则认为只有相关关系,因为资料并不是实验性资料。
例:
抽烟与癌症的关系只能说是有相关关系,不能说是有因果关系,除非进行实验。
经过一些辩论之后,暂时有一些共识:
以观察性资料要推论因果关系至少要具备以下三个条件:
(1)变量之间有明确的先后关系,如父母的社会经济地位在前,子女的在后。
(2)发生在前的变量对发生在后的变量解释变异量很高。
(3)没有其他的解释变量。
2.社会科学的资料大部分都是属于观察性的,较难从事控制性、实验性的研究,因为可能牵涉到伦理的问题。
3.生物医学研究中有运用入选机率调整法(propensityscoresadjustment,PSA)将观察性资料应用到因果关系的推论,不过条件是必须有另外一组可靠的实验组资料。
这个方法的原理是在将两组资料混合之后,利用模式分析可预测某些观察个案是否包含于实验组的机率值(propensityscores,PS),此机率值以配对、平均或其他方法分为多个分群,每一分群均分别包含了一定数目的实验组与控制组个案,透过比较实验组与控制组在每一分群之权重的调整对实验效果进行推估(Cochran,1968;RosenbaumandRubin,1983;RosenbaumandRubin,1984;Rosenbaum,2005)。
(二)依搜集范围分
1.普查资料(母体资料)—所得到的资料是母体参数值(populationparameters),可直接进行描述分析,不需做假设检定,也不需要统计推估,例如投开票所资料、人口普查资料、银行客户交易纪录。
2.抽样资料(样本资料)—所得到的资料是样本统计值(samplestatistics),统计推估有理论上的限制,例如社会调查。
(三)依衡量方式分
1.类别资料(categoricaldata)—分类、计质、间断性,依资料性质再决定展示工具。
(1)名义尺度(nominaldata)—纯分类,无大小和强弱之区分,例如性别、地区。
(2)等第尺度(ordinaldata)—有大小和强弱之分,但无确定的「量」,例如名次排序、教育程度、满意度测量、Likert量表等。
2.数字资料(quantitativedata)—计量、连续性,内涵的信息和解释力较高。
(1)区间尺度(intervaldata)—“0”没有定义、无共同的计量基础点,例如温度80度并非是40度的2倍、智商为0不表示没有智商。
现实世界中,此类资料并不多。
(2)比率尺度(ratiodata)—“0”有明确定义,表示「没有」的意思,可进行数学四则运算,例如分数、身高、体重。
由于等第尺度的各个衡量刻度通常都用1,2,3,4,5等数据来表示,许多使用者直接将这些数据当作比率尺度的数字运算,造成误用统计分析的后果。
典型的例子如满意度的分析,如果题目选项是1非常不满意,2不满意,3普通,4满意,5非常满意,正确的处理方法应该是视为类别资料,如果是单一变量描述则列出各个选项的百分比;如果是探讨和别的选项的关系则使用交叉列表。
比较常见的处理是将选项合并成为正面意见、中间意见、负面意见三大类,或者是转换成另一个变数,例如正面与非正面,或是负面与非负面,都是二分类,这样做比较方便后续与其他变量关系的探讨。
满意度调查的问卷设计现在比较流行先问正负面态度再续问强弱度的作法。
这样做的好处是将中间意见的反应人数尽可能压缩,通常也可以得到很好的效果。
资料分析时直接以类别资料处理,通常只有正面和负面两类加上少数无反应,不会有误用为数字资料的困扰。
满意度的资料分析通常是单题处理,每一个题目都可以单独做分析。
如果要加总好几个题目时要特别小心,正确的作法应该是计算同一个受访者在m个题目之中有几题回答正面意见,而不是m题去加总12345的答案,这样做会扭曲选项代码的意义。
等第资料的另一个常见的典型是Likert量表。
这个量表是加总量表,因发明者而得名。
Likert量表主要是用题组来测量抽象概念,每一题都是一个叙述,请受访者针对这个叙述回答同意的程度,从很低到很高,通常是3到7个刻度。
量表不会是单题存在,一定是题组的形式。
早期Likert的设计是将受访者对题组内所有题目的回答刻度加总,所以称之为加总量表。
然后用这个加总得分来表示受访者在这个概念的状态指标。
后来因子分析(factoranalysis)盛行之后也证实了受访者的因子得点(factorscore)和这个加总分数意义相当接近。
这也使得这个量表的效度和信度更加稳固,使用了快要一百年了还历久不衰。
贰、描述性统计:
资料的描述与比较
一、资料的描述:
符合科学精神的资料搜集、整理、与展示
类别资料
数字资料
描述方式
图表
次数分配表(Frequency)
饼状图(piechart)
条状图(barchart)
地图(map)
直方图(histogram)
次数分布曲线(curve)
累积百分比(次数)分布曲线
箱形图(box-plot)
枝干法(stem-and-leafdisplay)
资料
中心趋势
众数(mode)
离散趋势
IQV
中心趋势
平均数(mean)
中位数(median)
众数(mode),无太大意义
位置
百分位(percentile)
离散趋势
全距(range)
四分距(inter-quartile)
标准差(standarddeviation)
方差(variance)
离差系数(coefficientofvariation,CV)
(一)图表
1.饼状图(piechart)
2.条状图(barchart)
3.直方图(histogram)
4.次数分布曲线(curve):
可重迭比较
5.累积百分比分布曲线(cumulativedistributioncurve):
是解释威力强大的图,将许多资料浓缩在一个图之中
例:
100%ABA:
90%的投票所的得票数在
90%600票以下
B:
10%的投票所的得票数在
1000票以下
10%
6001000得票数
例:
累积得票数
100%ABA:
累积50%村里的累积得票数占全部得
票数的50%,显示各村里的得票平均
50%B:
累积50%村里的累积得票数在占全部
得票数的10%,显示该候选人有地盘
10%
50%100%累积村里数
6.箱形图(box-plot)—其优点为可以看出资料的离散程度,亦可以作百分位、中位数、极端值的比较。
max
75%
50%
25%
min
7.枝干法(stem-and-leafdisplay)—或译茎叶法,哈佛教授JohnTukey所发明。
较适用在资料笔数较少的手工处理上。
例:
有一系列资料93,87,75,84,64,54,91,84,76,82,81,78,88,67,57,84,77,54,62,79,86,63。
试绘其枝干图。
931
874421846
756879
64723
5474
(二)中心趋势
1.平均数
(1)母体资料
N是母体个案数
(2)样本资料
n是样本个案数
2.中位数:
一群资料中,排名第(N+1)/2位置的数,即有一半的资料大于此数,而一半的资料小于此数。
(1)此一定义模糊,需视资料个案数为奇数或偶数,且需视其平手的情形是否严重,故有多种不同的计算方法。
较常见的解决方法是计算第(N+1)/2位的数(母体资料)或第(n+1)/2位的数(样本资料),如有平手的情形,则依平均rank处理。
(2)中位数隐含位置的意思,是一群资料的真正中心点,较能反映出资料的真实结构,可以抗拒极端值的影响,适合应用在资料的比较上;而平均数不一定是资料的中心点,通常只能反映出资料的总量。
例:
8,12,21,25,31,39,45
∵n=7,第(n+1)/2位=(7+1)/2=4
∴Md=25
例:
8,12,21,25,31,39,45,46
∵n=8,第(n+1)/2位=(8+1)/2=4.5
第4位=25,第5位=31
∴Md=(25+31)/2=28
例:
8,12,12,12,31,39,45
∵n=7,第(n+1)/2位=4
1/2×(31-12)=9.5
12+9.5=21.5
∴Md=21.5
例:
8,12,12,12,31,39,45,46
∵n=8,第(n+1)/2位=4.5
3/4×(31-12)=57/4=14.25
∴Md=12+14.25=26.25
例:
工资的分布通常是不对称分配,如果用平均数表示,则容易产生误导,应该用中位数表示较客观,因有一半人的工资会大于中位数,一半人的工资会小于中位数。
年龄或纳税的统计亦同。
3.众数:
出现次数最多的数,有时不只一个,同时存在多个。
有时一点用处都没有,不具任何意义,通常只有在类别资料时才有用。
4.百分位:
须先将资料由小到大(或由大到小)排列,在资料中的相对位置为「第p(n+1)位」的数即为第p百分位的数。
会因个案数为奇数或偶数、平手情形的出现,而有不同的计算公式,计算亦较为麻烦。
例:
有一串资料为8,12,21,25,31,39,45,求第40百分位。
n=7,p=0.4,第40百分位=0.4×(7+1)=3.2
X(3)=21,X(4)=25
0.2×(25-21)=0.8
第40百分位=21+0.8=21.8
例:
有一串资料为8,14,16,24,27,35,46,53,65,70,72,78,
求第80百分位和第50百分位。
n=12,p=0.8,p(n+1)=0.8×(12+1)=10.4
第80百分位即第10.4位的数
X(10)=70,X(11)=72
0.4×(72-70)=0.8
第80百分位=70+0.8=70.8
同理,第50百分位即第6.5位的数
X(6)=35,X(7)=46
第50百分位=35+0.5×(46-35)=40.5
例:
有一串资料为12,15,17,17,19,20,25,30,30,30,35,38,42,45,48,
求第20百分位。
n=15,p=0.2
因有平手,故X(1)=12,X
(2)=15,X(3.5)=17,X(3.5)=17,X(5)=19,余此类推
p(n+1)=0.2×(15+1)=3.2
第20百分位即3.2位的数
X
(2)=15,X(3.5)=17
[(3.2-2)/(3.5-2)]×(17-15)=1.6
第20百分位=15.1.6=16.6
(三)离散程度—一般而言,资料愈集中,愈不具有分析价值,因当其被做为被解释项时,找不到可以产生引起重大变化的变量,因为结果都差不多;当其被做为解释项时,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计量 分析 讲义