社会医学4信度与效度.docx
- 文档编号:9481569
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:31
- 大小:162.88KB
社会医学4信度与效度.docx
《社会医学4信度与效度.docx》由会员分享,可在线阅读,更多相关《社会医学4信度与效度.docx(31页珍藏版)》请在冰豆网上搜索。
社会医学4信度与效度
4信度与效度
4.1测量的基本观念
在专题研究中,测量(measurement)是相当重要的一个程序。
我们所建立的研究架构不论有多么严谨,所涉及的观念(变量)不论多么“面面俱到”,但是如果在测量上发生问题,则必然会前功尽弃,所有的努力也就付诸东流。
测量是将数字指派到一个观念(或变量)上。
例如,我们利用智商测验的分数结果指派到某人的智力水平上(智商测验的结果代表这个人的智力水平)。
测验(例如智商测验、托福测验)的建立叫做量表(scales),将在第5章讨论。
本章所要讨论的是:
测量的层次(levelofmeasurement)及测量工具的效度及信度。
各个“观念”在测量的简易度上是截然不同的。
如果一个观念可被直接观察,所有的受访者对它并不陌生,没有争论性,我们可以说它是相当容易被测量的。
例如,个人的身高、体重、年龄等。
其他的观念,例如信念、态度、集权、忠诚度等,就不易测量,因为这些观念不易被直接观察(虽然它们的效应可能容易被观察),而且是多元尺度的(multidimensional)。
这些观念在专题研究上非常重要,但是在测量上往往是“荆棘满布、困难重重”。
4.1.1定量与定性
测量是决定某一个特定的分析单位的值或水平的过程,这个值或水平可能是定性的(qualitative),也可能是定量的(quantitative)。
定性属性具有标记(label)或名字,而不是数字。
当我们以数字来测量某种属性时,这个属性称为定量属性(quantitativeattribute)。
例如,我们的肤色是定性的,而不是定量的。
其他还有许多定性变量(qualitativevariable),例如政党(民主党、共和党……)、宗教(伊斯兰教、道教、佛教……)。
1在观察研究中,定性变量用得相当广泛。
定性变量的类别可用标记来表示,也可以用数字来表示。
值得注意的是:
即使用数字表示,这些数字也不具有数学系统中的属性(例如加减乘除四则运算)。
例如“第一类组”、“第二类组”不能用来相加或相乘。
定性变量唯一可以做的数字运算就是计算每一类别的频率及百分比,例如计算金发少女的人数比例。
4.1.2构念与观念构念
构念(construct)是心智影像(mentalimages),也就是浮在脑海中的影像或构想(ideas)。
研究者常为了某些特定的研究或是要发展理论来“发明”一些构念。
构念是由若干个较为简单的观念所组成的。
构念与观念常易混淆。
我们现在举一个例子来说明它们的差别所在。
“组织规模”是一个构念,它包括了员工人数、资本额、营业额、部门数目、产品线总数等观念。
这些观念是相当具体、容易测量的。
再举一个例子来说明构念与观念。
一位产品手册的技术撰写员的工作规格(jobspecifications)包括了三个要素:
表达质量、语言能力及工作兴趣。
图4.1显示了这些构念中所包括的观念。
在图4.1的下方,所呈现的观念(格式正确、手稿错误、打字速度)是相当具体的、容易测量的。
例如,我们可以观察打字速度,即使用最粗糙的方式,我们也可以很容易地分辨打字速度的快慢。
打字速度就是“表达质量”这个构念的一个观念。
“表达质量”是一个不存在的实体(nonexistententity)。
它是一个标签,用来传递这三个观念所共同组成的意义。
图4.1中的另一个层次是由词汇、语法及拼字这三个观念所构成的“语言能力”构念。
“语言能力”这个构念的抽象程度比“表达质量”还高,因为词汇及语法较难观察,而且测量起来也更为复杂。
至于“工作兴趣”这个构念,我们还找不到有关的观念。
因为它最难观察,也最难测量。
它也许包括了许多相当抽象的观念。
研究者常称这种抽象构念为“假设式构念”(hypotheticalconstruct),因为相关的观念或数据还没有找到。
它只是被假设存在,尚待更多的验证。
如果有一天,研究者发现了相关的观念,而且支持其间的关联性(观念与构念间的关联性)的命题也成立,则研究者就可以建立一个支持这个构念的观念架构(conceptualscheme)。
图4.1构念与观念
观念
如果我们要传递某个对象或事件的讯息,必须有一个共同的基础(否则我说的是桃子,你想的是李子),这个共同的基础就是“观念”。
“观念”就是伴随着某特定的对象、事件、条件或情境的一系列意义(meaning)或特性(characteristics)。
“观念”产生的过程和我们如何获得知觉(perceptions)是一样的。
知觉是我们将所看到的、所听到的、所尝到的、所闻到的、所摸到的刺激(这些都称为是“信息输入”)加以选择、组织(organizing)、解释以产生某种意义(或赋予某一个标签)的过程。
换句话说,所谓知觉是指:
个人如何选择、组织及解释其感官印象(sensoryimpressions),并对于刺激到感官印象的环境事件赋予某种意义(或赋予某一个标签)的过程。
例如我们看到一个人在有规则的慢慢跑步,我们就会给这个动作赋予一个叫做“慢跑”的标记,这个标记表示了“慢跑”这个观念。
有些“观念”也许不可能直接地被观察,例如正义、友情等。
也有些“观念”有明显的、可以观察的某种指示物(referents),例如计算机、学校等。
有些“观念”是二分的(dichotomous,只有二个可能的值),例如性别(男性、女性)。
观念的来源
一般人常用的“观念”是随着时间的推移而发展出来的,其间包括了“互相共享”的情形。
我们从个人日常生活的经验中,也会获得许多观念。
不同的文化环境中有属于他们自己的独特观念,如果要移植到别的文化,可能不是一蹴可就的。
在企业研究所涉及的观念非常多,有时候我们会利用到其他学术领域的特殊观念或新观念。
例如在企业研究中,我们曾借用了心理学在学习论上的连结论(connectionism)、接近论(contiguity)、增强论(reinforcement)及符号格式塔论(sign-gestalt)等来研究组织学习(organizationallearning);2亦曾引用了物理学的布朗运动(Brownmovement)来研究群体行为,引力论(gravitationtheory)来研究“为什么消费者会在某处购买”,借用距离的观念(conceptofdistance)来测量消费者之间在态度上的差异程度。
但是老是借用总不是办法。
作为一个企业研究者,我们必须:
(1)对于所借用的观念给予新的意义(如企业研究中的“模式”就是一例);
(2)对于所借用的观念给予新的标记(如企业研究中的“地位压力”即是一例)。
在这种情形下,我们是在创造新的术语。
医学家、物理学家、信息学家及其他学术领域的研究者所使用的术语(观念),非外行人所能了解。
这些术语可以增加某一学术领域专家与专家之间的沟通效率。
“观念”对研究的重要性
“观念”是所有思想与沟通的基础,但是我们极少注意到它们是什么以及在使用上所碰到的问题。
大多数的研究缺点都源自于对“观念”的界定不清。
研究者在发展假说时,必须利用到“观念”;在搜集数据、测试假说时,必须要利用到测量的观念。
有时候我们还必须创造(发明)一些新的观念,来解释我们的研究及研究发现。
一个研究是否成功取决于:
(1)研究者对于“观念”的界定是否清楚;
(2)别人是否能理解研究中的“观念”。
例如我们在调查受测对象的“家庭总收入”时,如果不将此观念说明清楚,受测对象所提供的答案必然是“一个观念,各自表述”的。
要清楚地说明“家庭总收入”这个观念,我们至少必须界定:
(1)时间跨度(是一周?
一个月?
或者一年);
(2)税前或税后;(3)家长的收入或全部家庭成员的收入;(4)薪资或工资,有无包括年终奖金、意外的收入、资本财产收入等。
使用“观念”时的问题
在企业研究中,我们在“观念”的使用上会遇到更多的困难。
原因之一在于:
人们对于同一个标记下的观念会产生不同的理解(赋予不同的意义)。
人们对于有些“观念”的了解大多是一致的,在研究的沟通上(例如以问卷填答)也不成问题。
这些观念包括:
红色、猫、椅子、员工、妻子等。
但是有些观念则不然,这些观念包括:
家计单位、零售交易、正常使用、重度使用者、消费等。
更具挑战性的是,有些观念看似熟悉,但却不易了解,例如领导力、激励、个性、社会阶层、家庭生命周期、官僚主义、独裁等。
在研究文献中,“个性”这个观念就有400多种定义。
3
以上列举的各个观念在抽象的程度上各有不同,在是否具有客观的参考物(objectivereferents)上也不一样。
“个人计算机”是一个客观的观念,因为它有客观的参考物(我们可以明确地指出什么是个人计算机)。
但是有些观念(如正义、友情、个性等)并没有客观的参考物,也很难加以可视化。
这些抽象的观念称为构念。
4.2测量程序
4.2.1测量的组成因素
测量所涉及的是依据一组法则,将数字(或标记)指派给某一个实证事件(empifica1event)。
实证事件是指某对象、个体或群体中可被观察的属性(如主管的性别、员工的工作满足)。
虽然测量工具有很多类型和种类,但其测量程序(measurementprocess)总是离不开以下的三个步骤(这三个步骤亦可称为是测量的组成因素):
①观察实证事件;②利用数字(或标记)来表示这些事件(也就是决定测量的方式);③利用一组映射规则(mappingrules)。
图4.2解释了实证事件、数字(或标记)及映射规则的情形。
实证事件
映射规则
数字(或标记)
主管的性别
如果是男性,则指派l
如果是女性,则指派0
1或0
图4.2测量程序(测量的组成因素)之例——主管的性别
4.2.2观念与操作性定义
通常研究的主体(或称实证事件),在观念层次上包含对象(objects)及观念(concepts)两个内容(例如“中产阶级的社会疏离感”就是实证事件,其对象部分为中产阶级,其观念部分为社会疏离感)。
“性别”这个观念并不复杂,但在专题研究上,有许多复杂的观念,例如社会疏离感、信念、认知偏差、种族偏见等皆是。
研究者将观念经过操作性定义(operationaldefinition)的处理之后,将更为方便地观察到(或调查到)代表着这个观念的各个次观念,研究者再以数字(或标记)指派到每一个次观念上(也就是决定测量的方式),以便进行统计上的分析。
一般而言,由操作性定义发展到测量工具是没有什么问题的。
在研究设计上,最难克服的问题在于将观念这个概念层次(conceptuallevel)的东西,转换成操作性定义这个实证层次(empiricallevel)的东西,而不失其正确性。
图4.3表示此二者之间的关系,由图中可知研究者所需了解的是测量和真实(原来的观念)之间的“同构”(isomorphic)的程度。
换句话说,研究者希望借由测量来探知真实的构形(configuration),以期对真实现象有更深(更正确)的了解。
同构程度愈高,及表示测量的效度愈高。
图4.3观念与测量的关系图
同样一个观念中可能包括了许多次观念,研究者在依据经验判断、逻辑推理或参考相关文献之后,可发展出一些操作性定义来涵盖这个次观念,希望对于原来的观念做更完整的探讨。
这些操作性定义可能是对的,也可能对了一部分,甚至有可能是错的,如图4.4所示。
图4.4观念与操作性定义的关系图
图4.4中操作性定义甲只触及了观念的边缘,定义乙则正确地掌握了原观念的部分内涵,而定义丙则为错误的操作性定义(它可能是探讨的其他不同的观念)。
例如某公司在工作绩效考评(这是一个观念)中,列有学历、完工件数及忠贞爱国等评分栏;就学历而言,高的学历并不表示高的工作绩效(这种情形类似定义甲);完工件数则实际与工作绩效有密切的关系(类似定义乙);而员工是否爱国,则与工作绩效无关(类似定义丙,其可能测试的是其他的观念)。
若要对真实观念有正确的了解,则需要更多正确的操作性定义,来共同描绘出真实的观念,以达到同构的要求(或者理想)。
4.3测量尺度
测量尺度(measurementscale)共有四种类别:
名义尺度(nominalscale)、次序尺度(ordinalscale)、区间尺度(intervalscale)以及比率尺度(ratioscale)。
4这四个尺度依序有“叠床架屋”的情况(也就是说后面的那个测量尺度包含有前面的那个的特性),再加上一些额外的特性。
值得一提的是,在SPSS的输出报表中将“尺度”称为“量数”,并将名义尺度与区间尺度通称为“量尺量数”(scale)。
4.3.1数据类型
我的球衣号码是1号,我考试得了第1名,我以前居住的波士顿冬天时的温度是摄氏1度,我在留学的时候1天的饭钱只花1美元。
以上的“1”虽然都是阿拉伯数字的“1”,但是它们的尺度或类型不同。
名义尺度
名义尺度是区分对象或事件的数字或标记。
也许最普遍的例子就是我们将性别变量中的男性指定为1,将女性指定为O。
当然我们也可以将男性指定为0,将女性指定为1;利用符号将男性指定为M,将女性指定为F;或径自分别以“男性”、“女性”来区分。
定性变量的类别只是分类的标记而已(在这里,即使是以数字来分类,也是标记),并不表示哪一个类别比较优秀,而且被分在同一类别的个体都是“对等的”(equivalent),例如被分在“0”这一组的男性都是对等的。
基本上,以名义尺度来测量的变量至少有两种类别,而且这些类别是独特的、互斥的以及尽举的(exhaustive)。
“尽举的”的意思是指:
对每一个个体而言,都有适当的类别。
“互斥的”的意思是指:
每一个个体都会符合某一个唯一的类别。
例如性别即是。
性别被称为是“自然的二分法”(naturaldichotomy)。
5
次序尺度
次序尺度很像名义尺度,因为它是互斥的、尽举的。
除此之外,次序尺度的类别并不必然具有同样的层级(例如,冠军、亚军就不具有同样的层级,而大专联考的第一类组、第二类组就具有同样的层级)。
我们经常会遇到相同的次序的问题(例如环球小姐选拔,二人同列第一)。
我们将某地区的足球比赛的成绩依其胜负场数加以记录如下(假设所有的队伍的比赛场数皆相同,而且没有和局)(表4.1):
表4.110个队伍的胜负一览表
队伍
胜
负
A
4
6
B
6
4
C
8
2
D
10
O
E
O
10
F
5
5
G
8
2
H
4
6
I
9
1
J
4
6
基于比赛的结果记录,我们可排定以下的次序:
D、I、C、G、B、F、A、H、J、E。
同时,我们发现了平手的现象:
C与G平手,A、H与J平手。
通常我们将平手视为是相同的。
由于C与G的胜数次数相同,如果将之排为第三名与第四名,则不仅不公平,而且也隐藏了重要的信息。
如果我们将此两队都给第三名或第四名,则不甚恰当,因为在我们的次序测量系统(ordinalmeasuringsystem)中,每个等级只有一个。
第一名到第十名的总和是55(1+2+3+…+10),如果我们将此两队都给第三名或第四名,则总和会变成54或56。
由于我们要维持测量系统的整体一致性,故将平等的那个次序(3及4)加起来,再除以平手的数目(也就是2),而得到3.5。
同样的,A、H与J也是平手,因此它们的等级都是8,也就是(7+8+9)/3。
如果平手的数目是偶数,则等级就会出现小数,如果平手的数目是奇数,则等级就会出现整数。
等级是具有传递性的(及符合数学上的连结律),如果某个体在某个属性上的值的等级是r(例如身高第r名),则必优于另一个个体在此属性的等级是r+l者(例如身高第r+l名)。
同理,如果某个体在某个属性上的值的等级是r+l(例如身高第r+l名),则必优于另一个个体在此属性的等级是r+2者(例如身高第r+2名)。
因此我们可以说,r>r+l,同时r+l>r+2,则r>r+2。
但是我们不知道r值的原始评点大于r+l值的原始评点有多少,或者等级之间的原始评点的差距是否相同。
我们从下面五个人的身高次序的例子,便能了解得更为清楚(表4.2):
表4.2五个人的身高次序
个体
身高次序
原始评点(身高)
备注
小张
1
185
小王
2
180
小李
3
179
可认为这个等级是r
小赵
4
170
可认为这个等级是r+l
小丁
5
164
可认为这个等级是r+2
注:
身高依高低次序排列,第1名为身高最高者。
区间尺度
以年龄为例,如果以名义尺度来处理,就是将它分成不同的年龄层;如果以次序尺度来处理,就是将个人依年龄的高低加以排序;如果我们以个体活在世间的年数来看,就是以区间尺度(intervalscale)来处理。
利用区间尺度,我们可以看出个体在某一属性(例如,年龄)上的差距,例如最年长者比次年长者多三岁。
在区间尺度上,每个差距是一样的,例如80岁和79岁所相差的一岁,与15岁和14岁所相差的一岁是一样的。
在区间尺度中,零点的位置并非固定的,而且测量单位也是任意的(arbitrary)。
区间尺度中最普遍的例子就是摄氏(Celsius,C)及华氏温度(Fahrenheit,F)。
同样的自然现象——水的沸点——在摄氏、华氏温度计上代表着不同的值(摄氏0度、华氏32度)。
在水银刻度上,摄氏20度及30度的差距,等于摄氏40度与50度的差距。
不同尺度的温度可以用F=32+(9/5)C这个公式加以转换。
比率尺度
如果代表某个个体属性的值是区间尺度的话,我们就可以将这些值做加减运算;如果代表某个个体属性的值是比率尺度(ratioscale)的话,我们就可以将这些值做乘除运算。
因此,比率尺度具有绝对的、固定的、非任意的(nonarbitrary)零点。
我们曾以年龄来说明区间尺度,事实上,年龄超过了区间尺度的规定,因为它有绝对的零点(零点是非任意的,而且也没有负值)。
是否具有“非任意的零点”是比率尺度与区间尺度唯一的差别所在——比率尺度具有非任意的零点,而区间尺度不具有非任意的零点(也就是零点的位置并非固定的)。
“体重”具有非任意的零点,而且没有负值,所以是比率尺度。
如果某个体的属性以非任意的零点为参考点,而且测量的单位是固定的话,我们就可以对这个属性的值做乘除的运算。
例如,20岁是10岁的“二倍老”,15岁是30岁的“一半年轻”。
要看一个尺度是否为比率尺度(也就是零点是否为绝对的),最有效的方法就是看看“零是否可测量‘没有’的情况”,而且是否有负值(比率尺度没有负值),例如“零缺点”表示“没有缺点”,而负缺点则从来未曾被界定过,因此缺点数是比率尺度。
同理可判断,家庭人口数、体重、身高等都是比率尺度。
如果一个人不存在,则他的体重就是零,但从来没有体重为负数者。
我们可将上述的四种尺度汇总说明(表4.3):
表4.3四种尺度的汇总说明
尺度类型
尺度的特性
基本的实证操作
名义
没有次序、距离或原点
平等性的决定
次序
有次序,但没有距离或独特的原点
大于或小于的决定
区间
有次序、距离,但没有独特的原点
区间或差异的平等性的决定
比率
有次序、距离及独特的原点
比率的平等性的决定
来源:
DonMdR.CooperandC.PamelaSchindler,BusinessResearchMethod(NewYork,NY:
McGraw-HillCompanies,Inc.,2003),p.224.
离散或连续。
离散(又称间断)的测量尺度(discretemeasurement)并没有小数,而连续的测量尺度(continuousmeasurement)则有。
例如家庭人口数是离散的,而年龄是连续的(如48.5岁)。
要分辨一个变量是离散的还是连续的,最简单的方法就是看它是用“算有几个的”还是用测量的。
6换句话说,离散变量具有某一特定的值,而连续变量具有无限的值。
一般而言,离散变量的值是一个整数接着一个整数,而连续变量的值与值之间会有很多潜在的值。
从观察研究中所搜集到的数据大多数是名义的或定性的,离散的。
定量数据可以是离散的,也可以是连续的。
次序尺度通常是离散的,虽然它常被视为在测量某个连续带上的东西。
区间及比率尺度可以是离散的(例如,家庭人口数),也可以是连续的(例如,年龄、身高)。
4.4良好测量工具的特性
4.4.1信度及效度的意义
信度(reliability)、效度(validity)及实用性(practicality)是任何测量工具不可或缺的条件。
企业对应征人员的口试是否能有效地判定应征者的工作潜力,是一个相当具有争辩性的议题。
此问题的症结所在并不在于口试的存废,而在于测量工具(口试)本身的有效性。
信度指的是测量结果的一致性(consistency)或稳定性(stability),也就是研究者对于相同的或相似的现象(或群体)进行不同的测量(不同形式的或不同时间的),其所得的结果一致的程度。
任何测量的观测值包括了实际值与误差值两部分,而信度愈高表示其误差值愈低,如此则所得的观测值就不会因形式或时间的改变而变动,故有相当的稳定性。
所谓效度包含两个条件,第一个条件是,该测量工具确实是在测量其所要探讨的观念,而非其他观念(例如,测量“智能”的工具,就是测量“智力”,而不是测量忠诚、信念等其他观念);第二个条件是,能正确地测量出该观念(例如,智商是100的人,通过测量工具所测得的智商就是100)。
第一个条件是获得效度的必要条件,但非充分条件。
显然获得第一个条件比获得第二个条件来得重要。
例如我们要测量小华的智力(intelligence),因此我们就用智商测验这个测量工具来测验小华,得到智商分数是90分,但实际上小华的智商是100。
这个测量工具虽然不正确(不准),但至少它所测的观念(亦即智力)是正确的。
如果我们能改善这个智商测验,那么它就会变得更为有效。
但是如果我们用其他的测量工具来测小华的智商,而得到的分数是100,我们就不能说这个测量工具有效,因为这个测量工具根本不是在测量智力(也许是在测量其他的观念,或者根本没有测量任何观念)。
效度是测量的首要条件,信度是效度不可或缺的辅助品。
换句话说,信度是效度的必要条件,而非充分条件。
一个测验如无信度,则无效度,但有信度,未必有效度。
实用性是指测量工具的经济性、方便性及可解释性(interpretability)。
4.4.2信度及效度的图解说明
如前所述,效度所涉及的是正确性的问题,信度所涉及的是“与现象或个体的改变(或不变)保持一致”的问题。
我们现在用图解的方式来说明信度与效度。
假设我用来复枪来练靶。
如图4.5所示。
在甲的情况中,我们看到所有的弹痕散布在靶上的各处,几乎没有一致性。
在测量工具的术语中,我们会认为这个测量工具不可靠。
既然这个测量工具不值得信赖,那还有什么正确性(效度)可言?
所以除非测量工具有信度,否则不可能有效度。
图4.5信度及效度的图例
来源:
DuaneDavisandRobertM.Cosenza,BusinessResearchforDecisionMaking,3rded.(Belmont,CA.:
WadsworthPublishingCompany,1993),p.174.
在乙的情况中,弹痕很集中,但是远离红心。
用测量工具的术语来说,它很有信度,但是没有效度。
换句话说,这个测量工具在一致地测量别的东西,而不是我们想要测量的观念。
这个现象告诉我们:
可能测量工具有信度,但不见得有效度。
丙的情况就是兼具信度及效度的情形。
4.5信度测量
如前所述,信度是一致性的问题。
如果我们用某一个测量工具来测量某一个观念,而个体在这个观念(属性)上的值一直不变的话,所测
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 社会 医学 信度