书签分享收藏举报版权申诉 / 31

立即下载加入VIP,免费下载

当前位置：首页 > 解决方案 > 学习计划 > 社会医学4信度与效度.docx

社会医学4信度与效度.docx

文档编号：9481569
上传时间：2023-02-04
格式：DOCX
页数：31
大小：162.88KB

社会医学4信度与效度.docx

《社会医学4信度与效度.docx》由会员分享，可在线阅读，更多相关《社会医学4信度与效度.docx（31页珍藏版）》请在冰豆网上搜索。

社会医学4信度与效度.docx

社会医学4信度与效度

4信度与效度

4.1测量的基本观念

在专题研究中，测量（measurement）是相当重要的一个程序。

我们所建立的研究架构不论有多么严谨，所涉及的观念（变量）不论多么“面面俱到”，但是如果在测量上发生问题，则必然会前功尽弃，所有的努力也就付诸东流。

测量是将数字指派到一个观念（或变量）上。

例如，我们利用智商测验的分数结果指派到某人的智力水平上（智商测验的结果代表这个人的智力水平）。

测验（例如智商测验、托福测验）的建立叫做量表（scales），将在第5章讨论。

本章所要讨论的是：

测量的层次（levelofmeasurement）及测量工具的效度及信度。

各个“观念”在测量的简易度上是截然不同的。

如果一个观念可被直接观察，所有的受访者对它并不陌生，没有争论性，我们可以说它是相当容易被测量的。

例如，个人的身高、体重、年龄等。

其他的观念，例如信念、态度、集权、忠诚度等，就不易测量，因为这些观念不易被直接观察（虽然它们的效应可能容易被观察），而且是多元尺度的（multidimensional）。

这些观念在专题研究上非常重要，但是在测量上往往是“荆棘满布、困难重重”。

4.1.1定量与定性

测量是决定某一个特定的分析单位的值或水平的过程，这个值或水平可能是定性的（qualitative），也可能是定量的（quantitative）。

定性属性具有标记（label）或名字，而不是数字。

当我们以数字来测量某种属性时，这个属性称为定量属性（quantitativeattribute）。

例如，我们的肤色是定性的，而不是定量的。

其他还有许多定性变量（qualitativevariable），例如政党（民主党、共和党……）、宗教（伊斯兰教、道教、佛教……）。

1在观察研究中，定性变量用得相当广泛。

定性变量的类别可用标记来表示，也可以用数字来表示。

值得注意的是：

即使用数字表示，这些数字也不具有数学系统中的属性（例如加减乘除四则运算）。

例如“第一类组”、“第二类组”不能用来相加或相乘。

定性变量唯一可以做的数字运算就是计算每一类别的频率及百分比，例如计算金发少女的人数比例。

4.1.2构念与观念构念

构念（construct）是心智影像（mentalimages），也就是浮在脑海中的影像或构想（ideas）。

研究者常为了某些特定的研究或是要发展理论来“发明”一些构念。

构念是由若干个较为简单的观念所组成的。

构念与观念常易混淆。

我们现在举一个例子来说明它们的差别所在。

“组织规模”是一个构念，它包括了员工人数、资本额、营业额、部门数目、产品线总数等观念。

这些观念是相当具体、容易测量的。

再举一个例子来说明构念与观念。

一位产品手册的技术撰写员的工作规格（jobspecifications）包括了三个要素：

表达质量、语言能力及工作兴趣。

图4.1显示了这些构念中所包括的观念。

在图4.1的下方，所呈现的观念（格式正确、手稿错误、打字速度）是相当具体的、容易测量的。

例如，我们可以观察打字速度，即使用最粗糙的方式，我们也可以很容易地分辨打字速度的快慢。

打字速度就是“表达质量”这个构念的一个观念。

“表达质量”是一个不存在的实体（nonexistententity）。

它是一个标签，用来传递这三个观念所共同组成的意义。

图4.1中的另一个层次是由词汇、语法及拼字这三个观念所构成的“语言能力”构念。

“语言能力”这个构念的抽象程度比“表达质量”还高，因为词汇及语法较难观察，而且测量起来也更为复杂。

至于“工作兴趣”这个构念，我们还找不到有关的观念。

因为它最难观察，也最难测量。

它也许包括了许多相当抽象的观念。

研究者常称这种抽象构念为“假设式构念”（hypotheticalconstruct），因为相关的观念或数据还没有找到。

它只是被假设存在，尚待更多的验证。

如果有一天，研究者发现了相关的观念，而且支持其间的关联性（观念与构念间的关联性）的命题也成立，则研究者就可以建立一个支持这个构念的观念架构（conceptualscheme）。

图4.1构念与观念

观念

如果我们要传递某个对象或事件的讯息，必须有一个共同的基础（否则我说的是桃子，你想的是李子），这个共同的基础就是“观念”。

“观念”就是伴随着某特定的对象、事件、条件或情境的一系列意义（meaning）或特性（characteristics）。

“观念”产生的过程和我们如何获得知觉（perceptions）是一样的。

知觉是我们将所看到的、所听到的、所尝到的、所闻到的、所摸到的刺激（这些都称为是“信息输入”）加以选择、组织（organizing）、解释以产生某种意义（或赋予某一个标签）的过程。

换句话说，所谓知觉是指：

个人如何选择、组织及解释其感官印象（sensoryimpressions），并对于刺激到感官印象的环境事件赋予某种意义（或赋予某一个标签）的过程。

例如我们看到一个人在有规则的慢慢跑步，我们就会给这个动作赋予一个叫做“慢跑”的标记，这个标记表示了“慢跑”这个观念。

有些“观念”也许不可能直接地被观察，例如正义、友情等。

也有些“观念”有明显的、可以观察的某种指示物（referents），例如计算机、学校等。

有些“观念”是二分的（dichotomous，只有二个可能的值），例如性别（男性、女性）。

观念的来源

一般人常用的“观念”是随着时间的推移而发展出来的，其间包括了“互相共享”的情形。

我们从个人日常生活的经验中，也会获得许多观念。

不同的文化环境中有属于他们自己的独特观念，如果要移植到别的文化，可能不是一蹴可就的。

在企业研究所涉及的观念非常多，有时候我们会利用到其他学术领域的特殊观念或新观念。

例如在企业研究中，我们曾借用了心理学在学习论上的连结论（connectionism）、接近论（contiguity）、增强论（reinforcement）及符号格式塔论（sign-gestalt）等来研究组织学习（organizationallearning）；2亦曾引用了物理学的布朗运动（Brownmovement）来研究群体行为，引力论（gravitationtheory）来研究“为什么消费者会在某处购买”，借用距离的观念（conceptofdistance）来测量消费者之间在态度上的差异程度。

但是老是借用总不是办法。

作为一个企业研究者，我们必须：

（1）对于所借用的观念给予新的意义（如企业研究中的“模式”就是一例）；

（2）对于所借用的观念给予新的标记（如企业研究中的“地位压力”即是一例）。

在这种情形下，我们是在创造新的术语。

医学家、物理学家、信息学家及其他学术领域的研究者所使用的术语（观念），非外行人所能了解。

这些术语可以增加某一学术领域专家与专家之间的沟通效率。

“观念”对研究的重要性

“观念”是所有思想与沟通的基础，但是我们极少注意到它们是什么以及在使用上所碰到的问题。

大多数的研究缺点都源自于对“观念”的界定不清。

研究者在发展假说时，必须利用到“观念”；在搜集数据、测试假说时，必须要利用到测量的观念。

有时候我们还必须创造（发明）一些新的观念，来解释我们的研究及研究发现。

一个研究是否成功取决于：

（1）研究者对于“观念”的界定是否清楚；

（2）别人是否能理解研究中的“观念”。

例如我们在调查受测对象的“家庭总收入”时，如果不将此观念说明清楚，受测对象所提供的答案必然是“一个观念，各自表述”的。

要清楚地说明“家庭总收入”这个观念，我们至少必须界定：

（1）时间跨度（是一周？

一个月？

或者一年）；

（2）税前或税后；（3）家长的收入或全部家庭成员的收入；（4）薪资或工资，有无包括年终奖金、意外的收入、资本财产收入等。

使用“观念”时的问题

在企业研究中，我们在“观念”的使用上会遇到更多的困难。

原因之一在于：

人们对于同一个标记下的观念会产生不同的理解（赋予不同的意义）。

人们对于有些“观念”的了解大多是一致的，在研究的沟通上（例如以问卷填答）也不成问题。

这些观念包括：

红色、猫、椅子、员工、妻子等。

但是有些观念则不然，这些观念包括：

家计单位、零售交易、正常使用、重度使用者、消费等。

更具挑战性的是，有些观念看似熟悉，但却不易了解，例如领导力、激励、个性、社会阶层、家庭生命周期、官僚主义、独裁等。

在研究文献中，“个性”这个观念就有400多种定义。

3

以上列举的各个观念在抽象的程度上各有不同，在是否具有客观的参考物（objectivereferents）上也不一样。

“个人计算机”是一个客观的观念，因为它有客观的参考物（我们可以明确地指出什么是个人计算机）。

但是有些观念（如正义、友情、个性等）并没有客观的参考物，也很难加以可视化。

这些抽象的观念称为构念。

4.2测量程序

4.2.1测量的组成因素

测量所涉及的是依据一组法则，将数字（或标记）指派给某一个实证事件（empifica1event）。

实证事件是指某对象、个体或群体中可被观察的属性（如主管的性别、员工的工作满足）。

虽然测量工具有很多类型和种类，但其测量程序（measurementprocess）总是离不开以下的三个步骤（这三个步骤亦可称为是测量的组成因素）：

①观察实证事件；②利用数字（或标记）来表示这些事件（也就是决定测量的方式）；③利用一组映射规则（mappingrules）。

图4.2解释了实证事件、数字（或标记）及映射规则的情形。

实证事件

映射规则

数字（或标记）

主管的性别

如果是男性，则指派l

如果是女性，则指派0

1或0

图4.2测量程序（测量的组成因素）之例——主管的性别

4.2.2观念与操作性定义

通常研究的主体（或称实证事件），在观念层次上包含对象（objects）及观念（concepts）两个内容（例如“中产阶级的社会疏离感”就是实证事件，其对象部分为中产阶级，其观念部分为社会疏离感）。

“性别”这个观念并不复杂，但在专题研究上，有许多复杂的观念，例如社会疏离感、信念、认知偏差、种族偏见等皆是。

研究者将观念经过操作性定义（operationaldefinition）的处理之后，将更为方便地观察到（或调查到）代表着这个观念的各个次观念，研究者再以数字（或标记）指派到每一个次观念上（也就是决定测量的方式），以便进行统计上的分析。

一般而言，由操作性定义发展到测量工具是没有什么问题的。

在研究设计上，最难克服的问题在于将观念这个概念层次（conceptuallevel）的东西，转换成操作性定义这个实证层次（empiricallevel）的东西，而不失其正确性。

图4.3表示此二者之间的关系，由图中可知研究者所需了解的是测量和真实（原来的观念）之间的“同构”（isomorphic）的程度。

换句话说，研究者希望借由测量来探知真实的构形（configuration），以期对真实现象有更深（更正确）的了解。

同构程度愈高，及表示测量的效度愈高。

图4.3观念与测量的关系图

同样一个观念中可能包括了许多次观念，研究者在依据经验判断、逻辑推理或参考相关文献之后，可发展出一些操作性定义来涵盖这个次观念，希望对于原来的观念做更完整的探讨。

这些操作性定义可能是对的，也可能对了一部分，甚至有可能是错的，如图4.4所示。

图4.4观念与操作性定义的关系图

图4.4中操作性定义甲只触及了观念的边缘，定义乙则正确地掌握了原观念的部分内涵，而定义丙则为错误的操作性定义（它可能是探讨的其他不同的观念）。

例如某公司在工作绩效考评（这是一个观念）中，列有学历、完工件数及忠贞爱国等评分栏；就学历而言，高的学历并不表示高的工作绩效（这种情形类似定义甲）；完工件数则实际与工作绩效有密切的关系（类似定义乙）；而员工是否爱国，则与工作绩效无关（类似定义丙，其可能测试的是其他的观念）。

若要对真实观念有正确的了解，则需要更多正确的操作性定义，来共同描绘出真实的观念，以达到同构的要求（或者理想）。

4.3测量尺度

测量尺度（measurementscale）共有四种类别：

名义尺度（nominalscale）、次序尺度（ordinalscale）、区间尺度（intervalscale）以及比率尺度（ratioscale）。

4这四个尺度依序有“叠床架屋”的情况（也就是说后面的那个测量尺度包含有前面的那个的特性），再加上一些额外的特性。

值得一提的是，在SPSS的输出报表中将“尺度”称为“量数”，并将名义尺度与区间尺度通称为“量尺量数”（scale）。

4.3.1数据类型

我的球衣号码是1号，我考试得了第1名，我以前居住的波士顿冬天时的温度是摄氏1度，我在留学的时候1天的饭钱只花1美元。

以上的“1”虽然都是阿拉伯数字的“1”，但是它们的尺度或类型不同。

名义尺度

名义尺度是区分对象或事件的数字或标记。

也许最普遍的例子就是我们将性别变量中的男性指定为1，将女性指定为O。

当然我们也可以将男性指定为0，将女性指定为1；利用符号将男性指定为M，将女性指定为F；或径自分别以“男性”、“女性”来区分。

定性变量的类别只是分类的标记而已（在这里，即使是以数字来分类，也是标记），并不表示哪一个类别比较优秀，而且被分在同一类别的个体都是“对等的”（equivalent），例如被分在“0”这一组的男性都是对等的。

基本上，以名义尺度来测量的变量至少有两种类别，而且这些类别是独特的、互斥的以及尽举的（exhaustive）。

“尽举的”的意思是指：

对每一个个体而言，都有适当的类别。

“互斥的”的意思是指：

每一个个体都会符合某一个唯一的类别。

例如性别即是。

性别被称为是“自然的二分法”（naturaldichotomy）。

5

次序尺度

次序尺度很像名义尺度，因为它是互斥的、尽举的。

除此之外，次序尺度的类别并不必然具有同样的层级（例如，冠军、亚军就不具有同样的层级，而大专联考的第一类组、第二类组就具有同样的层级）。

我们经常会遇到相同的次序的问题（例如环球小姐选拔，二人同列第一）。

我们将某地区的足球比赛的成绩依其胜负场数加以记录如下（假设所有的队伍的比赛场数皆相同，而且没有和局）（表4.1）：

表4.110个队伍的胜负一览表

队伍

胜

负

A

4

6

B

6

4

C

8

2

D

10

O

E

O

10

F

5

G

8

2

H

4

6

I

9

1

J

4

6

基于比赛的结果记录，我们可排定以下的次序：

D、I、C、G、B、F、A、H、J、E。

同时，我们发现了平手的现象：

C与G平手，A、H与J平手。

通常我们将平手视为是相同的。

由于C与G的胜数次数相同，如果将之排为第三名与第四名，则不仅不公平，而且也隐藏了重要的信息。

如果我们将此两队都给第三名或第四名，则不甚恰当，因为在我们的次序测量系统（ordinalmeasuringsystem）中，每个等级只有一个。

第一名到第十名的总和是55（1+2+3+…+10），如果我们将此两队都给第三名或第四名，则总和会变成54或56。

由于我们要维持测量系统的整体一致性，故将平等的那个次序（3及4）加起来，再除以平手的数目（也就是2），而得到3.5。

同样的，A、H与J也是平手，因此它们的等级都是8，也就是（7+8+9）/3。

如果平手的数目是偶数，则等级就会出现小数，如果平手的数目是奇数，则等级就会出现整数。

等级是具有传递性的（及符合数学上的连结律），如果某个体在某个属性上的值的等级是r（例如身高第r名），则必优于另一个个体在此属性的等级是r+l者（例如身高第r+l名）。

同理，如果某个体在某个属性上的值的等级是r+l（例如身高第r+l名），则必优于另一个个体在此属性的等级是r+2者（例如身高第r+2名）。

因此我们可以说，r>r+l，同时r+l>r+2，则r>r+2。

但是我们不知道r值的原始评点大于r+l值的原始评点有多少，或者等级之间的原始评点的差距是否相同。

我们从下面五个人的身高次序的例子，便能了解得更为清楚（表4.2）：

表4.2五个人的身高次序

个体

身高次序

原始评点（身高）

备注

小张

1

185

小王

2

180

小李

3

179

可认为这个等级是r

小赵

4

170

可认为这个等级是r+l

小丁

5

164

可认为这个等级是r+2

注：

身高依高低次序排列，第1名为身高最高者。

区间尺度

以年龄为例，如果以名义尺度来处理，就是将它分成不同的年龄层；如果以次序尺度来处理，就是将个人依年龄的高低加以排序；如果我们以个体活在世间的年数来看，就是以区间尺度（intervalscale）来处理。

利用区间尺度，我们可以看出个体在某一属性（例如，年龄）上的差距，例如最年长者比次年长者多三岁。

在区间尺度上，每个差距是一样的，例如80岁和79岁所相差的一岁，与15岁和14岁所相差的一岁是一样的。

在区间尺度中，零点的位置并非固定的，而且测量单位也是任意的（arbitrary）。

区间尺度中最普遍的例子就是摄氏（Celsius，C）及华氏温度（Fahrenheit，F）。

同样的自然现象——水的沸点——在摄氏、华氏温度计上代表着不同的值（摄氏0度、华氏32度）。

在水银刻度上，摄氏20度及30度的差距，等于摄氏40度与50度的差距。

不同尺度的温度可以用F=32+（9/5）C这个公式加以转换。

比率尺度

如果代表某个个体属性的值是区间尺度的话，我们就可以将这些值做加减运算；如果代表某个个体属性的值是比率尺度（ratioscale）的话，我们就可以将这些值做乘除运算。

因此，比率尺度具有绝对的、固定的、非任意的（nonarbitrary）零点。

我们曾以年龄来说明区间尺度，事实上，年龄超过了区间尺度的规定，因为它有绝对的零点（零点是非任意的，而且也没有负值）。

是否具有“非任意的零点”是比率尺度与区间尺度唯一的差别所在——比率尺度具有非任意的零点，而区间尺度不具有非任意的零点（也就是零点的位置并非固定的）。

“体重”具有非任意的零点，而且没有负值，所以是比率尺度。

如果某个体的属性以非任意的零点为参考点，而且测量的单位是固定的话，我们就可以对这个属性的值做乘除的运算。

例如，20岁是10岁的“二倍老”，15岁是30岁的“一半年轻”。

要看一个尺度是否为比率尺度（也就是零点是否为绝对的），最有效的方法就是看看“零是否可测量‘没有’的情况”，而且是否有负值（比率尺度没有负值），例如“零缺点”表示“没有缺点”，而负缺点则从来未曾被界定过，因此缺点数是比率尺度。

同理可判断，家庭人口数、体重、身高等都是比率尺度。

如果一个人不存在，则他的体重就是零，但从来没有体重为负数者。

我们可将上述的四种尺度汇总说明（表4.3）：

表4.3四种尺度的汇总说明

尺度类型

尺度的特性

基本的实证操作

名义

没有次序、距离或原点

平等性的决定

次序

有次序，但没有距离或独特的原点

大于或小于的决定

区间

有次序、距离，但没有独特的原点

区间或差异的平等性的决定

比率

有次序、距离及独特的原点

比率的平等性的决定

来源:

DonMdR.CooperandC.PamelaSchindler,BusinessResearchMethod（NewYork,NY:

McGraw-HillCompanies,Inc．,2003）,p．224.

离散或连续。

离散（又称间断）的测量尺度（discretemeasurement）并没有小数，而连续的测量尺度（continuousmeasurement）则有。

例如家庭人口数是离散的，而年龄是连续的（如48.5岁）。

要分辨一个变量是离散的还是连续的，最简单的方法就是看它是用“算有几个的”还是用测量的。

6换句话说，离散变量具有某一特定的值，而连续变量具有无限的值。

一般而言，离散变量的值是一个整数接着一个整数，而连续变量的值与值之间会有很多潜在的值。

从观察研究中所搜集到的数据大多数是名义的或定性的，离散的。

定量数据可以是离散的，也可以是连续的。

次序尺度通常是离散的，虽然它常被视为在测量某个连续带上的东西。

区间及比率尺度可以是离散的（例如，家庭人口数），也可以是连续的（例如，年龄、身高）。

4.4良好测量工具的特性

4.4.1信度及效度的意义

信度（reliability）、效度（validity）及实用性（practicality）是任何测量工具不可或缺的条件。

企业对应征人员的口试是否能有效地判定应征者的工作潜力，是一个相当具有争辩性的议题。

此问题的症结所在并不在于口试的存废，而在于测量工具（口试）本身的有效性。

信度指的是测量结果的一致性（consistency）或稳定性（stability），也就是研究者对于相同的或相似的现象（或群体）进行不同的测量（不同形式的或不同时间的），其所得的结果一致的程度。

任何测量的观测值包括了实际值与误差值两部分，而信度愈高表示其误差值愈低，如此则所得的观测值就不会因形式或时间的改变而变动，故有相当的稳定性。

所谓效度包含两个条件，第一个条件是，该测量工具确实是在测量其所要探讨的观念，而非其他观念（例如，测量“智能”的工具，就是测量“智力”，而不是测量忠诚、信念等其他观念）；第二个条件是，能正确地测量出该观念（例如，智商是100的人，通过测量工具所测得的智商就是100）。

第一个条件是获得效度的必要条件，但非充分条件。

显然获得第一个条件比获得第二个条件来得重要。

例如我们要测量小华的智力（intelligence），因此我们就用智商测验这个测量工具来测验小华，得到智商分数是90分，但实际上小华的智商是100。

这个测量工具虽然不正确（不准），但至少它所测的观念（亦即智力）是正确的。

如果我们能改善这个智商测验，那么它就会变得更为有效。

但是如果我们用其他的测量工具来测小华的智商，而得到的分数是100，我们就不能说这个测量工具有效，因为这个测量工具根本不是在测量智力（也许是在测量其他的观念，或者根本没有测量任何观念）。

效度是测量的首要条件，信度是效度不可或缺的辅助品。

换句话说，信度是效度的必要条件，而非充分条件。

一个测验如无信度，则无效度，但有信度，未必有效度。

实用性是指测量工具的经济性、方便性及可解释性（interpretability）。

4.4.2信度及效度的图解说明

如前所述，效度所涉及的是正确性的问题，信度所涉及的是“与现象或个体的改变（或不变）保持一致”的问题。

我们现在用图解的方式来说明信度与效度。

假设我用来复枪来练靶。

如图4.5所示。

在甲的情况中，我们看到所有的弹痕散布在靶上的各处，几乎没有一致性。

在测量工具的术语中，我们会认为这个测量工具不可靠。

既然这个测量工具不值得信赖，那还有什么正确性（效度）可言？

所以除非测量工具有信度，否则不可能有效度。

图4.5信度及效度的图例

来源：

DuaneDavisandRobertM.Cosenza,BusinessResearchforDecisionMaking,3rded.（Belmont,CA.:

WadsworthPublishingCompany,1993）,p.174.

在乙的情况中，弹痕很集中，但是远离红心。

用测量工具的术语来说，它很有信度，但是没有效度。

换句话说，这个测量工具在一致地测量别的东西，而不是我们想要测量的观念。

这个现象告诉我们：

可能测量工具有信度，但不见得有效度。

丙的情况就是兼具信度及效度的情形。

4.5信度测量

如前所述，信度是一致性的问题。

如果我们用某一个测量工具来测量某一个观念，而个体在这个观念（属性）上的值一直不变的话，所测

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 社会医学信度

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：社会医学4信度与效度.docx
链接地址：https://www.bdocx.com/doc/9481569.html

社会医学4信度与效度.docx

热门标签