9 测验分数的解释.docx
- 文档编号:11515850
- 上传时间:2023-03-02
- 格式:DOCX
- 页数:24
- 大小:29.86KB
9 测验分数的解释.docx
《9 测验分数的解释.docx》由会员分享,可在线阅读,更多相关《9 测验分数的解释.docx(24页珍藏版)》请在冰豆网上搜索。
9测验分数的解释
幻灯片1
第九讲
测验分数的解释
幻灯片2
本章主要内容:
9.1参照常模的分数
9.2参照标准的分数
9.3测验分数的解释
幻灯片3
●从测验中直接获得的分数,称为原始分数,它是通过将被试的反应与标准答案相比较而获得的。
原始分数本身并不具有多大的意义,必须与一定的参照体系作比较,才能显示其意义。
●例:
语文85分,游泳第3名。
●确定原始分数意义的参照体系有两类:
●⑴其他被试的分数,即其他被试在所测特质上的一般水平。
●⑵社会在所测特质上的客观要求,即被试在所测特质上发展应该达到的标准。
幻灯片4
●第一种称为参照常模的分数解释。
参照常模的分数解释方法是将被试的分数和常模团体测验分数进行比较来解释的,并且主要以个人在常模团体中所处的相对位置来说明。
●第二种是参照标准的分数解释。
参照标准的分数解释方法是用被试测验分数与应有的标准作比较来确定被试测验分数的意义。
凡达到要求的标准,就是“合格”或“达标”;未达到要求的标准,就是“不合格”或“未达标”,它全然不管其他被试在同一测验上的分数如何。
幻灯片5
9.1参照常模的分数
●参照常模的分数解释是把被试的测验分数与具有某种特征的人所组成的有关团体的一般水平作比较,以确定被试在该团体内的相对位置。
●用来比较的参照团体称常模团体(normgroup),常模团体的分数分布叫常模,它是我们解释测验分数的基础。
●9.1.1常模团体的性质
●9.1.2确定常模团体的注意事项
●9.1.3常模
幻灯片6
9.1.1常模团体的性质
●常模团体是由具有某种共同特征的人所组成的一个群体,或是该群体的一个样本。
●从测验的编制者来说,确定常模团体的问题就是确定所编制的测验将来用于什么总体。
所选定的常模团体必须能够代表该总体。
●例如,测验是用来评价高中毕业生的学业成就,则常模团体应包括全体高中毕业生,或是能足够代表该总体的一个样本,由于大部分的测验要用于各种不同团体,所以大部分测验都有不止一个常模团体。
幻灯片7
●如,瑞文标准推理测验,常模团体就有儿童,成人、城市、农村等多个。
●对测验的使用者,要从不同角度来选定常模。
首先要考虑的问题是现有的常模团体哪一个最适合?
因为标准化测验通常提供许多原始分数与各种常模团体的比较转换表,被试的分数必须与最合适的常模比较。
幻灯片8
●无论是测验编制者还是测验使用者,常模团体通常包括具有同样年龄或教育水平的人,当然,在一些特殊情况下,还有许多方面也可用来定义常模团体,如性别、年龄,年级或教育水平、职业、社会经济地位、民族等。
幻灯片9
9.1.2确定常模团体的注意事项
●常模团体的界限必须明确
●在确定常模团体时,必须清楚地说明所要测量的群体的性质与特征。
虽然有关常模团体的一般规定取决于测验的目的与使用,且可能有多个常模团体,但对每个常模团体的性质和特征必须有一个简短而明确的描述。
若群体过大,群体内部也许有许多小团体,它们在一个测验上的表现也时常有差异,假如这种差异较为显著,就必须对每个小团体分别建立常模。
幻灯片10
●例如,在机械能力倾向测验上,男性通常比女性做得好些,因此这类测验通常分别提供男性、女性的常模。
身高体重
幻灯片11
●常模团体的取样要有代表性
●当所要测量的群体较小时,将所有的被试逐个测量以得到常模。
在群体较大时,只能测量一部分被试作为群体的代表。
此时就存在取样是否具有代表性的问题。
根据随机化原则抽样能确保样本具有代表性。
关于具体抽样方法,可参阅有关统计学书中的抽样推断部分。
幻灯片12
●取样过程应详尽描述
●取样的过程必须明确且有详尽的描述。
这主要是为了使测验的使用者不至于误用测验和错误地解释测验结果。
所以在一般的测验手册中,都有相当的篇幅详细介绍常模团体的大小、取样策略、取样时间以及其他有关情况,这些说明和描述越明确,越详尽越好。
●样本的大小要适当
●所谓“大小适当”并没有明确的指标,根据统计学原理,取样误差与样本大小成反比。
幻灯片13
●在其他条件相同时,样本越大越好,但还应考虑到人力、物力等方面的因素,通常在决定样本大小时,应注意:
●
(1)总体的数目。
总体数目小,样本相应可小一些。
若总体过小,则可将全部被试入选;当总体较大时,相应的样本也大。
一般最低不小于30或100。
全国性常模,一般应有2000-3000人。
●
(2)群体的性质。
如果群体性质单一,则样本不必太大,就可以反映群体性质;若群体性质复杂,则样本容量就应大一些。
幻灯片14
●(3)测验结果的精确度。
根据统计学原理,抽样误差的大小与样本容量成反比,若要提高精确度,减少抽样误差,就必须加大样本容量(n)。
●常模必须是近时的
●建立的常模必须是近时的。
过时的常模是不能作为参照标准的。
例如对瑞文智力测验来说,几年以前所修订的常模对现今可能就不再适用,否则所得智商将产生偏高的趋势。
常模必须定期修订。
幻灯片15
●一般常模与特殊常模的结合
●测验手册上的常模通常为一般常模,它的适用范围比较广,有时对于某些特殊的群体不一定完全适用。
因此,测验有时须有特殊常模。
将特殊常模与一般常模结合起来,可使被试与最接近的群体进行比较。
因为各个具体群体在某些方面是独特的,它的成员将与测验手册所列的常模团体成员不符,所以,依据一般常模解释所得的结论可能不够恰当,如果将两者结合使用,解释分数便会更加准。
幻灯片16
9.1.3常模
●常模团体的分数分布叫常模,有了常模,我们就可以了解被试在常模团体中的相对位置,从而参照其他个体评价他的成绩。
通常把常模分为发展常模和团体内常模两大类型。
●发展常模
●发展常模表示个体在正常发展线上心理特征处于什么样的发展水平。
●例如我们可以说一个8岁儿童具有10岁儿童的智力水平,也可以说一个四年级的学生具有五年级或三年级阅读水平。
幻灯片17
婴幼儿头围与胸围发育的正常值(生理发展常模)
幻灯片18
儿童口语获得的年龄和不同阶段的特征(心理发展常模)
幻灯片19
常用的发展常模有以下三种:
●
(一)智力年龄(mentalage)
●比奈在本世纪初认为:
测量儿童心理成长,可以将一个儿童的行为与各年龄水平的儿童比较,以获得该儿童的心理发展水平。
●在此设想基础上,他首先寻找并设计出可区分各种年龄儿童智力的题目,因为儿童在这些题目上的反应,随着年龄的变化而有系统的改变。
每个题目放在大部分的儿童都能成功地完成的那个年龄水平。
幻灯片20
●例如标准化样本中大多数8岁儿童都能通过的那些项目,就代表8岁儿童的智力水平,就将该题放在8岁水平。
每个年龄水平制定适当的题目,可以得到一个可评价儿童智力发展水平的年龄量表。
●一个儿童在年龄量表上所得的分数,就是最能代表他的智力水平的年龄,这样的分数就称作智力年龄,简称智龄。
●所有的年龄量表基本上都是利用相同的推理与步骤制定的,年龄量表将个人的行为与各年龄组的一般儿童比较而给予一个年龄分数。
●(比率智商=智龄/实龄)
幻灯片21
●年龄量表的基本要素是:
●
(1)一组可区分不同年龄组的题目。
●
(2)一个常模团体。
该团体是由各个年龄的被试所组成的具有代表性的样本。
●(3)常模表,即一个表明答对哪些题目或得多少分就该归入哪个年龄的对照表。
●年龄常模最大的优点是易于理解与解释,并可以与同年龄团体作直接比较。
但必须注意人在很多方面发展的速率是先快后慢并随着年龄的增长而逐渐减慢,当长到青春期或成年期,便逐渐停止。
此时,年龄常模便不再适用。
幻灯片22
●
(二)年级当量(gradeequivalents)
●教育成就测验上的分数经常按照年级当量来解释,即将被试的测验成绩与某一年级的学生的平均分数作比较,以确定他相当于哪一年级的水平。
●这种年级当量选择题目与指定分数的方法与步骤与年龄常模类似,所不同的是用年级水平代替了年龄水平。
●例:
一个学生如果能解答六年级的题目或他(她)在测验上的得分与六年级的平均分数相同,则他(她)在该测验上的年级当量便是6。
幻灯片23
●(三)顺序量表(ordinalscales)
●这种常模源于儿童心理学的研究。
通过对婴儿的行为发展的经验观察,人们描述各种机能随着年龄发展的典型行为。
(如前例)
●例:
《格塞尔发展顺序量表》按月份表明,从4周到36周的儿童在运动、适应性、语言、社会性等四个方面的大致发展水平。
如婴儿的感觉运动发展顺序是:
4周,控制眼睛运动,能追随一个对象看等;16周,能使头保持平衡;28周,能用手抓握并玩弄东西等。
●顺序量表用来鉴别儿童在具体行为机能的发展中所达到的阶段。
幻灯片24
●团体内常模
●现在,几乎所有的标准化测验都提供某种的团体内常模。
这类常模是根据被试在常模团体中所处的相对位置来评价被试的成绩。
●团体内分数具有统一的、定义明确的定量意义,能够适用于大多数类型的统计分析。
团体内常模常用两类数据来标示:
●百分等级
●标准分数
幻灯片25
●
(一)百分等级(简称PR值)
●百分等级是应用最广的表示测验分数的方法。
一个原始分数的百分等级是指在常模团体中低于这个分数的人数的百分比。
●例如,一被试在一项测验中得82分,经过换算,百分等级分数为75,就表示参加该项测验的人得分低于82分的占全体被试的75%,并说明超过他的成绩82分的人仅有25%。
●我们通常用PR来表示百分等级。
●百分等级取值越大,说明成绩越优秀。
幻灯片26
●百分等级的计算方法:
●将被试团体的全体原始分数从大到小排序,然后采用下列公式计算:
●PR=100-(100R-50)÷N
●式中PR为百分等级,R为排名顺序的序号,N为被试总人数。
●例:
某被试在一次由50人参加的成绩测验中得80分,排名第9,则该生成绩(80分)的百分等级为:
●PR=100-(100R-50)÷N
●=100-(100×9-50)÷50=83
●其百分等级为83,说明?
●总体中有83%的人分数低于80分。
幻灯片27
●如对原始分数已作过初步整理,通常以次数分布表的形式呈现,即数据已分组。
此时,可采用分组数据的公式求百分等级。
●(参见统计学的有关部分)
幻灯片28
●百分等级的优缺点:
●百分等级是一种相对位置量数,具有可比性,便于计算、易于理解等优点。
●主要缺点是单位不等,尤其在分数分布的两端。
原始分数转换成百分等级时,靠近分布中央(平均数或中位数附近)的原始分数的分数之间的差异被夸大了,而靠近分布两端的原始分数的差异被缩小了。
●另一个缺点是百分等级只具有顺序性,而无法用它来说明不同被试之间分数差异量。
●例:
某被试甲在一个成就测验中的百分等级为10,被试乙为20,被试丙为30,我们只能说丙优于乙,乙优于甲,而不能推断他们之间差异的程度相等。
幻灯片29
●在使用百分等级时应注意,百分等级是相对于特定的被试团体而言的。
所以,解释时不能离开特定的参照团体。
被试得分不变,但参照团体改变了,百分等级值就可能发生变化。
●所以在报告百分等级时,一定要说明是相对于什么的参照团体来说的。
幻灯片30
(二)标准分数
●标准分数是一种具有相等单位的量数。
它是将原始分数与平均数的距离以标准差为单位表示出来的量数,它的基本单位是标准差,所以叫标准分数。
●标准分数可分为两类:
●线性转换的标准分数(简称Z分数)
●非线性转换的标准分数(称为正态化标准分数,常见的有T分数、标准九分)。
幻灯片31
●Z分数
●通过线性转换得到的标准分数称为Z分数
●它是将个体原始分数与平均数的距离以标准差为单位表示出来。
●Z分数之间差异的相对大小,准确地反映了原始分数之间的相对大小。
●Z分数的计算方法
●Z=(X-X)÷S
幻灯片32
●Z分数具有以下几个性质:
●①Z分数是以一批分数的平均数为参照点,以标准差为单位的等距量表。
●②Z分数的正负符号表示原始分数在平均数之上或之下,绝对值表示原始分数与平均数的距离。
●③Z分数分布形态与原始分数分布完全一样。
Z分数之间差异的相对大小,准确地反映了原始分数之间的相对大小。
幻灯片33
●由于Z分数在计算中经常出现负数和小数,且单位过大(一个标准差单位),使用起来不够方便,所以通常需要将Z分数进行进一步线性转换,其形式为:
●Z’=A+B·Z
●(Z′为转换后的标准分数,A,B为常数)
●加上一个常数目的是为了去掉负值,乘上一个常数是为了使单位变小从而去掉小数点。
原来分数间的关系不会改变。
幻灯片34
●例如,美国大学入学考试委员会的学业评定测验(SAT)所使用的分数转换公式为:
●CEEB分数=100·Z+500
●(平均分数为500,标准差为100)。
●我国一种出国人员英语水平考试(EPT)所使用的分数转换公式为:
●EPT分数=20·Z+90
●(平均分数为90,标准差为20)
幻灯片35
●常(正)态化的标准分数
●用线性转换的标准分数只有在分布形态相同或相近时才能进行比较,若两个分布的偏斜方向不同,那么相同的标准分数可能代表不同的百分等级,两个测验的分数仍无法比较。
为了能将来自不同分布形态的分数具有可比性,可以采用非线性转换,将原分数分布都转化为正态分布。
有了相同的分布,不同测验的分数就可以比较了。
幻灯片36
●具体步骤是:
●先将每个原始分数转换为百分等级,然后使用正态分布表,将对应的百分等级直接看成是正态分布曲线下的面积值,找出所对应的标准分数,由这种方式得到的分数称为正态化标准分数。
●
(1)T分数
●把正态化标准分数乘以10(以消除小数)再加上50(消除负号),它就被转换成T分数。
即:
T=10·Z+50
幻灯片37
(2)标准九分(standardnine)
标准九分是标准化九分制的简称。
它将正态曲线下的横轴分为九段,最高一端为9分,最低一端为1分,中间一段为5分。
除两端(1分,9分)外,每段均有半个标准差宽。
标准九分是根据分数范围从1到9而得名。
在正态曲线下,每个标准九分所包含的百分比为:
幻灯片38
●要把原始分数转换成标准九分,首先按大小排列原始分数,然后根据上表给出的正态曲线百分比来指定九分。
即将得分最高的4%的被试给予9分,其次7%的被试给予8分,按上表依次类推。
●亦可将原始分数转换为百分等级,然后得到其相应的标准九分值。
幻灯片39
标准九(stanine)
●标准化九级分制
●标准九=5+2Z,即平均数为5,标准差为2
幻灯片40
正态Z分数与标准九的转换方法
幻灯片41
正态Z分数与标准十的转换方法(M=5,s=1.5)
幻灯片42
●(3)离差智商(deviationIQ)
●离差智商是标准分数的另一种变式,也是通过正态转化得到的。
●最早的智力测验采用比率智商IQ(即智力年龄与实足年龄的比率,再乘100)。
使用比率智商的缺点是,不同年龄组智商分布的标准差不尽相同,因而相同的智商分数在不同年龄具有不同意义,无法进行比较。
●因此,离差智商取代了比率智商。
离差智商是将一个人的测验分数与同年龄组的人比较所得到标准分数,其优点是同样的智商分数在任何年龄水平上都代表相同的相对位置。
幻灯片43
●现在大部分智力测验都采用离差智商。
●为了使离差智商的单位与比率智商相当,需要选择接近比率智商分布的平均数和标准差。
韦氏智力测验的离差智商的平均数是100,标准差是15。
●(IQ=100+15Z)
●标准分数的优点:
●具有相等的单位,便于作进一步的统计分析;
●正态化标准分数可利用正态曲线面积表直接转换成百分等级分数,易于理解;
●允许将两个或两个以上的测验的分数作直接的比较。
幻灯片44
●标准分数也有它的缺陷:
●分数比较抽象,不易让一般人理解;
●正态化标准分数是人为使分数呈正态分布,当所测特质的分数不是正态时,便扭曲了分布的形状。
幻灯片45
9.2参照标准的分数
●参照常模的分数是将被试的分数和常模团体测验分数进行比较来的,并且主要以个人在常模团体中所处的相对位置来确定。
●参照标准的分数不同,一个人的测验成绩不是和其他人比较,而是和某种特定的标准比较。
它关心的是一个人是否达到某种标准,它反映的是一个人的行为水平或成就水平如何。
●标准参照分数可分为内容参照分数和结果参照分数。
幻灯片46
9.2.1内容参照分数
●内容参照分数主要依据被试对某个确定的材料内容或技能的掌握和熟悉程度来确定的。
●使用内容参照分数,关键是要预先制定一个能判定被试是否已掌握某种内容或熟练程度的标准,这种标准主要有:
幻灯片47
●㈠掌握分数
●最简便的方法是订出一个判别被试是否通过或掌握某种内容的最低分数线,即最低标准水平。
在此分数以上,表明被试已达到掌握或熟练的水平;在此分数以下,表明被试没有达到掌握或熟练的水平。
●如何确定这个水平?
通常是选择有80%到90%的人通过的那一水平。
●如:
考查科分合格与不合格两级。
幻灯片48
●㈡正确百分数
●正确百分数指被试在测验中答对题目的百分比。
●这一指标更为常用,因为它能更好地反映被试对所测内容的掌握或熟练程度。
●采用这一指标解释测验分数时必须注意测题应该确是该目标范围的代表性的取样,否则答对多少题并不反映对该目标的掌握程度。
幻灯片49
●㈢内容标准分数
●内容标准分数是把内容分数与常模分数结合起来使用。
●编制内容标准量表时,不但要明确界定内容、范围,还要详细说明每一种水平的“典型”人物正确回答和不正确回答的问题的类型。
这样,将一个人的测验分数与此种量表对照,便既能指出他正确反应的百分比,又能指出他的成绩达到了哪种人的水平以及他能解决哪一类问题。
●如:
智力年龄
幻灯片50
●㈣等级评定量表
●在某些情况下,我们感兴趣的不是人们是否掌握了某种知识,而是一个人完成某种过程或生产出某种产品的技能。
●通常我们需要采用等级评定量表来报告一种活动的熟练水平或一种产品的质量。
●为了使评定尽可能客观,需要对各种等级定出标准。
对每种水平都定出标准样本,并作出详细说明。
●如:
各种等级考试
幻灯片51
●内容参照分数的主要优点是用个人所掌握的知识或技能的水平来描述行为,指出一个人知道什么和能做什么。
在大多数情况下,这比知道一个人在团体中的相对位置更有价值。
●内容参照分数主要用于成就测验以及能确定出可接受的最低标准的资格测验(如医生或司机的证书考试),对于大多数能力倾向和人格测验来说,由于所测的范围很难确定,因而一般不用内容参照分数。
幻灯片52
9.2.2结果参照分数
●结果参照又叫效标参照。
它是将效标材料直接结合到测验结果的解释过程中。
这种分数适合于用测验来作预测的情况。
●例如,高考平均分数在80分(各科满分为100分)以上的人,我们可以预测其入大学后的学习成绩将为优等。
这里,是用结果来解释测验分数,而不是用常模和内容来解释。
●要得到结果参照分数必须有两个前提条件:
●①需要有效度证据,即测验分数必须与一个重要的效标具有高相关。
幻灯片53
●②要有将测验分数和效标之间的关系结合起来的方法,如转换图表。
●例如,如果一个学生在大学入学考试委员会的学术测验(SAT)上得530分,他在一所具体大学的一年级平均成绩处于A、B、C、D、F等类的可能性各是多少?
考察预测分数(SAT)对效标成绩(一年级平均成绩)的双变量分布,就能获得这类信息。
●
幻灯片54
●如果把这种双变量分布的每个单元的人数转换成百分比,结果就是期望表。
●例:
预测分数是第一学期末“区别能力倾向测验”中的数推理测验(DAT),效标则是第二学期最后一次考试的课程成绩。
数据从211名六年级学生中得出。
测验分数和效标的相关是0.60。
:
(见下表)。
幻灯片55
表:
211名六年级学生DAT数推理测验
与数学课程成绩之间的关系
幻灯片56
9.3测验分数的解释
9.3.1如何看待测验分数的意义
9.3.2如何向受测者报告测验分数
幻灯片57
9.3.1如何看待测验分数的意义
●施测者进行测验结果的解释必须:
●①对所做的测验(包括它的常模的代表性、信度、效度、难度等)要熟悉了解。
●②对受测者的情况(文化程度、职业、是否可能接触测验中的有关问题等)也要有所了解。
●③对当时测验的具体情况,例如是否有干扰,受测者当时有无情绪波动或身体不适等情况的了解。
幻灯片58
●同一个分数可能是由于不同原因造成的,应结合以上三方面的因素对测验分数作出解释。
同一分数可作出不同解释。
●例如,用具有初中文化程度的标准化样本常模的智力测验来测量一个小学文化程度的受测者,如果测得IQ为85,就可以认为他基本上是中等智力水平;如果受测者原来文化程度是大学毕业,也测得IQ为85,就可解释为受测者可能由于某种原因而使智力有所减退,属于中下水平。
幻灯片59
●解释测验分数有4种类型:
●
(1)叙述的解释:
指描述个人的心理特征状态。
例如,这个学生是一位怎样的学生,聪明的?
中等的?
或愚笨的?
他的语文推理是否优于非语文推理?
他喜欢做些什么?
有什么样的性格特点?
●
(2)溯因的解释:
指追溯过去以解释个人目前的发展情况。
例如,他为什么会这样?
他的阅读困难是否是情绪困扰的结果?
或缺乏基本的阅读技能?
或缺乏学习的兴趣?
他拒绝机械的学习活动是否由于父母的压力?
或过去的失败?
或兴趣太广泛所致?
幻灯片60
●(3)预测的解释:
指推估个人未来的可能发展情形。
例如,他上高中的成绩会怎样?
他升入大学的可能性有多大?
他在理科方面的发展是否比在文科方面的发展更能成功?
他是否可能成为一个问题青年?
●(4)判断(利评价)的解释:
指作价值的判断或做决定。
此种解释是依据上述几种解释而作的判断。
例如,准许入高中或大学。
他应该学习什么样课程。
进什么样大学。
他应该成为工程师或商务经理。
幻灯片61
●解释分数的意义应遵循的基本原则
●
(1)主试应充分了解测验的性质与功能。
测验使用者必须具备心理测验的基本知识。
使用者在解释之前必须从其编制手册中,详细了解编制过程的标准化及测验的信度、效度、常模等是否适当。
更重要的,应知道测验能测量什么,不能测量什么,分数在使用上有何限制。
有时两个测验的类型虽然相同,但测量的功能往往不同。
●例如,卡特尔测验16PF与明尼苏达多相人格调查表MMPI都是人格测验,但后者更多地发挥临床诊断的功能,前者则更多地针对正常人。
幻灯片62
●
(2)对导致测验结果的原因的解释应慎重,谨防片面极端。
●遗传特征、测验前的学习与经验以及测验情境对一个人的测验成绩都会产生影响。
所以我们应该把测验分数看成对受测者目前状况的测量,至于他是如何达到这一状况的,则受许多因素的影响。
为了能对分数作出有意义的解释,必须将个人在测验前的经历或背景因素考虑在内,比如,在词汇上得到相同的分数,对于大城市的孩子与边远山区的孩子具有不同的意义。
幻灯片63
●(3)必须充分估计测验的常模和效
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 测验分数的解释 测验 分数 解释