评价评委问题1.docx
- 文档编号:24322257
- 上传时间:2023-05-26
- 格式:DOCX
- 页数:16
- 大小:48.16KB
评价评委问题1.docx
《评价评委问题1.docx》由会员分享,可在线阅读,更多相关《评价评委问题1.docx(16页珍藏版)》请在冰豆网上搜索。
评价评委问题1
电视大赛评委水平评估
(最后附最全面的解答模式,本解答由于时间紧迫,不够全面,刚刚够用,见谅)
摘要
每年我国的一些电视台都要举行各种类型的电视大赛,如2010模特电视大赛,2010导游电视大赛、2010年少儿歌曲电视大赛等,这些比赛的评分一般没有可以用物理公式的方法计量的绝对客观标准,通常聘请一定数目的专家构成评委,但是评委的水平良莠不齐。
本文针对对评委的评价问题来讨论某次比赛10位评委给出8名参赛队员的评分来评价评委的评价水平。
评委给分的稳定性和统一性占了绝大数的评价因数。
因此用评委给分的方差
来反映某评委给分稳定性。
用他对某运动员的给分与平均值
的差值
的正负个数反映他整体给分偏差(高或者低),其差值绝对值大小反映他与整体意见的统一性。
然后统计评委给最大值和最小值的次数作为辅助来综合反映某评委给分的稳定性。
而这些数据可以通过EXCEL软件进行系统地处理。
最后根据综合情况来评论某位评委的水平。
问题重述
】
每年我国的一些电视台都要举行各种类型的电视大赛,如2010模特电视大赛,2010导游电视大赛、2010年少儿歌曲电视大赛等,这些比赛的评分一般没有可以用物理方法计量的绝对客观标准,通常聘请一定数目的专家构成评委,但是评委的水平良莠不齐。
下表是某次比赛10位评委给出8名参赛队员的评分,你能找出水平最差的评委吗,并给出你的依据。
表1 某次比赛评分情况
评委
选 手
12345678
1号评委
2号评委
3号评委
4号评委
5号评委
]
6号评委
7号评委
9号评委
10号评委
。
模型假设
1、假设评委认真公平打分,不出现打错分的现象
2、假设评委之间没有讨论商量打分现象,打出的分数之间没有联系
3、假设评委分数在计算统计的时候不会出现错误
4、评委可信度不受客观因素影响
^
符号说明
1、
i号评委对j号选手打分分数
2、
i号评委打分方差
3、
j号选手得分
3、
j号选手得分平均值
4、
j号选手得分最大值
5、
j号选手得分最小值
问题分析:
由于对评委对选手的评价根据其自身因素有所不同,但是对某一位选手的评价又有一定联系。
对同一个选手,评委的分数不完全相同,分数会在一个范围内波动,所有分数有一定离散性,又有联系。
而对评委给分数的评价没有任何固定公式来计算,所以评价的方式是比较离散的。
但是离散的评价方式又得有联系,综合起来评价评委的水平来客观反映评委的好坏。
}
在对某评委给分水平问题的分析中,有离散性的分析统计,波动性的分析,统一性的分析等。
1、对于数据离散性的分析,由分数偏差来表达
,而偏差正负的个数可以反映该评委给分偏高还是偏低。
然后通过最大分数和最小分数的统计可以辅助评价某评委给分的偏差。
2、对波动性的分析,由方差
来表达某评委给分的稳定性。
3、统一性(联系):
在上述两个分析结果后,如果出现不能比较的情况,就对某几位大致相当的选手进行继续分析。
因为各个评委的分数不应该相差太大。
所以用平均偏差和的大小来衡量某评委与整体的统一性。
偏差率:
平均偏差率:
模型的建立
在评委评分的过程中,由于打分受到选手水平和自身观念的双重影响,评委给出的分数是不会完全相同的。
每位评委的给分都是独立又有联系的,联系的分析的基础又是在选手水平上进行。
。
这时就得把八位评委分开来逐一评价分析。
而使用EXCEL进行统计各个评委得到表格来反映评委的打分,然后通过离散性、波动性、统一性的计算分析统计得到最差评委。
运用多种数学统计公式建立起来对评委评价的模型,使对评委的评价成为一个纯粹的运用数学公式的模型。
模型的求解
1、|
2、首先分析数据的离散型:
总和:
平均值:
最大值:
最小值:
选手
;
评委
1
2
3
4
5
6
7
8
{
最小值
最大值
总和
平均值
1
~
9
2
'
《
3
9
《
9
4
}
9
"
5
;
6
9
>
7
8
-
8
、
8
9
¥
9
9
¥
最大值
}
)
最小值
8
)
平均值
?
9
去掉最大值最小值平均值
?
9
(
9
对这个统计的数据可以找出各个选手得分的平均值以及各个评委打分的平均值。
可见各个选手得分的平均值相差并不大,最低者(2号),最高者(7号)去掉最大值最小值分数之后的平均分依然和不去没有太大的偏差。
最低依然是(2号)最高依然是(4,7号).而评委所有分数的平均值差距就完全不同。
这时用偏差
来反映某评委给分偏高还是偏低。
而统计出打出最高分和最低分的评委来辅助反映某评委给分是偏高还是偏低。
统计表格如下:
>
.
对每位选手得分平均值偏差
评委
1
2
3
4
"
5
6
7
8
正值个数
负值个数
打分偏向
1
0
^
0
7
1
高
2
/
0
8
0
高
3
(
0
3
5
较合理
4
\
0
0
8
低
·
5
6
2
\
较高
6
0
6
:
2
较高
7
-1
-
2
6
较低
8
[
5
3
较合理
9
#
4
4
合理
从以上统计表格看出,从偏差来看,1,2打分偏高,5,6打分较高,4打分低,7打分较低,3,8打分较合理,9打分合理。
由于正负值的个数只能粗略反映,还要用最高分数和最低分数给出次数来确定评委给分究竟是偏高还是偏低。
接下来统计某个评委打出最高最低分的次数:
评委号数
最高分次数
>
最低分次数
总次数
1
2
0
2
2
3
0
3
3
*
1
0
1
4
0
3
3
5
4
1
5
]
6
3
0
3
7
0
3
3
8
2
0
]
2
9
1
1
2
结果分析:
综合两个表格可以看出,打分从最高到最低为
定论某评委打分的偏差(高或者低).
2、分析波动性(稳定性)
而对于某评委打分的稳定性来说,方差
是一个可以评定的方式.使用EXCEL来统计评委打分的方差如下:
…
对每位选手得分平均值偏差
评委
1
2
3
4
5
6
7
.
8
方差
1
0
0
"
2
0
|
3
0
4
)
0
5
<
6
>
0
7
.
-1
8
/
9
;
结果分析:
从评委打分的方差可以看出评委打分的稳定性.由上表可以知道,稳定性由高到低排序为
由以上分析结果,可以发现4号和7号明显在以上两次分析中排到最后位置。
在离散性分析时:
1、4号每次给出的分数与平均值之间的差值都偏小(8次负值),并且给出了3次最低分数(次数较多)。
<
2、7号给出的分数与平均值之间的差值为负数达到6个,偏多的负值。
最低分数同样给出了3个
这两位评委给分都在这两个小指标上严重偏小。
7号略好于4号。
在稳定性分析时:
1、4号方差为
2、7号方差为
数据显示,7号稳定性明显差于4号。
以上两个大指标分析后可以得出:
最差评委必然是4号和7号其中一位。
但是在两个大指标方面,不能完全评论出优劣。
就得进行偏差率分析,也就是两人与整体的统一性的细致分析。
|
偏差率计算分析:
对于4号的偏差率:
平均偏差率:
评委
"
1
2
3
4
5
6
7
8
平均偏差率
4
-
0
偏差率
%
%
(
%
%
%
0%
%
%
%
7
!
-1
偏差率
%
%
%
%
:
%
%
%
%
%
平均值
9
分析结果:
由上述数据可以清晰看出,平均偏差率
,7号的统一性明显差与4号。
最终,7号评委为本次大赛最差评委。
其在各个方面都逊色于其他评委。
模型的评价与推广:
模型优点:
1、对数据的分析比较细致,从平均值、最大小值个数、方差、偏差、偏差率等分析数据,比较全面。
2、对各个评委进行了单独的数据处理评价,各个评委的给分情况和偏差情况都反映了出来。
3、运用了EXCEL表格进行统计,公式使用时方便快捷,统计数据严密可靠
模型缺点:
1、模型针对性单一,仅仅限制在这一类的评价统计问题上。
对数据较少的问题不能得出很好的结果,偏差大。
2、只能找出最差最好的评委,对每个评委的情况分析比较离散,不能很好分出各个评委的水平
3、没有固定的模型模式。
参考文献:
【1】《数学模型》姜启源编著北京:
高等教育出版社.
水利水电工程2班
陈学思
、
问题关键部分:
评委打分有很强的主观性,特别是测评指标本身具有很强的模糊性和主观性更是如此。
为了减小评委打分的误差,一般的处理方式是:
1)增加评委的人数,扩大评委群体,形成评分的随机分布,抵消或淡化评分的误差。
2)选择具备评委资格、与测评对象无任何可能影响公正评价之关系的人选担任评委。
实行,评委之间、评委与测评对象之间无关联打分,评分中不得互不干扰,各自独立评分。
3)计算算术平均数,对评委群体打出的分数予统计处理,先获得平均数,再去掉最高分和最低分,然后将剩余分数累加求和,计算平均数,以此观察评委打分波动,最高分和最低分的平均数为为评委群体确定的最终分数,计算公式为:
∑Xi/N(式中,∑Xi为去掉最高分和最低分后的全部分数之和,N为去掉最高分和最低分后的剩余评委人数)。
6)计算加权平均数,根据评委之前口碑(即是客观公正和知情懂行),对评委群体中的不同成员评分乘以不同的权重,突出更加具有公正性、权威性的评委的作用,计算公式为:
∑Xi•Pi(式中,Xi为各个评委给出的具体分数,Pi是各个评委的评分权重,权重累加之和为100%)。
但是,需要进一步解决的问题是:
如何发现评分结果有较大的偏误,如何发现评委的失职作弊行为首先可以判断某评委给所有参赛者打出的分与总体平均值偏差,再找出过大的或者过小的分值,再根据以往经验和已知事实,发现评分结果有失偏颇的迹象,进一步追查个别评委的不公正问题(此问题几乎不可用)。
1.选择标准差系数考察样本平均数的代表性。
标准差是反映一组数据分布的离
散程度的统计指标,以绝对值表示。
考虑到多组数据的可比性,采用标准差系数,用相对值表示。
标准差系数是标准差与平均数的比值,用百分比表示。
标准差系数与样本数据的离散程度成正相关,与样本数据的集中趋势成负相关。
也就是说,标准差系数越大,说明样本分布的离散程度越大,平均数反映样本的集中趋势则越不明显。
具体来说,当一组评委给两个测评对象的平均分相同时,但是,二者的标准差系数不同,评委对标准差系数大的测评对象的看法差异更大。
运用标准差系数,可以分别从两个角度考查评分结果:
1)比较每个测评对象的标准差系数。
即以全体评委对每一个测评对象给出
的分数为基础,计算每一个测评对象的平均数和标准差,再据以计算标准差系数。
这里,每个测评对象的平均数,实际上已经是评委们确定的“最后得分”。
如果测评对象A比测评对象B的标准差系数大,说明评委对测评对象A的意见差异更大,即使测评对象A和B的平均分相同,测评对象A的评分问题上存在较大争议,应当慎重考虑,再做研究。
比如,测评对象A和B的最后得分(根据评委评分计算的平均数)都是85分,但A的标准差系数为,B的标准差为,说明评委对B的看法比较一致,在对A的看法上有较大的分歧,A就是有争议的测评对象,对A评价应当慎重,需要进一步考察。
2)比较每个评委打分的标准差系数。
即以每个评委对全部测评对象给出的
分数为基础,分别计算每个评委的平均数和标准差,再据以计算标准差系数。
这里每个评委的平均数,说明每个评委对全体测评对象的整体水平的评价,标准差,则是每个评委对全体测评对象的整体水平是否整齐接近的评价,而使用标准差系数,就更能准确比较各个评委的评价意见。
如果评委C比评委D的标准差系数大,即使两人认为这一批测评对象的整体水平都在80分(平均数),评委C的标准差系数为,评委D的标准差系数为,说明评委C更加倾向于认为,测评对象的整体水平很不整齐,相互之间的差异更明显。
3)在上述基础上,可以进一步分别计算上述两种标准差系数的平均值,也
就是测评对象的标准差系数平均值和评委的标准差系数平均值,作为相对衡量标准,进而发现争议较大的测评对象和评分不稳定的评委。
比如,高于测评对象的标准差系数平均值的测评对象,评委对其的评价意见有较大分歧;而高于评委的标准差系数平均值的某一评委,他的评分更加不够稳定。
2.评委的离差绝对值之和
将各个评委对每一测评对象的评分,分别减去该对象的平均分,即得到该评
委对该测评对象的离差,将全部离差的绝对值累加求和,得出该评委的离差绝对值之和,离差绝对值之和的大小反映各个评委对测评对象整体水平的看法,离差绝对值之和与测评对象整体水平成负相关,离差绝对值之和越大,测评对象整体水平越不整齐,内部差异即离散程度则越大。
3.评委的离差代数和
将各个评委对每一测评对象的评分,分别减去该对象的平均分,即得到该评
委对该测评对象的离差,将全部离差累加求和,即得到该评委的离差代数和,离差代数和没有直接意义,必须与离差绝对值之和结合起来考察,才有实际意义。
4.离差绝对值之和与离差代数和之比
将每个评委的离差绝对值之和与其离差代数和进行比较,可以计算二者的比
值,简称为“绝代比”。
绝代比的比值,有以下几种情况。
一种情况是“绝代比”等于1,这是因为每一离差均取正值或负值,其代数和不存在正负抵消现象,正好与离差绝对值之和一致,这种情况只有该评委的评分全部低于或高于平均分时才出现。
另一种情况则是“绝代比”的比值很高,也就是说,离差绝对值之和远远大于离差代数和的绝对值,这种情况,往往因为该评委的评分往往远离总体平均分,同时,具体评分由围绕平均分上下波动,因此,离差正负相抵后所得的代数和,其数值较小,两相比较,“绝代比”的数值较大。
“绝代比”到底在多大区间内比较合理是否可以假定“绝代比”越大,其中值得研究的问题或疑点就越多,在实践中尚且有待进一步的研究。
由于离差代数和可以去正值或负值,所以,“绝代比”也有正负之分。
取负值的“绝代比”,是该评委对测评对象全体的评价低于全体评委的总体评价(平均分),是比较“苛刻”的评委,反之,取正值的“绝代比”,该评委是比较“宽松”的评委。
其次,从直观的角度,观察和比较评委评分线与总体平均分线的形态及其关
系,进一步研究评委的评分行为规律。
将所有测评对象的平均分自高而低排列,形成测评对象的平均分线,各个评委所给出的测评对象的成绩也可排出若干条评分线,将平均分线与各个评委的评分线绘制成直角坐标图,就可以进行相应的直观比较。
如果某评委始终按照自己稳定的主观倾向标准打分,即使所给分数始终高于或低于平均分,也能够反映其评分规律。
这时,该评委的离差绝对值和等于离差代数和,二者之比值为1。
这反映其始终按照自己的主观倾向掌握评分标准,从严评价者,所给的分数,始终低于平均分,宽宏大度者,始终以高于平均分线的水平给分。
但是,当评委的给分围绕平均分线起伏波动时,就会形成时而高于时而低于平均分线的评分线。
这时,离差绝对值之和将大于离差代数和,二者之间的比值将大于1,甚至比值相当大。
比值的大小,取决于评委评分线围绕平均分线的波动幅度。
如果进一步计算“绝代比”的平均值,再考查每一个评委的“绝代比”与“绝代比”平均值的大小,凡是“绝代比”大于“绝代比”平均值的评委,应当是重点研究和考察的对象。
从经验角度看,观察评委的评分线与平均分线的关系,实际上有这样几种评
委的评分倾向:
第一,评委的评分线始终低于或高于全体评委打分确定的平均分线,与平均分线呈近似平行的关系。
这种评委是一种带有主观色彩的“公正”评委,有一个稳定的主观倾向在理解和掌握评分标准,坚持按从严或偏松的倾向打分,其离差绝对值之和等于离差代数和的绝对值,“绝代比”比值为1,而且,离差绝对值之和越大,偏离平均分线的平均距离则越大,反之,则越小。
如果测评结果按照分数高低进行比较确定人选或排序的话,评委的主观倾向将影响评分结果的客观性。
比如,当“公正”而又“严格”的评委在评委群体中占多数并起主导作用时,按照平均分的绝对标准来进行评价比较,可能“合格者”为数了了,反之,良好和优秀者将大量产生。
第二,评委的评分线围绕平均分线做小幅波动,没有明显的规律,呈“拧麻花”形态。
这种评委试图按照客观标准掌握评分标准,保持客观公允态度,谨慎小心,离差绝对值较小,即使在平均分线上下波动,但起伏不大,其离差绝对值之和与离差代数和的比值虽大与1,但比较接近1,或者比值在1~2之间。
从经验角度看,这类评委的评分水平比较高,主观倾向与客观实际相接近,是比较理想的评委。
所以,在评委中间,习惯于将自己的分数与当场公布的平均分进行比较,来检查自己评分的主观倾向与客观结果的一致性和相似性。
第三,评委的评分线始终在一个极小的极差范围内波动,始终保持水平状态,最为典型的是处在中等分数水平,但又不同于第一、第二种情况,与平均分线没有规律性的关系。
这种评委主要是缺乏知识能力,或抱以马虎敷衍的态度,不能如实比较鉴别测评对象的实际差别,评分结果缺乏区分度。
最典型的是“老好人”式的评委,本着“你好我好大家好”“谁也不得罪”的心理,其评分线呈现“中等”或“良好”层次的水平状态。
第四,评委的评分线与平均分线的关系有明显的不规则性形态。
这里最常见的情况是,该评委给出的大多数对象的分数与平均分线呈一有规律的吻合,但是在少数个别分数上出现明显的跳跃,远离平均分线。
似乎在有意压低其他大多数测评对象的分数,而故意抬高自己看好或是有特殊关系的个别测评对象的分数。
该评委给出的分数往往是该测评对象的最高分,在统计处理时很容易被“去掉”,但是,如果这一类评委事先有“合谋”且“人多势众”,对该对象的最后得分是有很大“帮助”的。
简单总结本短文,主要的结论是:
运用平均数与标准差的比较关系,研究评委群体的专业水平是否整齐,是否具有公正性,对评委给出的评分线与以评委评分线为基础计算出来的平均分线进行比较,总结归纳出几种典型的评委评分类型,发现其对最终评分结果的影响状况,。
但是,统计检验只是发现问题的一种有效方法,以此为线索,寻找可能影响评分“失真”的人为因素。
真正要解决评委的客观公正性问题,还需要在制度、程序和方法上做进一步的探索研究。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 评价 评委 问题