甄别体育教学比赛中“无效评委”的统计学研究(已经公开发表)
夏锦阳
江苏省泰兴市教育教学研究室225400
摘要:运用统计学的原理,通过名次决策分析、偏离度决策分析、Spearman 相关系数决策分析,对甄别体育教学比赛中“无效评委”,打击体育教学比赛中“评委不公”的现象提供了有效的解决办法。
关键词:评价评委教学比赛 无效评委 有效评分 偏离度 Spearman 相关系数
Statistics Research on Distinguishing “Invalid Judges” in Sports Teaching Competitions
Xia Jinyang
JiangsuTaixing Teaching and Research Section
Abstract:
实施《体育与健康课程标准》近十年来,各级各类的体育教学比赛屡见不鲜,凭自己担任国家级、省级、地级、市级体育教学比赛评委的感受,几乎每次都存在着少数评委的认知判断取决于情境的作用,如刻板印象、首因效应、近因效应、相似效应、负面效应、对比效应等而产生评判的偏差,或者为保护自己的选手而出现思想上的偏差评分,再或由于对体育与健康新课程理解的缺失而出现的能力上的偏差评价。已有研究发现:评委的个人特征,包括他们的知识背景、工作经验、评分过程的思考方式、人格特征等因素都有可能导致评委偏差【1】。无论哪一种情况,我们把评分偏差大的评委暂定为“无效评委”。通常情况下处理的办法是去掉最高分(max)、最低分(min)得出选手的平均分来决定名次。用这种方法得出的结果往往不能完全解决以上存在的两种问题,实践中我们一直思考如何甄别“有效评委”,删除“无效评委”的评分,使体育教学比赛的评价更具科学性、真实性、公正性。通过阅读大量的资料,结合工作实践(附表一:某地级市体育能手比赛评委打分表),采用数理统计的办法有效的解决了这一现实问题。
表1:*****市体育教学能手比赛评分汇总表
评委 |
评委1 |
评委2 |
评委3 |
评委4 |
评委5 |
选手均分 |
选手名次 |
选手1 |
78.00 |
88.00 |
73.00 |
85.00 |
88.00 |
82.40 |
2 |
选手2 |
75.00 |
89.00 |
74.00 |
88.00 |
76.00 |
80.40 |
4 |
选手3 |
79.00 |
78.00 |
76.00 |
93.00 |
68.00 |
78.80 |
5 |
选手4 |
85.00 |
76.00 |
85.00 |
90.00 |
94.00 |
86.00 |
1 |
选手5 |
82.00 |
90.00 |
64.00 |
75.00 |
75.00 |
77.20 |
6 |
选手6 |
76.00 |
84.00 |
80.00 |
89.00 |
79.00 |
81.60 |
3 |
评委均分 |
79.17 |
84.17 |
75.33 |
86.67 |
80.00 |
81.07 |
|
评委打 分名次 |
4 |
2 |
5 |
1 |
3 |
|
|
根据表1中的原始成绩,我们可以初步判断打分偏高的评委4和打分偏低的评委3。让我们再看看各位评委打分在选手中最高分与最低分的频数(见表2)
表2:各评委在每个选手中打分最高分与最低分的出现频数
评委 |
评委1 |
评委2 |
评委3 |
评委4 |
评委5 |
||||||||||
|
得分 |
最高 |
最低 |
得分 |
最高 |
最低 |
得分 |
最高 |
最低 |
得分 |
最高 |
最低 |
得分 |
最高 |
最低 |
选手1 |
78 |
|
|
88 |
1 |
|
73 |
|
1 |
85 |
|
|
88 |
1 |
|
选手2 |
75 |
|
|
89 |
1 |
|
74 |
|
1 |
88 |
|
|
76 |
|
|
选手3 |
79 |
|
|
78 |
|
|
76 |
|
|
93 |
1 |
|
68 |
1 |
|
选手4 |
85 |
|
|
76 |
1 |
|
85 |
|
|
90 |
|
|
94 |
1 |
|
选手5 |
82 |
|
|
90 |
1 |
|
64 |
|
1 |
75 |
|
|
75 |
|
|
选手6 |
76 |
1 |
|
84 |
|
|
80 |
|
|
89 |
1 |
|
79 |
|
|
频数 |
|
1 |
|
|
4 |
|
|
|
3 |
|
2 |
|
|
3 |
|
通过对选手打分中最高分与最低分的频数看,最高分频数最多的是评委2,最低分频数最多的是评委3。从这里我们得出一个结论,仅仅去掉一个最高分与最低分,对评委是不公正的,也是不科学的。如果有一位评委对每一位选手的打分都高,但对选手的成绩排名没有影响的话,去掉高分的评委是没有理由的。我们要去掉的应该是评分不公的评委、存有私情的评委、不切实际乱打分的评委。
二、把原始分数转换成名次决策的统计分析
将表1中的分数转化成名次进行统计分析,将进一步缩小分数间的差距,更精准的统计选手的排序。见表3
表3:根据分数转换成名次的统计分析表
评委 |
评委1 |
评委2 |
评委3 |
评委4 |
评委5 |
名次总分 |
名次均分 |
总名次 |
|||||
|
得分 |
名次 |
得分 |
名次 |
得分 |
名次 |
得分 |
名次 |
得分 |
名次 |
|||
选手1 |
78 |
4 |
88 |
3 |
73 |
5 |
85 |
5 |
88 |
2 |
19 |
3.8 |
4 |
选手2 |
75 |
6 |
89 |
2 |
74 |
4 |
88 |
4 |
76 |
4 |
20 |
4 |
5 |
选手3 |
79 |
3 |
78 |
5 |
76 |
3 |
93 |
1 |
68 |
6 |
18 |
3.6 |
3 |
选手4 |
85 |
1 |
76 |
6 |
85 |
1 |
90 |
2 |
94 |
1 |
11 |
2.2 |
1 |
选手5 |
82 |
2 |
90 |
1 |
64 |
6 |
75 |
6 |
75 |
5 |
20 |
4 |
6 |
选手6 |
76 |
5 |
84 |
4 |
80 |
2 |
89 |
3 |
79 |
3 |
17 |
3.4 |
2 |
从上表可以看出,名次分值越小的名次列前。当名次分相等时,采用应相等名次选手的最差两个名次的和决定先后顺序,同样数值小的列前。用这种转换的方式进行分析与第一次的原始名次已经发生变化,这说明评分的忽高忽低影响着选手的名次。通过这种转换,有效的扼制了乱打分评委的分值影响,使结果进一步趋向于公正。
三、运用名次偏离值决策统计对评委优劣的分析
一个评委的评判水平越高,他对选手的打分与选手的客观水平之间的差异就越小。偏离值是指实际数据与目标数据相差的绝对值。第i个评委对第j个选手的打分与第j个选手最后得分的偏差为则表示第i个评委在整个评判过程中的平均偏差,它反映的是评委在此次评判过程中评判水平的优劣:Di越大,水平越低;Di越小,水平越高[2]。见表4
表4:原始分数转换成名次的偏离度统计分析
评委 |
评委1 |
评委2 |
评委3 |
评委4 |
评委5 |
名次均分 |
总名次 |
|||||
|
名次 |
偏离值 |
名次 |
偏离值 |
名次 |
偏离值 |
名次 |
偏离值 |
名次 |
偏离值 |
||
选手1 |
4 |
0 |
3 |
1 |
5 |
1 |
5 |
1 |
2 |
2 |
3.80 |
4 |
选手2 |
6 |
1 |
2 |
3 |
4 |
1 |
4 |
1 |
4 |
1 |
4.00 |
5 |
选手3 |
3 |
0 |
5 |
2 |
3 |
0 |
1 |
2 |
6 |
3 |
3.60 |
3 |
选手4 |
1 |
0 |
6 |
5 |
1 |
0 |
2 |
1 |
1 |
0 |
2.20 |
1 |
选手5 |
2 |
4 |
1 |
3 |
6 |
0 |
6 |
0 |
5 |
1 |
4.00 |
6 |
选手6 |
5 |
3 |
4 |
1 |
2 |
0 |
3 |
1 |
3 |
1 |
3.40 |
2 |
偏离值( ) |
|
1.333 |
|
2.5 |
|
0.333 |
|
1 |
|
1.333 |
|
|
评委 名次 |
|
4 |
|
5 |
|
1 |
|
2 |
|
3 |
|
|
从表4可以看出,评委2的偏离度最高,从名次分析中可以看出,他把结果为第6名的选手5打出了第1名的高分,把第5名的选手打出了第2名的高分,反而把第1名的选手打出了第6名。显然有严重的倾向性,有失公允。同样评委1也存在一定问题,他把结果为第6的选手打出了第2名,把第2名的选手打出了第5名,显然存在一定的疑问。从表
四、运用 Spearman 相关系数决策统计对评委优劣的分析
Spearman 相关系数在使用时,对数据条件的要求没有Pearson 积差相关系数严格,不论评委和被评价者的总体分布形态、样本容量的大小如何,只要评委对被评价者评分结果表示成等级 ( 或者等级排序 ) 的形式,都可以使用。其数学表达式为 :其中,Di=xi-yi,xi(i=1,2, ,n) 表示单个评委对每个被评价者的打分结果的顺序值,yi(i=1,2,,n) 表示全体评委对每个被评价者的打分结果的顺序值,n 表示被评价者 ( 评分结果 ) 的数量。
评委 |
评委1 |
评委2 |
评委3 |
评委4 |
评委5 |
yi |
||||||||||||||
i |
Xi |
Di |
|
Xi |
Di |
|
Xi |
Di |
|
Xi |
Di |
|
Xi |
Di |
|
|||||
选手1 |
4 |
0 |
0 |
3 |
1 |
1 |
5 |
1 |
1 |
5 |
1 |
1 |
2 |
2 |
4 |
4 |
||||
选手2 |
6 |
1 |
1 |
2 |
3 |
9 |
4 |
1 |
1 |
4 |
1 |
1 |
4 |
1 |
1 |
5 |
||||
选手3 |
3 |
0 |
0 |
5 |
2 |
4 |
3 |
0 |
0 |
1 |
2 |
4 |
6 |
3 |
9 |
3 |
||||
选手4 |
1 |
0 |
0 |
6 |
5 |
25 |
1 |
0 |
0 |
2 |
1 |
1 |
1 |
0 |
0 |
1 |
||||
选手5 |
2 |
4 |
16 |
1 |
5 |
25 |
6 |
0 |
0 |
6 |
0 |
0 |
5 |
1 |
1 |
6 |
||||
选手6 |
5 |
3 |
9 |
4 |
2 |
4 |
2 |
0 |
0 |
3 |
1 |
1 |
3 |
1 |
1 |
2 |
||||
|
|
|
26 |
|
|
68 |
|
|
2 |
|
|
8 |
|
|
16 |
|
||||
相关系数® |
|
|
0.26 |
|
|
-0.9 |
|
|
0.94 |
|
|
0.77 |
|
|
0.54 |
|
||||
评委名次 |
|
|
4 |
|
|
5 |
|
|
1 |
|
|
2 |
|
|
3 |
|
Spearman 相关系数 r 的取值范围为 [-1,1],其值越小,说明单个评委的可信度也就越差。如果 r<0 表示单个评委的评价结果与全体评委评价结果负相关,r>0 表示单个评委的评价结果与全体评委评价结果正相关。一般情况下,r>0.7 表示单个评委评价结果与全体评委评价结果的相关性好,即单个评委与大多数评委评价的结果较一致。从表5可以看出最优的评委是评委3,最劣的评委是评委2评委1(暂定为“无效评委”)。
五、原始成绩、平均偏离值、Spearman 相关系数对评委优劣的比较
表6原始成绩决策、平均偏离值决策、Spearman 相关系数决策对评委优劣的比较
评委 |
评委1 |
评委2 |
评委3 |
评委4 |
评委5 |
|
原始成绩判定 |
4 |
2 |
5 |
1 |
3 |
|
平均偏离值判定 |
4 |
5 |
1 |
2 |
3 |
|
Spearman 相关系数判定 |
4 |
5 |
1 |
2 |
3 |
从表6可以看出,原始成绩的判定评委的水平、平均偏离值、Spearman 相关系数三种方法的判定结果有显著差异。这说明简单的用去掉最高分、最低分的办法对选手的评判和对评委的评判都不科学、准确。用原始成绩的评判结果显示评委3打的分偏低,但他判定选手的先后顺序很准确,评委2在原始成绩的评判中名列第二,但出现了严重的误判现象。因此,使用平均偏离值和Spearman 相关系数决策的评判更科学公正。从表中我们可以断定评委2和评委1为“无效评委”,对其要进行教育并将此数据作为今后是否聘用的依据,这样可进一步优化一个地区的评委队伍。
六、根据偏离度和Spearman 相关系数可甄别出“无效评委”的统计结果
根据偏离度和Spearman 相关系数可甄别出“无效评委”的统计结果,决定去将评委1和评委2的评分结果视为“无效评委”,去掉他们的分数进行重新统计分析。见表5
表7 去掉“无效评委”评分的结果分析
选手 |
评委3 |
评委4 |
评委5 |
原始名次 |
去掉“无效评委”后的最终名次 |
名次 |
名次 |
名次 |
|||
选手1 |
5 |
5 |
2 |
2 |
4 |
选手2 |
4 |
4 |
4 |
4 |
5 |
选手3 |
3 |
1 |
6 |
5 |
3 |
选手4 |
1 |
2 |
1 |
1 |
1 |
选手5 |
6 |
6 |
5 |
6 |
6 |
选手6 |
2 |
3 |
3 |
3 |
2 |
从上表可以看出,有“无效评委”参与的打分影响了评判的公正性和准确性,评价的结果发生了较大的差异。因此,在各种主观性评价的比赛中,一定要采用对评委的主观评价做分析,使比赛更趋公平公正。
七、关于建立高信度评委的几点思考
第一,严格遴选评委。在选择评委的过程中,不要唯职务、唯职称,要选择具备良好的职业道德和强烈的责任心,为人处世公道正派,具有较强的观察能力、分析概括能力、对新课程理论准确判断的能力与言语表达能力。要对评委进行专业训练,建立评委人才库,结合评委工作的业绩去劣选优。
第二,严控评委裁权。由于评委打分的主观性,可能打出“人情分”“关系分”,影响评价的结果。因此,在不打击评委工作积极性的前提下,要对评委的裁权进行必要的控制。要及时对评委打分结果进行统计分析,出现偏差较大的评委,要坚决予以弃用。坚持独立打分,集体评价的测评方式,防止因评委数量过少而导致结果的严重偏离。
第三,严设评价指标。现有研究已经发现,评委用来打分的指标数量会影响到评委评分结果的可靠性。用3-6个评分指标时,评委打分处于高度线性相关,而评分指标9个时,评分的一致性明显下降。一般我们从教学目标、内容组织、教学方法、教学过程、教师主导作用、学生主体作用、教学效果、教学基本功这几个方面来评价。
第四,严析评分数据。对评分结果进行必要的数据处理有助于提高评价的可信度。最为简单有效的做法就是去掉两极分数求平均,其次可以采用偏离值的计算进行分析,再次可以运用Spearman 相关系数的计算分析对数据处理的方式,去除“无效评委”对评判结果的影响,最大限度避免评委各种主观因素偏离客观事实甚至背弃客观事实的行为发生。
参考文献:
[1] 孙晓敏张厚粲《国家公务员结构化面试中评委偏差的IRT分析》[j]《心理学报》2006.38(4)p614-625
[2] 吕书龙,梁飞豹,刘文丽《关于评委评分的评价模型》[j]《福州大学学报》(自然科学版)2010.6p359
[3] 郭朝晖 《无领导小组讨论,如何检验评委可信度》[j].《中国人才》2011.5p55-57
上一篇: 体育之研究
下一篇: 从学生体质健康下降透视学校体育发展