试论对英语考试结果的科学解读

(整期优先)网络出版时间:2011-12-22
/ 3

试论对英语考试结果的科学解读

郎明传

关键词:平均分;标准差;标准分;相关系数;全距

作者简介:郎明传,安徽师范大学外语系2008级教硕班硕士,同时任教于安徽省无为一中。

英语考试,作为课程评价的手段之一,是中小学英语教学过程中不可或缺的一个环节。然而,很多学校和教师在运用考试的教育实践中,缺乏对考试的研究。多数教师对考试的认识处于“知其然,而不知其所以然”的状态。一般人都以为考试的结果就是分数,似乎分数就代表了学习好坏;看重考分高低,不清楚量化形式下所能够表达的确切内涵;简单地用考试分数来评价学生的学业成就,不会科学分析英语考试结果形成的内在原因。长此以往,致使考试盲目、缺少分析、没有诊断,使考试行为偏离考试的教育目的。我们经常看到不少学校与老师对考试英语成绩的分析就是列举了各个班级的平均分及其排名情况,再有就是及格率或优秀率。然而学生得分的分布情况如何,试题难度、试卷信度如何等等,我们都不得而知或者没有科学的统计数字供人们参考,对以后的教学工作并没有什么具体的指导意义。

所以我们应该学会科学地分析考试分数,因为只有科学地分析考试成绩,才可以正确地评价学生“学”与教师“教”的效果,以便及时改进方式方法,明确下阶段目标,达到“考一次,进一步”的目的。那么,怎样分析英语考试成绩才算科学呢?

一、卷面分数的分析

1.平均分

考试成绩统计常常要做的是通过计算集中趋势了解考生的典型的或是普遍的应试表现。平均分(符号是)是计算集中趋势最常用的方法。将所有分数相加,再除以参加考试的人数,就得到了平均分。由于计算简便、快捷,所以平均分是计算集中趋势的最好、最实用的方法。

但是,仅仅用平均分还不能清楚地解释考试成绩分布的情况。因为平均分有它的局限性。比较明显的一点就是它反应不出数据组中极端高或极端低的数据的影响。

例如在一次英语测试中大家得分都很低,而一个特好的学生的得分则远远高于同班同学。如果计算班里几个小组的平均分,那么这个学生所在组的平均分就要高于其他组。这样的平均分是不能正确反映这个组学生的典型水平的。不过,如果数据量很大,个别高分或低分对整体平均分的计算的影响就很小了。

2.标准差

教学测试成绩倾向于在平均分周围,比较对称地按比例分布,这一点在数据样本足够大时就更加明显。所以我们在考试分析中免不了都要提到平均分。但是这个数据却难以提供有关考试成绩分布的信息或解释个别分数的意义。所以在考试分析里还需要计算标准差才更有意义。

计算标准差的一个较为简单的公式是:标准差

标准差能提供有关考试成绩分布的信息。表明成绩是集中的还是分布在较宽的数域中。在比较几组数据时,标准差小的表明成绩集中,标准差大的表明成绩分散。如果考试目的是把学生按语言熟练程度的差别分班,我们就希望分数的分布较宽。例如分级考试就需要考试成绩分布广些,以便达到按学生程度分班的目的。

3.全距

如果两个平均分很相近,我们还可以通过比较全距的方式来加以鉴别。全距(range)是也就是最高分与最低分的差异。全距数值小说明分数比较集中,全距数值大说明分数比较分散。

例如,期末考试甲班与乙班的平均分都是81分。那么,这两个班级是否就是程度相等了呢?看一下它们各自分数的全距就知道了。甲班的全距是15(90~75),乙班是64(95~31)。乙班分数分布从95分到31分,比甲班分数分布分散得多。

如果一位教师在接受新班级的教学任务时,面临这两个班级,虽然两个班的平均分相同,甲班的学生程度比较均衡,而乙班的学生程度差距很大。在开始教课前就了解这一情况,有助于教师在准备课程中考虑对两个班的教学采取不同的方法和策略。

4.标准分

如果一个学生在期中、期末两次英语考试中分数不同,两次考试的卷面难度与内容都不相同,我们如何判断此同学是进步了还是退步了呢?这就不得不通过标准分来解决了。标准分的计算公式为:(式中Z为某考生的标准分数,X为该生的原始分数,为全体考生的原始分数的平均数,S为全体考生原始分数的标准差。)

Z标准分数的意义是:Z分数为0的原始成绩是全班的平均分,Z分数大于0或小于0的原始成绩高于或低于全班的平均分。如下表为某位同学的两次英语成绩:

从上表可以看出,该生上学期英语成绩虽然为88分,但低于全班平均成绩0.2个标准差,而下学期的英语成绩虽然仅为78分,但高于平均水平1.1个标准差,所以下学期该同学英语学习比上学期好,有了明显的进步。

5.相关系数

相关系数,是表示两种变量是如何相互联系的。关系的程度可以通过两组分数的分布来确定。这两个分布由一组成对的分数构成。相关研究就是了解两组分数分布相关联的情况。关系的程度可以通过计算两种变量分数的相关系数来确定。相关系数(correlationcoefficient)是两个变量之间的相关程度的一个指标,通常用符号r来表示,表示两个变量间的线性关系,反映一个变量(x)与另一个变量(y)之间的变化程度。用一个式子可表达为:-1≤r≤+1(绝对值越大,两变量间的相关程度越强,相关系数的正负号表明相关的方向)

相关系数是正的,就说明一种变量分数有可能随另一种变量分数的升高而升高。

相关系数为负,则说明一种变量分数升高时,另一种变量分数就有可能会下降。

相关系数为0,表明两个变量之间毫无相关,或者说两个变量是相互独立的。

在语言教学研究中,相关的计算主要用来:

(1)了解一种测试的试卷是否预测或估计学生参加另外一个相似的测试的表现。例如,高考模拟考试成绩与学生实际参加高考的成绩的相关程度。由于高考试题本身具有较高的效度与信度,可以把它看作标准。模拟试卷与高考相关程度高,说明它有较高的标准参照效度。

(2)了解两种分数分布的相关程度,例如研究一次考试中一项语言技能的测试成绩与另外一项语言技能的测试成绩是否存在相关关系,如听力成绩与阅读成绩相关情况如何。通过此项研究可以观察学生这两项技能的掌握是否有关系。如果存在正相关,特别是相关系数很接近1,就可以说学生听力能力是随着阅读能力的增长而增长的。还可以计算两个考试分数之间的相关关系,以便确定两个考试是否考查了相近的技能。

下面举例说明如何通过相关系数计算来判断一个学校的英语高考模拟试题效度。假定这个学校有500人参加模拟考试和高考。

从计算结果上可以看出此模拟试卷效度很好。

二、试卷题目的分析

考试之后我们不可不对题目进行分析。题目分析对于评价试卷质量和了解学生答题情况以便进行必要的教学补救都是十分重要的。那么我们对题目要做那些方面的分析才算科学呢?题目分析主要获取两方面的信息:难度系数和区分指数。

1.难度系数,是指答对题目人数所占的比例,也就是各个题目的答对率。难度系数是题目的一个重要属性。难度系数取值在0与1之间。数值越接近1表明答对该题的人数越多,也就是题目越容易。难度系数是0则说明题目没有人能够答出。难度系数在0.3以下的是难题;0.7以上的题目是容易题。对测试题目的难度系数值范围没有固定要求,主要依测试目的而定。如果考试的性质是学业验收性考试,例如中学的会考,那么也许有些题目是非常简单的,难度系数值很高。如果考试是选拔性质的,如招生考试,那么试卷中的易——中——难三类题目比例安排就需要进行精心测算。

2.区分指数,是表示某特定题目是否能够区分高分组的学生与低分组的学生及其区分的程度。区分指数是题目的一个重要属性。区分指数高,一方面说明它准确地反映了考生的真实水平。从题目分析角度上来说,区分指数高,就是说总成绩高的考生普遍能够较好地答出较难的题目,而总成绩低的考生通常是在难题上丢分。区分指数的最大值是1表明所有高分组的学生都答对了这个题目,而所有低分组的学生都答错了。如果区分指数是0,就是说可能高分组与低分组有同样数目的学生答对了这个题目,或者说高分组与低分组都没有人答对。区分指数有时出现负值。这时教师需要对题目进行特殊的关注。如果一个题目让高分组的学生迷惑,很少有人能答对,而低分组的学生却有更多的人答对,会是什么原因呢?多数情况可能是题目本身存在质量问题,例如题目答案不正确或是题目无正确答案等等。试卷中一个大题的区分度通常是指各个小题的区分指数的平均值。

对于从事课堂教学的教师来说,我们应当掌握一些简便的题目分析方法会有益于我们的日常教学研究工作。以下举例说明题目分析的步骤:

(1)把所有学生的考试成绩按顺序排列。

(2)在高分端与低分端各选出27%的试卷,作为高分组和低分组。如果全班人数是50人,按比例计算,如出现小数,取整数。这样两个组各有14人。注意两个组的人数必须相同。

(3)制作一个题目分析卡片。把高分组和低分组学生对题目的答卷情况分别填写到下面所示题目分析表中:

通过计算可以看到,例题的难度系数是0.71,属容易试题;区分指数是0.57,有较好的区分度。

但是,对于任课教师来说,了解这些信息还不够。应当了解一下学生在试卷各个部分得分的情况。比如在对一次语法考试结果进行了一些统计分析后,我们得到有关分数,同样采用平均分、标准差计算,我们得到:

这样,我们就更加清楚地知道,学生在这次考试中各个大项的平均得分情况反映出他们各语法知识的掌握情况。进一步仔细观察可以看出非谓语动词大题得分率最低,表明学生在这方面还很欠缺,教师还要在这一方面多下点工夫。

考试具有两大功能,一是评价,二是诊断。考试质量分析,便是体现了考试的诊断功能。打个比方,教师像医生,考试便是学生体检,成绩便是X光透视、CT报告、化验单。教师需要根据这些材料,望闻问切,进行全面、深入、精细的分析,穷尽影响学习质量的各种干扰因素,寻找相应的问题解决策略,最终开出一剂良方来。如果对考试结果只做一些简单的统计,那么我们花费那么多的人力与物力来组织一次次考试岂不是资源浪费?

参考文献:

[1]李奕,张警鹏,郑启跃.用科学的考试评价方法改进学校考试[J].教育科学研究,2009(10).

[2]武尊民.英语测试的理论与实践[M].北京:外语教学与研究出版社,2002.

[3]黄光扬.教育测量与评价[M].上海:华东师范大学出版社,2002.

[4]Butler,C.StatisticsinLinguistics[M].NewYork:BasilBlackwellworldPublishingCorp,

1985.

作者单位:①安徽师范大学外语系2008级教硕班241000;安徽省无为一中238300