简介:1985年《教育与心理测验标准》(第5版)出版之前,效度研究的核心概念是“效标(criterion)”,效度研究被视为一种用“效标”对测验的效度进行证明(verify)、对测验分数做出有效(valid)解释的过程。1985年以后,效度研究的核心概念是“证据(evidence)”,效度研究被视为一种通过积累证据对测验的效度进行支持(suppo~)、对测验分数做出合理(reasonable)解释的过程。关于效度的这种理解,突出体现在1999年出版的《教育与心理测验标准》(第6版)中。美国教育协会和美国国家教育测量学会共同组织编写的《教育测量》在业内被称为“教育测量领域的《圣经》”。2006年《教育测量》(第4版)出版以后,效度研究的核心概念演变为“理由(warrant)”,效度研究被视为一种通过构造“理由系统”和“理由网络”对效度进行“论证(argument)”、对测验分数做出可接受的(plausible)解释的过程。本文结合笔者的考试实践,介绍了效度概念的新发展。
简介:本研究基于多层面Rasch模型,通过分析评分结果对PRETCO口试评分标准的效度进行了验证,结果发现:PRETCO口试评分标准能够有效区分考生的能力;评分员评分的内部一致性总体较好;虽然评分员之间的严厉度有明显差别,但是这些差异并不影响总体的评分质量;评分员使用了评分标准中所有分数段;各个分数段的评分总体分布较为合理;因此,PRETCO口试评分标准的整体效度较高。但是,研究同样发现一些问题:“朗读”任务评分标准中两个分数段与考生能力出现了负增长;“陈述”任务评分标准一个分数段的使用频次过低,个别分数段阈值差距较小,评分员对这些分数段难以把握,容易产生混淆。基于此,本研究尝试为完善PRETCO口试评分标准以及评分员的培训提供一些启示与建议。