加载中…
个人资料
国民英语工作室
国民英语工作室
  • 博客等级:
  • 博客积分:0
  • 博客访问:1,411,853
  • 关注人气:460
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

刘庆思:提高考试分数可解释性研究——基于我国教育考试标准研制的思考

(2019-06-11 21:22:11)
标签:

考试

研究

刘庆思


原创: 刘庆思 中国考试 2019.6.5

2019年第6期第44-48

作者:刘庆思,教育部考试中心,研究员。

摘要:分数处理是教育考试标准中的一项重要内容。经过科学处理,考试分数可以承载丰富且令人信服的信息,具备更高的可解释性。提高考试分数的可解释性,既需合理确定所选用考试分数的类型,选取恰当的分数解释形式,充分挖掘考试分数中蕴藏的信息;又需具备必要的保障条件,包括必要的信度、效度、公平性和清晰界定的构念等。

关键词:分数解释;量表分;临界点分;常模参照考试;标准参照考试

考试分数通常以数字的形式呈现,是传达考生在考试中表现的主要信息。考试分数中往往蕴藏着丰富的信息,能够在人才评价和选拔、教学研究、教学评估中发挥重要作用,一直受到考试相关各方的重视。然而,考试分数并非自产生之初就承载这些信息、具备这样的功能,其价值提升在很大程度上可以说是“拜分数处理所赐”,分数处理的基础是考试的各个环节严格遵守教育考试的各项标准。
  分数处理泛指针对考试分数开展的一系列工作,包括分数合成、分数转换、分数链接等,其目的是丰富考试分数所承载的信息,以便对考试分数进行解释,或者说是提高考试分数的可解释性。考试分数的可解释性可简单地理解为能够对考试分数进行合理解释的程度。提高考试分数的可解释性,既需要对原始分进行相应处理,选取恰当的分数解释方式,又需要尽力丰富考试分数所承载的信息,同时还需具备必要的保障条件。这些重要而复杂的事项,均应在教育考试标准中提出和明确。

.我国教育考试标准的研制

目前,国家大力倡导提高质量意识,将建章立制、标准建设作为确保和提高质量的一项基础性工作。习近平总书记在致第39届国际标准化组织大会的贺信中指出:“标准是人类文明进步的成果。标准助推创新发展,标准引领时代进步。”教育部部长陈宝生在一次讲话中指出,“教育进入了全面提高质量的新阶段,所有工作都要做到以质量为纲。没有标准就没有质量,所有的质量都是按照一定标准定义出来的,要以标准指导实践。”教育考试标准是教育标准的重要组成部分,其研制工作已成为当务之急。
  英美等西方国家历来重视教育考试标准的研究。1966年,美国教育研究协会(AERA)、美国心理学协会(APA)和全美教育测量委员会(NCME)协同制定和发布了《教育和心理测量标准》(以下简称《标准》),并根据理论和实践发展的需要进行了若干次修订。美国教育考试服务公司(Educational Testing ServiceETS)在《标准》的基础上,制定了用于指导本单位工作的《ETS质量和公平标准》。欧洲教育测量协会(AEA-Europe)、欧洲各主要考试机构也都制定和发布了用于指导本行业和本机构工作的考试标准。虽然因国情和教育考试实际情况不同,这些标准难以直接应用于我国的教育考试实践,但对我国教育考试标准的制定有着重要的参考价值。

我国教育考试标准将在考试基础和具体实践2个方面对考试研究和实施提出要求。考试基础总体阐述对教育考试的一些基本要求,主要反映在考试的有效性、稳定性和公平性3个方面;具体实践则系统描述对考试设计和命题、考试实施、分数处理等考试各个环节的要求。这一标准无疑将有助于提高考试分数的可解释性,有助于规范我国各类教育考试,提高我国教育考试的整体水平,协助推动我国教育考试的科学性、规范性,加快推进我国由考试大国向考试强国转变。

2.考试分数及其解释的基本内容

考试分数及其解释主要是指考试分数的类型和分数解释的形式,二者均会对考试的科学性和考试目的的实现产生重大影响,需要在考试设计中重点考虑,自然也应该是教育考试标准研制中重点关注的内容。

2.1考试分数及其类型  

考试分数主要有原始分、量表分和临界点分3种类型。原始分是指将试卷中各题分数相加得到的分数,虽操作简单、容易理解,但若无其他信息的支持很难对其进行令人信服的解释。采用原始分,莫说是从不同学科,即使是从同一学科不同试卷得到的分数也难具可比性,考试分数提供的信息很少,可解释性自然就较低。
  国内外标准化程度较高的考试往往采用量表分或临界点分报道考试成绩,如英美各国的几乎所有全国性考试、我国的CETPETS考试等。所谓量表分,简言之就是依据帮助进行分数解释的量表报道的考试分数。考试研究人员可以通过定标建立分数量表,并根据相应规则将原始分转换为量表分,有效提高考试分数的可比性,帮助对考试分数进行解释。量表分既可用于对考试进行常模参照性解释,也可用于进行标准参照性解释。临界点分是指分数量表上的一个特定点,考试会对该点上下的考试分数进行区别性处理、解释和报道。一项考试可以设置一个临界点分,如合格分数;也可以设置多个用于区分不同分数区间的临界点分,以划分出多个级别、能力区间。与量表分相同,临界点分也可以向考试成绩使用者传达大量信息,如:某考生的能力水平在全体考生中的相对位置,参加不同考次的考试所得到等级的可比性,考生能力的发展情况等。临界点分主要用于对考试进行标准参照性解释,但有时也可用于进行常模参照性解释。

2.2考试分数解释及其形式  

考试分数解释主要分为常模参照和标准参照2种形式。所谓常模参照性分数解释,是指将某考生的表现与特定参照群体表现的分布进行比较后的解释。常模一般是指对用于代表整个群体特定样本考生分数的分布或频率进行总结后得出的统计资料或列表数据。此类分数解释的对象包括各种类型、不同规模的考试,同时也包括采用原始分、量表分、临界点分等不同分数报告类型的考试。
  所谓标准参照性分数解释,是指将某位或某群体考生的表现与已经界定的标准进行对位后的解释,此标准可以是答对某些试题的比例、答对某类型试题的可能性,也可以是具备某能力水平的可能性,标准的建立在很大程度上依托专家判断和对以往大量数据的统计分析。相对常模参照性分数解释而言,标准参照性分数解释明显能够为考试用户提供更为丰富的信息,不仅能将考生分成不同的水平层次,还能报道考生对所考查内容掌握的程度;不仅能用于人才选拔、教学诊断,还能用于教育成效评估、考生个体和群体能力评价等。

常模参照和标准参照只是针对考试分数进行的2种不同解释,并非互不相容。当分数报告采用量表分或临界点分时,对同一考试分数,可以同时进行常模参照和标准参照性解释,当然,前提条件是各分数解释都必须经过效度验证。此外,也可以就原来采用的单一分数解释形式进行扩展,如:针对原来采用常模参照性分数解释的考试,可以通过大量研究确知各分数对应的考生能力水平,依据新建立的量表进行标准参照性解释;也可以针对本来进行标准参照分数解释的考试,在建立相应常模的基础上,对考试分数进行常模参照性解释。

3.提高考试分数可解释性应关注的主体内容

为了对考试分数进行科学合理、令人信服的解释,往往需要先行对其进行适当处理,或保持各题分数相加后得到的原始分,或将原始分按照既定规则转换成量表分或临界点分。考试分数解释所关注的问题是,如何使考试分数具有明确的意义并将其传达给考试相关人员。细究起来,考试分数能够传达的信息大致可分为2类:一类是偏统计学意义的信息,包括考生个体或特定考生群体的所处位次、位次变化情况等,这往往要求对分数进行常模参照性解释;另一类则是将统计信息与考试相关学科的内容、考生能力和未来学习或工作岗位的需求进行综合评价后得出的信息,主要是指当考生获得某一考试分数或处于某临界点分之间时,应具备的能够完成某类考试任务或现实生活中某类任务的能力,这往往需要对分数进行标准参照性解释。因此,提高考试分数的可解释性需要重点关注以下3个方面内容。

3.1 综合考虑以确定所采用考试分数类型  

采用原始分仅能报道一些简单的分数信息,信息量太小,且很难进行令人信服的解释。采用量表分或临界点分报道考试成绩,已经成为世界各主要考试机构在处理大规模考试时的共识,这2种分数类型都能够向考试使用者传达丰富且令人信服的考试信息,便于对考生个体和特定群体考生的能力水平、教学成果等进行静态和动态的评价。具体是采用量表分还是临界点分,取决于考试机构对考试性质、目的及后效作用的认识和对考试区分能力的期望。例如,美国考试机构主办的考试明显倾向于采用量表分,英国考试机构主办的绝大部分考试则一直采用临界点分;我国的PETS考试同时采用量表分和临界点分,CET考试曾经同时采用2种分数报道形式,但目前仅公布量表分。
  量表分实际上是对依据相应量表所报道各类考试分数的总称,主要包括百分等级分、标准分、T分数、能力值分数等,各种形式都有其特定优势和与生俱来的缺陷,对分数处理的技术水平有着不同的要求,适用范围也有所不同。临界点分是对采用不同数量临界点分的通称,既可分为合格/不合格分数、优秀/良好/合格/不合格分数,也可简单分为0~5分或0~9分,而且确定临界点的方法也是多种多样。考试分数类型的确定是考试设计中的一项重要工作,为了确保考试的科学性,考试设计人员有义务综合分析考试的性质、目的,慎重选择适合考试特定情况的分数类型,力争使考试分数富含信息,且便于解释。

3.2 科学确定分数解释形式  

与考试分数类型的确定一样,考试分数解释形式的确定亦主要取决于考试设计人员对特定考试性质和目的的界定。若某项选拔性考试仅关注考生的排位顺序,而不在意考生的能力水平,分数解释仅采用常模参照形式即能达成目的;若某项证书类考试仅关注考生能够完成特定任务的能力,而不在意考生的排位顺序,则仅对考试分数进行标准参照性解释即可完成对考生能力层次划分的任务;若某项考试既需要将考生排出先后顺序,又需要将考生按照能完成相应考试任务的情况划分出若干层次,则必须同时对考试分数进行常模参照和标准参照性解释。

常模和标准的建立是对考试分数进行解释所需的基础性工作,二者在其后的考试分数解释中发挥着举足轻重的作用。建立考试常模,首先需要对考生群体进行清楚描述,之后根据相应规则从中选出足够数量且具有代表性的样本考生;保持常模的稳定性,并适时进行必要的调整也是常模建立和维护的一项重要任务。建立标准的关键是组织经验丰富的学科专家团队,借助考试数据的支持,采用相应的标准制定方法和流程,逐步明晰各能力层次考生能够完成的考试任务,确定不同能力水平对应的水平等级或考试分数。

3.3 深入研究考试分数与考生能力间的关系

考试所报道的分数都带有大量信息,可以反馈给教学,或者提供给用户使用。从考生分数推断其能力,需要在试题与考生间,或者说在考试分数与考生能力间建立起稳定的互动关系,这种关系无疑有利于丰富考试分数所承载的信息,提高考试分数的可解释性。
  在考试分数和考生能力间建立稳定的互动关系,对考试设计和命题、考试实施、试卷评阅、分数处理等考试的各个环节都有着极高的要求。为确保考试在相当长时间内的稳定性,以学科专家为主的考试设计人员需要依据考试的性质和目的精心设计考试,具体来讲:一是要明确界定考试构念,构建起所需考查能力的模型,明晰所考查能力的构成要素;二是要悉心设计能考查出这些能力构成要素的考试任务,并确保其对应考查内容的代表性;三是要选定能够较好地落实这些考试任务的考试形式,纸笔考试、面试或实际操作型考试;四是研发或选定符合考试内容和考试形式需要的考试题型;五是要根据各能力要素的重要程度、各考试任务的难度和对答题时长的要求等,恰当设定各部分考查内容的分值比例。考试命题人员需要严格遵循考试设计的要求,命制出考查内容恰当、难度适度的试题,并组配出内容均衡、难度基本稳定、对各考生群体较为公平的试卷。考试实施人员应严格按照考试实施规则组织考试和评卷工作,确保考试实施的安全性和考试的公平性。考试评价人员应当采用相应的测量模型,借助大量考试数据的支持,对考试产出的分数进行必要的处理,在考试分数和考生能力间建立起稳定、可靠的关系,以使考试成绩使用者可以由考试分数而知道考生能力,了解其成功完成某类任务的可能性。如此,考试分数即承载了大量的信息,具备了较高的可解释性,能够很好地满足考试成绩使用者的各种需求。

4.提高考试分数可解释性的必要条件

提高考试分数的可解释性是一项综合性较强的系统性任务,要求考试各环节工作人员切实做好自己的本职工作,着力提升考试的科学性、规范性和公平性;同时,也需要考试研究人员的深度介入,要持续不断地对考试分数解释的效度进行研究,为考试的改革完善提供参考。总体来讲,提高考试分数的可解释性须具备以下5个条件。
  第一,考试应具有较高的信度。信度反映考试结果的稳定性程度,较高的信度是考试分数可靠、可信的必要条件。提高考试信度的途径很多,主要有适当增加试卷长度、均衡试题难度分布、提高试题区分度、提高主观性试题评分的准确性等,这需要考试设计和命题人员、评卷人员的共同努力。
  第二,考试分数解释的效度须满足考试设计的需要。效度反映的是证据和理论对考试分数解释提供支持的程度,是研发和评价考试时应该考虑的最为基本的内容。效度验证涉及考试的各个环节,对与考试分数相关的各个推论和假设进行论证、对考试分数解释和使用的效度进行验证,是确保考试分数可解释性的必要条件。
  第三,考试公平性须得到切实保障。考试公平性是一个集政策性和技术性于一体的问题,往往集中反映在考试分数的产出和使用上,无疑会对考试分数的可解释性产生重要影响。考试公平性同样涉及考试的各个环节,主要体现在考试机会的提供、考试任务的可达性、考试结果的使用等,保障考试的公平性需要在考试设计和运作中认真考虑和保障各群体考生的权益。
  第四,考试构念明晰。构念界定是考试设计中需要重点考虑的内容,是明确能力构成要素的重要手段,是确认考试分数配置和使用的合理性、提高考试分数可解释性的必要前提。考试构念与考试分数密不可分,构念包含的内容越多,需要从考试中获得的和向考试用户报告的分数信息也就应该越多。
  第五,考试分数得以科学处理。考试分数往往是考试相关者最为关注的内容,而从考试设计到分数的报道和使用,考试的各个环节几乎都涉及对考试分数的处理。考试设计中会涉及考试分数的分配与合成,主观性试题的评阅中会涉及评分模式,考试成绩处理则会涉及分数链接技术、分数报道的内容和方式。只有对与考试分数相关的各项内容进行整体设计,才能确保考试所产出分数具有较高的可解释性。

5.结束语

考试分数的解释和使用是考试过程中的最后一个环节,也是关乎考试目的能否实现的关键内容,考试标准研制中需要予以足够的重视。科学确定所采用考试分数的类型及分数解释的形式,深入研究考试分数与考生能力间的关系,是丰富考试所承载信息、提高考试分数可解释性应该进行的重点工作。为了提高考试分数的可解释性,必须采取措施确保考试的信度、公平性及分数解释的效度,同时应该关注考试各个环节中与分数解释相关的内容,包括考试构念的界定、评分模式的确定、分数处理的方式等。只有这样,才能确保考试的科学性,切实提高考试分数的可解释性。

 

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有