考试学——观文析字abc
(2014-04-28 16:16:44)
标签:
教育 |
分类: 评估测量 |
出处: 翻译出自1999年由美国教育研究协会(AERA)、美国心理学协会(APA)和全美教育测量学会(NCME)三家共同修订后颁布的《Standards for Educational and Psychological Testing》(《教育与心理测试标准》)。
在项目反应理论(IRT)中,指受测者在测验所测量的能力或特质方面理论上的数值,类似于经典测量理论中的真实分数。
应用标准化测验评价一个人在认知、心理动力或身体功能方面某个已有定义的范畴内当前表现的过程。
对受测者在某一特定的知识或技能方面的能力水平的描述,通常是将这种能力按程度类别定义,并用一个连续数轴表示,常常是从“基础”到“高级”、或从“新手”到“专家”来进行标记。这一序列构成了众多的能力表现水平分类。
评价已经在某一内容范畴接受了教育的受测者对该范畴的知识和技能掌握程度的测验。
一种测试序列的形式。在这种测验序列中,依据试题的计量心理学特性和试题内容,下一试题的选择将主要依据受测者对上一试题的反应。
两个或多个被认为可以互相替换的测验试卷。它们为了相同的目的,以相同的方式测量相同的建构,并采用相同的施测指令。这是一个一般性的术语,包含三种情况。平行试卷
两个或多个测验试卷中所共同包含的一组试题,用来将这些试卷的分数进行等值。
从测验或其它来源中获得信息的一种系统性的方法,其结果用于做出关于人、物或项目的推论。
B,b
将测验的翻译版本再翻译回原来的语言。经过回译的测验版本与原文测验版本相吻合的程度,可以显示翻译的准确性。
作为整体单位施测的一组测验。通常几个测验的分数均转换为量尺分数,使得它们能互相比较,或合并起来作为决策的依据。
偏差是测验分数在统计意义上的系统性误差。在讨论测验的公平性的时候,偏差是指测验分数中那些建构代表性缺乏或建构无关因素的部分,这些部分不同程度地影响不同考生群体的成绩。
C,c
1.在链接测验分数量尺时,建立测验分数量尺的过程。它包括计算平均数、标准差、可能的分数分布曲线等等,从而使一个量尺上的分数和另一个相关的量尺上的分数具有相同的意义。
2.在试题反应理论中,确定考题回答函数的参数的过程。
一种计量心理学理论,其基本观点是指一个人的测验的观察分数由两部分组成:即真实分数与独立于真实分数的测量误差。
一种表示考试内试题间一致性的信度系数。它的计算结果视以下几方面而定:测验分解成多少个部分(试题、分测验、评分员等)、各部分之间的相互关系和总的测验分数的方差。也称为“克隆巴赫Cronbach
为了对受测者的认知能力做出判断而系统地收集测验分数及相关资料的过程。主要指在感觉、知觉、语言、空间和心理运动信息的加工、摄取、保持、概念化和组织过程中运用各种有关脑力活动的能力。
由计算机施测的适应性测验。
通过计算机施测的测验。测验的试题在计算机上显示,受测者通过键盘、鼠标或其它答题装置来回答试题。
几个分数按照一定公式组合而成的分数。
分数量尺中两值之间的距离。根据一定的概率,有关分数或参数将落在此区间内。在本标准中,这一术语还指贝叶函数的可信度区间。这些区间为未知参数落入某个指定区间的概率下定义。
测验所准备测量的概念或特征。
建构所标记的一组互相关联的属性(如行为、态度、价值)。典型做法是,从一个建构范畴里抽取有关属性的样本,
1.
2.
这个术语用于表示测验分数的意义,说明考生在测验所要测量的心理学建构上所处的位置。建构是一个从多种证据推论中得出的一个理论性的变量。这些证据可以包括测验分数与其它变量的互相关联的关系、测验的内部结构、对解题过程的观察、以及测验的内容等等。
在测验中要求考生必须自己做出答案或是做出实物的试题,不是从所列答案中做出选择。简答题要求考生回答一些词语或数字,伸展题则要求考生至少写出一些句子。
测验所要测量的一组行为、知识、技能、能力、态度或其它特点。它的表现形式是一个详细的规则说明。该说明常常把考试内容划分为若干类别,试题则根据这些类别来划分。
对一个宽泛目标的陈述,描述当学生完成某一年级或某一阶段的学习时,对他在某一学科应达到的水平的期望。
这是1974年《标准》中曾采用过的一个术语,指效度的一种或某一方面,即“测验的使用者希望估计测验在它所要代表的环境整体中一个考生如何表现”(第28页)。在1985年版的《标准》中,这一术语被修改为“内容关联证据(content-related
evidence)”,强调这些证据仅仅是整体效度概念中的一种证据。在本版《标准》中,这类证据被表述为“基于考试内容的证据(evidence based on test
content)”
由权威机构向某人提供具有某种资格的证明过程,包括授予证书、执照、学位等。它表明某人在一定的知识或活动范畴里的表现水平达到了可以接受的程度。
参看“标准参照性测验”。
一种允许使用者根据功能性表现水平来解释分数的测验,以此区别于相对于他人的表现水平的关系所作的分数解释。标准参照性测验的例子包括(将考生的得分)与分数线的比较,基于期望表的分数解释,范畴参照性的分数解释等等。
一种效度研究方法。将从一个样本中推导出的用作预测考生成绩的评分系统或一组权重应用于第二个样本,以考察它们的预测稳定性。
分数量尺上的特定点,对于达到这一点与未达到这一点的考生,可以做出不同的分数解释。
D,d
原始分数经过数量转换得到的分数。(例如,将原始分数转换成百分比等级或标准分数。)
试题的一种统计属性,指具有相同总分的不同考生群体在同一试题上的平均分数有差异。有的情况下,差异表现在选择不同备选项的比率方面。即DIF。
选择测验试题以代表某一特定行为表现全域的过程。
E,e
建立在数据上,而不是某种逻辑或理论上的证据。在本标准中,这一术语并不是指特定的证据类型,这与在有些情形下将此术语可以等同于效度的准则关联证据的用法形成对比。
将两个或多个测验试卷制作成涵盖相同、明确的内容范畴、符合相同的统计条件要求,并在完全相同的条件下施测(替换试卷)。经过统计修正,替换试卷得到的分数共享一个相同的量尺。
将两个或多个基本平行的测验试卷置于同一分数量尺的过程。
观察分数与相应的真实分数(或熟练水平)之间的差异。
F,f
1.
2.
描述一组变量间相互关系的几种统计方法中的任一种。这些统计方法可以推导出被称为因素的新的变量,这组新变量的数目比原来的一组变量的数目要少。
因素分析中得到的一组因素。技术上讲,指一组变量中每个变量与经过因素分析得出的每个因素之间的关联函数。
在测试中,所有的受测者都接受相等的评估方式的原则。
在分类、诊断或选拔中,将事实上已达到或能够达到规定标准的人评估或预测为不合格者的错误。
在分类、诊断或选拔中,将事实上未达到或不能达到标准的人评估或预测为合格者的错误。
旨在检查测验程序是否到位的实际施测,通常包括施测、测验回答,评分和成绩报告。
附在某一分数、某一试题或其它实体上的指示标记,用于标明分数的一种特殊状态。一个有标记的分数通常意味着这个分数来自于一种经过校正的、非标准的施测。一个有标记的试题通常意味着这个试题具有一些不应具有的特征(如过度的试题功能差异)。
G,g
在测试中,一个受测者在两个不同时间参加同一测验或同一测验的等值试卷时,测验分数之间的差异。通常,一次在教育措施之前,一次在教育措施之后。
一个包含了一种或多种独立误差来源的信度指数。它由以下二者的比例构成:(a)在所研究的考试里,被视为测验分数方差的各个组成部分的方差之和;(b)上述方差和加上这一测试条件下可以归因于各种误差来源的方差的加权总和。通常可以用解释信度函数相同的方式来解释这类因运用概化理论而产生的指数。
经典信度理论和方法论的延伸。在这个过程中,通过运用不同的实验设计和方差分析的统计方法来估计源自某一误差来源的误差大小。这种分析可以显示测验分数在超出某一研究的特定试题取样、特定受测者样本、特定观察条件时的可推广性。
某一特定群体所处的学校年级水平,其给定的分数是这一总体的分数分布的中位数。
H,h
测验结果可以对测试所涉及的受测者或项目、单位造成直接的和重要的后果的测验。
I,i
遵循某一种被认可的智力理论,用于测量个人认知功能水平的心理测验或教育测验。
测验分数信度的一个指标,它根据考试的各个部分的试题回答之间或测验分数之间在统计上相互关系而导出。
在对受测者的工作或成绩进行评价时,两个或多个评分者之间的评分一致性。有时称为“评分者间信度”。
一个调查或核对表,通常是自陈式的,可以借其获得有关个人的信息,如个人意见、兴趣、态度、爱好、个性特征、动机,以及对情境与问题的典型反应方式。
测验中的一个说明、问题、练习或一件事情,受测者需要对其做出选择性或文字回答,或完成规定的任务。
与特定试题回答概率有关的数学函数,通常是反映正确答案概率与所测量属性的关系的曲线。也称为“项目回答曲线”,或“项目反应函数”,或ICC。
试题总和。在编制测验时从中选取构成测验或测验量尺的试题;在进行适应性测验时,从中为每个受测者选取测验试题的整套试题。
它表示一个数学模型,受测者回答试题的表现和他在所测量的能力、特质或熟练程度方面之间的关系,后者通常用θ表示。在试题以0-1(错误-正确回答)评分的情况下,在θ的取值范围内,这一模型描述 了θ和具有θ能力水平受测者的平均分数(P)之间的关系。在大多数应用中,连接P和θ的数学函数被假设为逻辑(logistic)函数,这一函数与累计正态分布很相似。
L,l
将两个或多个测验放到同一分数量尺上,使测验分数可以互相替换。常用的链接方法有好几种。
常模的一种,
那些测验结果对于与测验有关的受测者、项目、或机构仅仅造成有限的或间接影响的测验。
M,m
一种测验方式。根据这种方式,数量巨大的一组试题分解并组成许多相对短一些的测验,每个短测验随机地施测于受测者的一个样本。这样,在一个项目评价中,就不必将所有的试题施测于所有的受测者。
一种统计研究方法,根据这种方法可以将数个独立、可比较的研究结果结合在一起,据此确定整体效果的大小或两个变量之间联系的紧密程度。
在测验链接的过程中,不加修饰语的“调节”通常是指统计意义上的调节,指对一个测验的分数量尺进行调整,通常是使一个测验分数的平均分和标准差与另一个测验分数分布的平均分与标准离相等。
在回归分析中用于解释(或部分解释)两个变量间相关的变量。
N,n
分数解释是基于受测者表现相对于特定参照群体中的受测者表现比较之上的。
一种测验导出分数,通过选择一个转换系数,使特定总体的导出分数的分布非常接近正态分布。
总结了一个或多个特定群体的测验成绩分布状况的统计的或列表的数据。这些群体可以是不同年龄或年级的受测者。常模通常用来代表一些大的群体,如全国的受测者。常模所代表的考生群体被称为“参照群体”。
O,o
对某种干预措施成效的评价。
P,p
测验分数的一点,低于该分数的人占一定百分比。
在多数情况下,是指在一个特定分数的曲线分布中,低于某一给定分数的百分比。有时,这一百分比包括所有的在这一给定分数点上的分数;
在模拟真实情景的条件下,以成果或行为作基础的测量。这种情形的测量需要真正运用具体的知识或技能。
1.
2.
旨在检验测验或试题的某些方面而施测于一组受测者样本的测验。这些方面包括指导语、时限、试题解答、试题解答备选项等。
在评估中,根据一些特定的原则经过一段较长时间而系统收集或积累的教育或工作成果。
一个测量工具对测量误差敏感度的一般术语。
在预测某一特定群体的测量准则能力表现时的一种系统性高估或低估,界定这一特定群体的因素与效度标准行为本身无关。
这是1974年版《标准》中使用的一个术语,指“与测量准则有关的效度”的一种类型,所适用的情况是“当人们试图通过受测者的测验分数来推测他在被称为测量准则的变量上最可能处于的位置”(第26页)。在1985年版的《标准》中,“与测量准则有关的效度”的提法被改为“与测量准则有关的证据”,这种改变意在强调效度概念是一个整体,而与测量准则有关的证据只是所有效度证据中的一种。在本《标准》中,上述说法又变为“基于与其它变量之间关系的证据”,这些证据包括“测验与效度准则之间的关联”。预测证据指那些测验分数可以在多大程度上预测考生将来获得的测量准则分数。
围绕一组有计划的程序的使用、运作和效果,对系统性证据进行收集和综合。
在测验制标的过程中使用的一种链接两个考试的方法。既用测验甲的分数来预测测验乙的分数。测验乙的预测分数是在测验甲的某一给定的分数上所有受测者在测验乙上的平均分。与回归分析相似,乙对甲的推测映像不同于甲对乙的推测。
R,r
非系统性误差;与其它变量之间没有关系的量(常常只能间接观察)。
未经调整的测验分数,常由回答正确的试题的数目而定。更一般地讲是测验试题分数或其它组合的总和。在试题反应理论中,受测者水平的估计值(通常表示为
由测验常模所代表的受测者总群体。基与考试常模的样本必须能准确估算参考总群体分数分布。参考总群体可以通过年龄、年级、测试时的临床状态或其它特征来定义。
根据分数排名、或根据一个或多个分数的参考分布的平均分数导出的分数解释,对一个人的测验得分、或一个可界定群体的平均分赋予意义。
一项测验反复施测于一组受测者时,得分的一致性。据此可以推断一个受测者测验得分的可靠性或可重复性,可以推断一个群体测验得分免于测量误差影响的程度。
一个不以任何具体的东西为单位的指针。它反映测验分数免于测量误差影响的程度。这一指标类似(或即是)一个积差关联系数。在经典测验理论中,这一指标被定义为一个给定受测者群体的真实分数方差与观察分数方差的比。估算这一系数的条件会包含一些变化因素,诸如不同测验试卷、不同测量条件、不同的计分员或评分者、不同的临床医生数目,有时,还可能需要受测者的多种成果表现。由于这些条件的变化产生了一些资格限定性的形容词,如替换考卷信度、内部一致性信度、预测复测信度等等。
S,s
从被称为“总体”(或“总群体”)的较大的一组潜在成员中选择有限的被称为“取样单位”的一组成员(如受测者、试题等等)。随机抽取的是随机样本,即任一成员的选取与其它成员无关。分层随机样本是一组随机样本,其中每个样本都有规定的大小,来自数个不同的层次,
1.
2.
参看“导出分数”。
建立一个量尺或量表分数的过程。标定过程可以通过将来自不同测验或不同测验试卷的分数放在一个共同的量尺上来加强分数的解释;也可以通过设计一个量尺分数以支持标准参照性或常模参照性的分数的解释来加强分数解释。
在对每个试题或一组试题的解答评分时建立的一些准则,包括规则、原则和演示。这一术语通常用于非选择题的情况,评分过程需要对受测者所做练习的解答做出评价。影响评分规则的因素很多,包括需要做出判断的程度、所定义的可以区分考生水平的等级数目、评分员是否可以给半分(或小数点分数)、或其它因素等等。
在选拔决策或诊断过程中,用于对受测者进行初步粗略分类或摸底的测验。
根据经典测验理论导出的一个公式,从一个特定长度的考试的信度推导出一个较短或较长的测验的信度。
通过将一个考试的试题一分为二为独立的两部分之后计算两部分得分之间的关联系数而得到的测验内部一致性信度系数。这两部分半个考试的分数之间的关联系数经过斯皮尔曼-布朗公式的调整,可以作为原测验的替换试卷信度的一种估算值。
通过在相同条件下重复施测同一测验(或测验的平行试卷)而得到的考生观察分数的离差分数。由于这一数据通常很难获得,一般得通过群体数据(group data)来估计测量标准误差。
一种导出分数,其分布对一个特定的总体已有现成方便的平均数和标准差。这一术语有时专门用于那些平均分为0.0、标准差为1.0的分数分布。
1.
2.在测验制作过程中,建立分数常模的过程。这种常模是建立在受测者群体的代表性样本的表现水平之上的。
3.在统计分析中,对变量进行转换的作法,使其对特定样本或总体的分数标准差为1.0。参看“标准分数”。
旨在反映受测者是否已掌握经过系统描述的内容和能力表现标准的评价。
对阿尔法系数所做的修正,使其更适合多因素测验(multi-factor
test)。其做法是将测验的总分定义为是由多个单因素的测验部分(single-factor part-tests)
与测验表现无关的一种稳定的(通常需要通过间接观察来了解的)分数构成部分。
U,u
指测验仅有一个维度,或仅有一个潜在变量。
关于一个受测者样本的统计性描述(包括百分等级),这个样本并不是一个严格定义的总体的代表性样本。例如,某一时间段的全体受测者,或一组自选的受测者。也被称为“项目常模”。
V,v
对测验分数的意向性解释的效度进行考察的过程。
为实现测验的意向性用途,已经积累的证据和理论支持分数的特定解释的程度。
在测试中,分别来自多种不同的方差构成观察分数的总方差。借助方差分析方法得到的这些方差,通常可以反映测验情景、地点、时间、测验试卷、评分者,以及其它一些效应。