加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

考试学——观文析字abc

(2014-04-28 16:16:44)
标签:

教育

分类: 评估测量

 

 

 考试学——观文析字abc

 

     来源:http://niea.neea.edu.cn/show_sort.jsp?class_id=40_10&supclass_id=

    我们希望通过观文析字栏目普及一些考试评价的常识,避免对考试评价领域知识的理解产生疑义,为研究者和公众提供一个统一的对话语境。

出处: 翻译出自1999年由美国教育研究协会(AERA)、美国心理学协会(APA)和全美教育测量学会(NCME)三家共同修订后颁布的《Standards for Educational and Psychological Testing》(《教育与心理测试标准》)。

  本词汇表对该领域所使用的术语进行了定义。在文献中可以见到许多术语具有多种定义,而且技术含义可能与一般含义不同。  按照字母排序:AZ
 

 Aa

Ÿ           ability/trait parameter(能力/特质参数)

在项目反应理论(IRT)中,指受测者在测验所测量的能力或特质方面理论上的数值,类似于经典测量理论中的真实分数。

 

Ÿ           ability testing(能力测试)  

应用标准化测验评价一个人在认知、心理动力或身体功能方面某个已有定义的范畴内当前表现的过程。

 

Ÿ           achievement levels/proficiency levels(学业水平/熟练水平)

对受测者在某一特定的知识或技能方面的能力水平的描述,通常是将这种能力按程度类别定义,并用一个连续数轴表示,常常是从“基础”到“高级”、或从“新手”到“专家”来进行标记。这一序列构成了众多的能力表现水平分类。

 

Ÿ           achievement testing(学业成就测试)

评价已经在某一内容范畴接受了教育的受测者对该范畴的知识和技能掌握程度的测验。

 

Ÿ           adaptive testing(适应性测试)

一种测试序列的形式。在这种测验序列中,依据试题的计量心理学特性和试题内容,下一试题的选择将主要依据受测者对上一试题的反应。

 

Ÿ           alternate forms(可替换试卷)

两个或多个被认为可以互相替换的测验试卷。它们为了相同的目的,以相同的方式测量相同的建构,并采用相同的施测指令。这是一个一般性的术语,包含三种情况。平行试卷 (parallel forms)具有同等的原始分数平均数,同等的标准差,同等的误差结构,在任何给定群体中与其它测量具有同等的关联系数。等同试卷(equivalent forms)不具有像平行试卷那样的统计上的相似性。但是,其原始分数中不相似的方面可以通过将其转换为导出分数来弥补,也可以通过建立试卷专用的常模表来弥补。可比较试卷(comparable forms)虽然具有很高的内容一致性,却不具有说明统计特性上一致性程度的资料。

 

Ÿ           anchor test(锚测验)

两个或多个测验试卷中所共同包含的一组试题,用来将这些试卷的分数进行等值。

 

Ÿ           assessment(评价)

从测验或其它来源中获得信息的一种系统性的方法,其结果用于做出关于人、物或项目的推论。

Bb

Ÿ           back translation(回译)

将测验的翻译版本再翻译回原来的语言。经过回译的测验版本与原文测验版本相吻合的程度,可以显示翻译的准确性。

 

Ÿ           battery(成套考试)

作为整体单位施测的一组测验。通常几个测验的分数均转换为量尺分数,使得它们能互相比较,或合并起来作为决策的依据。

 

Ÿ           bias(偏差)

偏差是测验分数在统计意义上的系统性误差。在讨论测验的公平性的时候,偏差是指测验分数中那些建构代表性缺乏或建构无关因素的部分,这些部分不同程度地影响不同考生群体的成绩。

Cc

Ÿ           calibration(校准)

1.在链接测验分数量尺时,建立测验分数量尺的过程。它包括计算平均数、标准差、可能的分数分布曲线等等,从而使一个量尺上的分数和另一个相关的量尺上的分数具有相同的意义。

2.在试题反应理论中,确定考题回答函数的参数的过程。

 

Ÿ           classical test theory(经典测量理论)

一种计量心理学理论,其基本观点是指一个人的测验的观察分数由两部分组成:即真实分数与独立于真实分数的测量误差。

 

Ÿ           coefficient alpha(阿尔法系数)

一种表示考试内试题间一致性的信度系数。它的计算结果视以下几方面而定:测验分解成多少个部分(试题、分测验、评分员等)、各部分之间的相互关系和总的测验分数的方差。也称为“克隆巴赫Cronbach 阿尔法” 。对于二进制记分的试题,又称为KR20系数。

 

Ÿ           cognitive assessment(认知评价)

为了对受测者的认知能力做出判断而系统地收集测验分数及相关资料的过程。主要指在感觉、知觉、语言、空间和心理运动信息的加工、摄取、保持、概念化和组织过程中运用各种有关脑力活动的能力。

 

Ÿ           computerized adaptive test(计算机化适应性测验)

由计算机施测的适应性测验。

 

Ÿ           computer-administered test(计算机施测的测验)

通过计算机施测的测验。测验的试题在计算机上显示,受测者通过键盘、鼠标或其它答题装置来回答试题。

 

Ÿ           composite score(合成分数)

几个分数按照一定公式组合而成的分数。

 

Ÿ           confidence interval(置信区间)

分数量尺中两值之间的距离。根据一定的概率,有关分数或参数将落在此区间内。在本标准中,这一术语还指贝叶函数的可信度区间。这些区间为未知参数落入某个指定区间的概率下定义。

 

Ÿ           construct(建构)

测验所准备测量的概念或特征。

 

Ÿ           construct domain(建构范畴)

建构所标记的一组互相关联的属性(如行为、态度、价值)。典型做法是,从一个建构范畴里抽取有关属性的样本, 编写试题,并将这些试题制作成一个测验。

 

Ÿ           construct equivalence(建构等同性)

1. 两个测验在测量相同建构时相似的程度。

2. 测验在两个不同的语言或文化群体中测量相同建构时可比较的程度。

 

Ÿ           construct validity(建构效度)

这个术语用于表示测验分数的意义,说明考生在测验所要测量的心理学建构上所处的位置。建构是一个从多种证据推论中得出的一个理论性的变量。这些证据可以包括测验分数与其它变量的互相关联的关系、测验的内部结构、对解题过程的观察、以及测验的内容等等。

 

Ÿ           constructed response item(建构性反应题)

在测验中要求考生必须自己做出答案或是做出实物的试题,不是从所列答案中做出选择。简答题要求考生回答一些词语或数字,伸展题则要求考生至少写出一些句子。

 

Ÿ           content domain(内容范畴)

测验所要测量的一组行为、知识、技能、能力、态度或其它特点。它的表现形式是一个详细的规则说明。该说明常常把考试内容划分为若干类别,试题则根据这些类别来划分。

 

Ÿ           content standard(内容标准)

对一个宽泛目标的陈述,描述当学生完成某一年级或某一阶段的学习时,对他在某一学科应达到的水平的期望。

 

Ÿ           content validity(内容效度)

这是1974年《标准》中曾采用过的一个术语,指效度的一种或某一方面,即“测验的使用者希望估计测验在它所要代表的环境整体中一个考生如何表现”(第28页)。在1985年版的《标准》中,这一术语被修改为“内容关联证据(content-related evidence)”,强调这些证据仅仅是整体效度概念中的一种证据。在本版《标准》中,这类证据被表述为“基于考试内容的证据(evidence based on test content) 

 

Ÿ           credentialing(资格认证)

由权威机构向某人提供具有某种资格的证明过程,包括授予证书、执照、学位等。它表明某人在一定的知识或活动范畴里的表现水平达到了可以接受的程度。

 

Ÿ           criterion-referenced score interpretation(标准参照的分数解释)

参看“标准参照性测验”。

 

Ÿ           criterion-referenced test(标准参照性测验)

一种允许使用者根据功能性表现水平来解释分数的测验,以此区别于相对于他人的表现水平的关系所作的分数解释。标准参照性测验的例子包括(将考生的得分)与分数线的比较,基于期望表的分数解释,范畴参照性的分数解释等等。

 

Ÿ           cross-validation(交叉效度研究)

一种效度研究方法。将从一个样本中推导出的用作预测考生成绩的评分系统或一组权重应用于第二个样本,以考察它们的预测稳定性。

 

Ÿ           cut score(分数线)

分数量尺上的特定点,对于达到这一点与未达到这一点的考生,可以做出不同的分数解释。

Dd

Ÿ           derived score(导出分数)

原始分数经过数量转换得到的分数。(例如,将原始分数转换成百分比等级或标准分数。)

 

Ÿ           differential item functioning(项目功能差异)

试题的一种统计属性,指具有相同总分的不同考生群体在同一试题上的平均分数有差异。有的情况下,差异表现在选择不同备选项的比率方面。即DIF

 

Ÿ           domain sampling(范畴取样)

选择测验试题以代表某一特定行为表现全域的过程。

Ee

Ÿ           empirical evidence(实证证据)

建立在数据上,而不是某种逻辑或理论上的证据。在本标准中,这一术语并不是指特定的证据类型,这与在有些情形下将此术语可以等同于效度的准则关联证据的用法形成对比。

 

Ÿ           equated forms(等值试卷)

将两个或多个测验试卷制作成涵盖相同、明确的内容范畴、符合相同的统计条件要求,并在完全相同的条件下施测(替换试卷)。经过统计修正,替换试卷得到的分数共享一个相同的量尺。

 

Ÿ           equating(等值)

将两个或多个基本平行的测验试卷置于同一分数量尺的过程。

 

Ÿ           error of measurement(测量误差)

观察分数与相应的真实分数(或熟练水平)之间的差异。

Ff

Ÿ           factor(因素)

1. 作为概念或建构的一个侧面的任何变量,这一变量既可以是真实的,也可以是假设的。

2. 在测量理论中,由因素分析定义的一个统计维度。

 

Ÿ           factor analysis(因素分析)

描述一组变量间相互关系的几种统计方法中的任一种。这些统计方法可以推导出被称为因素的新的变量,这组新变量的数目比原来的一组变量的数目要少。

 

Ÿ           factorial structure(因素结构)

因素分析中得到的一组因素。技术上讲,指一组变量中每个变量与经过因素分析得出的每个因素之间的关联函数。

 

Ÿ           fairness(公平性)

在测试中,所有的受测者都接受相等的评估方式的原则。

 

Ÿ           false negative(错误否定)

在分类、诊断或选拔中,将事实上已达到或能够达到规定标准的人评估或预测为不合格者的错误。

 

Ÿ           false positive(错误肯定)

在分类、诊断或选拔中,将事实上未达到或不能达到标准的人评估或预测为合格者的错误。

 

Ÿ           field test(实地测试)

旨在检查测验程序是否到位的实际施测,通常包括施测、测验回答,评分和成绩报告。

 

Ÿ           flag(标记)

附在某一分数、某一试题或其它实体上的指示标记,用于标明分数的一种特殊状态。一个有标记的分数通常意味着这个分数来自于一种经过校正的、非标准的施测。一个有标记的试题通常意味着这个试题具有一些不应具有的特征(如过度的试题功能差异)

Gg

Ÿ           gain score(进步分数)

在测试中,一个受测者在两个不同时间参加同一测验或同一测验的等值试卷时,测验分数之间的差异。通常,一次在教育措施之前,一次在教育措施之后。

 

Ÿ           generalizability coefficient(概化系数)

一个包含了一种或多种独立误差来源的信度指数。它由以下二者的比例构成:(a)在所研究的考试里,被视为测验分数方差的各个组成部分的方差之和;(b)上述方差和加上这一测试条件下可以归因于各种误差来源的方差的加权总和。通常可以用解释信度函数相同的方式来解释这类因运用概化理论而产生的指数。

 

Ÿ           generalizability theory(概化理论)

经典信度理论和方法论的延伸。在这个过程中,通过运用不同的实验设计和方差分析的统计方法来估计源自某一误差来源的误差大小。这种分析可以显示测验分数在超出某一研究的特定试题取样、特定受测者样本、特定观察条件时的可推广性。

 

Ÿ           grade equivalent(年级当量)

某一特定群体所处的学校年级水平,其给定的分数是这一总体的分数分布的中位数。

Hh

Ÿ           high-stakes test(高利害测验)

测验结果可以对测试所涉及的受测者或项目、单位造成直接的和重要的后果的测验。

Ii

Ÿ           intelligence test(智力测验)

遵循某一种被认可的智力理论,用于测量个人认知功能水平的心理测验或教育测验。

 

Ÿ           internal consistency coefficient(内部一致性系数)

测验分数信度的一个指标,它根据考试的各个部分的试题回答之间或测验分数之间在统计上相互关系而导出。

 

Ÿ           inter-rater agreement(评分者之间一致性)

在对受测者的工作或成绩进行评价时,两个或多个评分者之间的评分一致性。有时称为“评分者间信度”。

 

Ÿ           inventory(调查表)

一个调查或核对表,通常是自陈式的,可以借其获得有关个人的信息,如个人意见、兴趣、态度、爱好、个性特征、动机,以及对情境与问题的典型反应方式。

 

Ÿ           item(题目,项目)

测验中的一个说明、问题、练习或一件事情,受测者需要对其做出选择性或文字回答,或完成规定的任务。

 

Ÿ           item characteristic curve(项目特征曲线)

与特定试题回答概率有关的数学函数,通常是反映正确答案概率与所测量属性的关系的曲线。也称为“项目回答曲线”,或“项目反应函数”,或ICC

 

Ÿ           item pool(题库)

试题总和。在编制测验时从中选取构成测验或测验量尺的试题;在进行适应性测验时,从中为每个受测者选取测验试题的整套试题。

 

Ÿ           item response theoryIRT(项目反应理论)

它表示一个数学模型,受测者回答试题的表现和他在所测量的能力、特质或熟练程度方面之间的关系,后者通常用θ表示。在试题以0-1(错误-正确回答)评分的情况下,在θ的取值范围内,这一模型描述 了θ和具有θ能力水平受测者的平均分数(P)之间的关系。在大多数应用中,连接P和θ的数学函数被假设为逻辑(logistic)函数,这一函数与累计正态分布很相似。

Ll

Ÿ           linkage(链接)

将两个或多个测验放到同一分数量尺上,使测验分数可以互相替换。常用的链接方法有好几种。

 

Ÿ           local norms(地方常模)

常模的一种, 其分数指一个特定的和有限的参照总群体。考试使用者(如地方人士,单位或院校)对这个群体有特别的兴趣。地方常模不能代表超出这一情境的群体。

 

Ÿ           low-stakes test(低利害测验)

那些测验结果对于与测验有关的受测者、项目、或机构仅仅造成有限的或间接影响的测验。

Mm

 

Ÿ           matrix sampling(矩阵抽样)

一种测验方式。根据这种方式,数量巨大的一组试题分解并组成许多相对短一些的测验,每个短测验随机地施测于受测者的一个样本。这样,在一个项目评价中,就不必将所有的试题施测于所有的受测者。

 

Ÿ           meta-analysis(元分析)

一种统计研究方法,根据这种方法可以将数个独立、可比较的研究结果结合在一起,据此确定整体效果的大小或两个变量之间联系的紧密程度。

 

Ÿ           moderation(调节)

在测验链接的过程中,不加修饰语的“调节”通常是指统计意义上的调节,指对一个测验的分数量尺进行调整,通常是使一个测验分数的平均分和标准差与另一个测验分数分布的平均分与标准离相等。

 

Ÿ           moderator variable(调节变量)

在回归分析中用于解释(或部分解释)两个变量间相关的变量。

Nn

Ÿ           norm-referenced test interpretation(常模参照性测验解释)

分数解释是基于受测者表现相对于特定参照群体中的受测者表现比较之上的。

 

Ÿ           normalized standard score(正态化标准分数)

一种测验导出分数,通过选择一个转换系数,使特定总体的导出分数的分布非常接近正态分布。

 

Ÿ           norms(常模)

总结了一个或多个特定群体的测验成绩分布状况的统计的或列表的数据。这些群体可以是不同年龄或年级的受测者。常模通常用来代表一些大的群体,如全国的受测者。常模所代表的考生群体被称为“参照群体”。

Oo

Ÿ           outcome evaluation(成果评价)

对某种干预措施成效的评价。

Pp

 

Ÿ           percentile(百分位)

测验分数的一点,低于该分数的人占一定百分比。

 

Ÿ           percentile rank(百分等级)

在多数情况下,是指在一个特定分数的曲线分布中,低于某一给定分数的百分比。有时,这一百分比包括所有的在这一给定分数点上的分数; 有时,这一百分比包括在这一给定分数点上一半的分数。

 

Ÿ           performance assessments(表现性评价)

在模拟真实情景的条件下,以成果或行为作基础的测量。这种情形的测量需要真正运用具体的知识或技能。

 

Ÿ           performance standard (能力)表现标准)

1. 在测量某个内容范畴的考试里,通过在测验分数的量尺上设定分数线或分数段来表示考生精通或掌握所测量的知识和技能的程度。这个分数线或分数段所反映的知识和技能就成为检测考生在所测范畴的能力表现的客观意义。

2. 关于一组操作性练习的陈述或描述,做这一组练习所需要的能力表现水平与更宽泛的内容标准有关。这一陈述将可能成为在分数量尺上确定分数线的依据。这一术语通常意味着对某一表现水平的要求。

 

Ÿ           pilot test(试测)

旨在检验测验或试题的某些方面而施测于一组受测者样本的测验。这些方面包括指导语、时限、试题解答、试题解答备选项等。

 

Ÿ           portfolio(成长档案)

在评估中,根据一些特定的原则经过一段较长时间而系统收集或积累的教育或工作成果。

 

Ÿ           precision of measurement(测量精确度)

一个测量工具对测量误差敏感度的一般术语。

 

Ÿ           predictive bias(预测偏差)

在预测某一特定群体的测量准则能力表现时的一种系统性高估或低估,界定这一特定群体的因素与效度标准行为本身无关。

 

Ÿ           predictive validity(预测效度)

这是1974年版《标准》中使用的一个术语,指“与测量准则有关的效度”的一种类型,所适用的情况是“当人们试图通过受测者的测验分数来推测他在被称为测量准则的变量上最可能处于的位置”(第26页)。在1985年版的《标准》中,“与测量准则有关的效度”的提法被改为“与测量准则有关的证据”,这种改变意在强调效度概念是一个整体,而与测量准则有关的证据只是所有效度证据中的一种。在本《标准》中,上述说法又变为“基于与其它变量之间关系的证据”,这些证据包括“测验与效度准则之间的关联”。预测证据指那些测验分数可以在多大程度上预测考生将来获得的测量准则分数。

 

Ÿ           program evaluation(项目评价)

围绕一组有计划的程序的使用、运作和效果,对系统性证据进行收集和综合。

 

Ÿ           projection(投射)

在测验制标的过程中使用的一种链接两个考试的方法。既用测验甲的分数来预测测验乙的分数。测验乙的预测分数是在测验甲的某一给定的分数上所有受测者在测验乙上的平均分。与回归分析相似,乙对甲的推测映像不同于甲对乙的推测。

 

Rr

Ÿ           random error(随机误差)

非系统性误差;与其它变量之间没有关系的量(常常只能间接观察)。

 

Ÿ           raw score(原始分)

未经调整的测验分数,常由回答正确的试题的数目而定。更一般地讲是测验试题分数或其它组合的总和。在试题反应理论中,受测者水平的估计值(通常表示为 )与原始分相似。但是,它的分数制标不是人为确定的,这点与原始分不同。

 

Ÿ           reference population(参照群体)

由测验常模所代表的受测者总群体。基与考试常模的样本必须能准确估算参考总群体分数分布。参考总群体可以通过年龄、年级、测试时的临床状态或其它特征来定义。

 

Ÿ           relative score interpretation(相对分数解释)

根据分数排名、或根据一个或多个分数的参考分布的平均分数导出的分数解释,对一个人的测验得分、或一个可界定群体的平均分赋予意义。

 

Ÿ           reliability(信度)

一项测验反复施测于一组受测者时,得分的一致性。据此可以推断一个受测者测验得分的可靠性或可重复性,可以推断一个群体测验得分免于测量误差影响的程度。

 

Ÿ           reliability coefficient(信度系数)

一个不以任何具体的东西为单位的指针。它反映测验分数免于测量误差影响的程度。这一指标类似(或即是)一个积差关联系数。在经典测验理论中,这一指标被定义为一个给定受测者群体的真实分数方差与观察分数方差的比。估算这一系数的条件会包含一些变化因素,诸如不同测验试卷、不同测量条件、不同的计分员或评分者、不同的临床医生数目,有时,还可能需要受测者的多种成果表现。由于这些条件的变化产生了一些资格限定性的形容词,如替换考卷信度、内部一致性信度、预测复测信度等等。

Ss

Ÿ           sample(样本)

从被称为“总体”(或“总群体”)的较大的一组潜在成员中选择有限的被称为“取样单位”的一组成员(如受测者、试题等等)。随机抽取的是随机样本,即任一成员的选取与其它成员无关。分层随机样本是一组随机样本,其中每个样本都有规定的大小,来自数个不同的层次, 因此被视为是总体的各个不同层次。

 

Ÿ           scale(量表/量尺)

1. 指一个测量体系及其测量单位,并据此报告某个测量维度的数据。如长度既可以在英制中报告为英尺和英寸,在公制中报告为米和厘米。

2. 在测试中,量尺指用于测量的一组试题或一组单元测验。它与一个考试在所测量的特征类型上不同。例如,在谈到语言能力时,一个人可能说“一个语言能力测验”;但在谈到检测考生属内向型还是外向型时,却说“一份内向外向检测量表”。

 

Ÿ           scale score(量表分数)

参看“导出分数”。

 

Ÿ           scaling(标定)

建立一个量尺或量表分数的过程。标定过程可以通过将来自不同测验或不同测验试卷的分数放在一个共同的量尺上来加强分数的解释;也可以通过设计一个量尺分数以支持标准参照性或常模参照性的分数的解释来加强分数解释。

 

Ÿ           scoring rubric(评分规则)

在对每个试题或一组试题的解答评分时建立的一些准则,包括规则、原则和演示。这一术语通常用于非选择题的情况,评分过程需要对受测者所做练习的解答做出评价。影响评分规则的因素很多,包括需要做出判断的程度、所定义的可以区分考生水平的等级数目、评分员是否可以给半分(或小数点分数)、或其它因素等等。

 

Ÿ           screening test(筛选测验)

在选拔决策或诊断过程中,用于对受测者进行初步粗略分类或摸底的测验。

 

Ÿ           Spearman-Brown formula(斯皮尔曼-布朗公式)

根据经典测验理论导出的一个公式,从一个特定长度的考试的信度推导出一个较短或较长的测验的信度。

 

Ÿ           split-halves reliability coefficient(分半信度系数)

通过将一个考试的试题一分为二为独立的两部分之后计算两部分得分之间的关联系数而得到的测验内部一致性信度系数。这两部分半个考试的分数之间的关联系数经过斯皮尔曼-布朗公式的调整,可以作为原测验的替换试卷信度的一种估算值。

 

Ÿ           standard error of measurement(测量的标准误)

通过在相同条件下重复施测同一测验(或测验的平行试卷)而得到的考生观察分数的离差分数。由于这一数据通常很难获得,一般得通过群体数据(group data)来估计测量标准误差。

 

Ÿ           standard score(标准分数)

一种导出分数,其分布对一个特定的总体已有现成方便的平均数和标准差。这一术语有时专门用于那些平均分为0.0、标准差为1.0的分数分布。

 

Ÿ           standardization(标准化)

1. 在施测过程中保持不变的测验环境,根据详细的测验规则和说明施测,以保证测验条件对所有受测者都是相同的。

2.在测验制作过程中,建立分数常模的过程。这种常模是建立在受测者群体的代表性样本的表现水平之上的。

3.在统计分析中,对变量进行转换的作法,使其对特定样本或总体的分数标准差为1.0。参看“标准分数”。

 

Ÿ           standards-based assessment(基于标准的评价)

旨在反映受测者是否已掌握经过系统描述的内容和能力表现标准的评价。

 

Ÿ           stratified coefficient alpha(分层阿尔法系数)

对阿尔法系数所做的修正,使其更适合多因素测验(multi-factor test)。其做法是将测验的总分定义为是由多个单因素的测验部分(single-factor part-tests) 合成的。

 

Ÿ           systematic error(系统误差)

与测验表现无关的一种稳定的(通常需要通过间接观察来了解的)分数构成部分。 



Uu

Ÿ           unidimensional(单维的)

指测验仅有一个维度,或仅有一个潜在变量。

 

Ÿ           user norms(使用者常模)

关于一个受测者样本的统计性描述(包括百分等级),这个样本并不是一个严格定义的总体的代表性样本。例如,某一时间段的全体受测者,或一组自选的受测者。也被称为“项目常模”。

Vv

Ÿ           validation(效度验证)

对测验分数的意向性解释的效度进行考察的过程。

 

Ÿ           validity(效度)

为实现测验的意向性用途,已经积累的证据和理论支持分数的特定解释的程度。

 

Ÿ           variance components(方差成分)

在测试中,分别来自多种不同的方差构成观察分数的总方差。借助方差分析方法得到的这些方差,通常可以反映测验情景、地点、时间、测验试卷、评分者,以及其它一些效应。  

 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有