第五小组 贾思琪 091010317 第十章《信度和效度》讲稿
(2012-05-25 10:49:51)
标签:
杂谈 |
同学们,大家好!刚刚由我们小组的三位成员为大家讲解了素质测评的实施方法,而在素质测评之后又是如何对该素质测评进行评估和管理的呢?下面由我为大家讲解第十章的内容,素质测评的质量管理。
对素质测评进行质量管理,主要是从两方面进行管理,即信度和效度。
一、信度
(一)概念
信度,是测评结果的前后一致性。又称可靠性程度。而信度系数则是用一样本在两种不同时间、不同情景条件下或两组不同评价材料的评定结果之间的相关系数。信度系数越大,则说明该测量或评定方法的可靠性越强,反之,则可靠性弱。需要注意的是,信度就是指测量数据和结论的可靠性程度,也就是说测量工具能否稳定地测量到它要测量的事项的程度。
为了使同学们更好的理解信度以及信度系数的概念,我们可以通过举例来进行一下说明。比如我们想知道某人的体重,可以叫两个人来估计,一个人的估计为150镑,另一个人的估计为300镑,那么我们就可以认为,叫别人来估计体重是非常不可信的方法。如果用磅秤,连续测量两次的结果都是相同的,因而我们可以说,在测量体重方面,用磅秤的方法要比叫人来估计更可信,。我们可以用信度系数来表示信度的大小,估量的方法信度系数较小,而是用磅秤则信度系数较大。
而对信度系数我们需要注意三点:第一,在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个信度系数;第二,信度系数只是对测量分数不一致程度的估计,并没有指出不一致的原因;第三,获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测验有效的一个必要条件。
(二)分类
对于测评信度的分类,主要分为三大类,即重测信度、分半信度和等值信度。
1、重测信度,又称稳定性信度,它用于分析两次间隔一定时间的评定或测定结果之间的相关关系。这种方法通常是重复同样的测量来检验信度信度系数可以用相关系数来表示。假如我们第一次测量时的观测值是X,第二次的观测值是Y,那么重测信度就等于X与Y的相关系数r。
需要注意的是两次测量的时间间隔要恰当。如果时间间隔太久,可能会发一些变故,影响到被调查者的态度,那么前后的测量就会有很大的差异。
2、分半信度,通常是在无副本且不准备重测的情况下,我们就用分半信度来计算信度系数。举例来说,如果有一份问卷,其中有十个问题涉及到女性歧视现象。利用分半信度时,可将是个问题随机分成两组,每组有五个问题,然后根据每组的测量结果来计算两组的相关系数,就是折半信度。
这个相关系数就代表了两半测验内容取样的一致性程度,因而也称为内部一致性信度系数。
3、等值信度,也称复本信度。是指以两个平行型的测评量表在最短时距内施行两次所的结果的相关系数来评估的。而平行型的测量表即是指内容、形式和长度相同,难度和差异程度也相同的两份量表。
(三)影响因素
影响信度的因素有主、客体两大方面。主体的影响因素主要是:不严格按照规定实施测验、制造紧张气氛、给予特别协助、评分主观。客体的影响因素主要是被试、测验内容、施测环境三个方面对信度进行影响。
另外,对信度还有几大重要影响因素,即分数分布范围、测验长度、测验的难度、间隔时间。
这里主要为大家介绍一下测验长度对信度的影响。测验长度是指测验题目的数量。测验越长,信度值越高。一方面,测验越长,则试题取样或内容取样越恰当。,例如,我们希望测量被试者的词汇量,如果只测一个单词,则测验的结果必然很不可靠;如果选择的词很难,则绝大多数的被试者都无法答对;如果选择的词很容易绝大多数被试者都答对,这样的测验就无法评估被试者真正的词汇量,只有增加测验题目的数量,这样才能反映被试者真正的水平,提高测量结果的一致性。另一方面,较长的测验也不易受到猜测的影响,如果仅有10道题,被试者知道其中7道题,有2道题可完全凭猜测,则他完全有可能猜对而获得满分;所以较少的测验受猜测的影响很大。但是如果题目增加,如100道题,则同样的猜测题目(3题)对测验结果的影响就不会很大,而使结果较为可靠。
二、效度
(一)概念
为了更好的了解效度,大家先看两个例子:
例1:美国杜克能源公司某蒸气站被12名黑人雇工告上了法庭,缘由是该公司把他们都当勤杂工使用,每天的任务就是扫地和清洁,他们原本指望能被提升到像运煤工这样层次更高的岗位上,但公司说他们的智力测验分数不够,而该公司的14个黑人员工中有13个做勤杂工,诉讼的理由是智力测验有种族歧视。而公司说没有任何歧视,岗位安排完全根据测验结果来定,没有歧视黑人。法庭要求公司提供测验对职位胜任的预测力。
这个案例中法庭最后要求公司提供测验对职位胜任的预测力,即是评价该公司测验的效度。
例2:某大学学生期终考试后向校方提出质疑,说教授给出的考试范围是教科书中的1—10章,但考试内容却都集中于前三章,这样的考试无法检验真实的学习成绩,也就是考试并没有提供一个让我展现所学全部知识的机会。
这个案例也是说明了一个无效的测验,而这个测验的无效性究竟体现在哪呢?后面将为大家进行讲解。
看了上面两个案例,相信大家对效度都有一个大体的理解,只是欠缺用理论的语言对其进行描述。
效度,是指测评实际上能够测得所测评对象的真实程度.也就是测评本身所能达到期望目标的程度有多大。
通俗的说就是,效度反应了测验的准确性。
下面这个案例就是一个稳定但无效的智力测验,请看大屏幕。
•
•
•
•
•
这个测验的题目都很简单,但就是因为题目太简单了,无法真实、准确的反映一个人的智力情况,所以这是一个无效的智力测验。
在理解了效度的概念之后,我们来看一下效度和信度的关系,两者之间,信度是效度的必要条件,但不是充分条件。要想一个测验的效度高,其信度必须得高;但信度高,效度未必高。
(二)分类
测验效度的类型主要为大家介绍一下三种类型:效标效度、内容效度、结构效度。
1、效标效度:寻求测评结果与某项效标的相关程度来度量的效度。也称经验效度或统计效度。其中,效标是指是假定的客观标准,反应测验目的的行为参照.它作为测评有效性的指标。需要注意的是,由于根据测评分数作出的预测大多包含决策的意义,所以只有当证明测评分数确实能够预测所欲研究的行为时,这种决策才会正确。还需记住的是,理想效标的四大条件是有效性、可靠性、可操作性、实用性。
2、内容效度:即测验题目对所要测量的内容范围的代表性程度,考验题目样本是否代表了内容总体。它有三个要点,第一,针对性,测题对测量对象要有针对性;第二,全面性,全部测题对测量对象的涵盖程度;第三,代表性,测验题目十分覆盖了目标领域的重点。
下面的对一个优秀篮球运动员技能的测量的例子,就是内容效度的体现。
确定内容效度最常用的方法就是专家判断法,即请某领域里的专家来评判测验的内容是否编排的合理。但这一方法的缺点也十分明显,1) 没有量化指标;2) 对内容效度的判断不一致;3) 教育思想或心理学观点不同,所以对内容范围的理解也不同。
其他确定内容效度的辅助方法有统计分析法、再测法、经验法、内在一致性。
3、结构效度:即根据测评所假定的结构予以解释的程度,主要用于人员功能结构的理论概括和探讨。
结构效度的确定方法主要有三个步骤,首先,建立理论框架,以解释被试者在测评上的表现;其次,依据理论框架,推演出各种有关测评成绩的假设;最后,以逻辑和实证的方法来检验假设,如不能解释,则应该修正上述理论假设。
例如,如果建立关于一智力的理论,就可以提出以下四个假设,智力随年龄而增长、智商是稳定的、智力与学业成绩有密切关系、智力受遗传的影响。
(三)影响效度的误差来源
影响效度的误差来源主要来自于三方面,第一,测验题目不能反应要测量的特征;第二,实施过程偏离了标准化的程序;第三,被试不能如实回答。