心理测量笔记2
(2010-01-01 19:16:06)
标签:
教育 |
分类: 心理统计测量 |
三、心理测量的误差
(一)测量误差的定义
1.定义:
测量误差是在测量中与目的无关的变异所引起的不准确或不一致的效应,即,误差是由与测量目的无关的变异引起的,而且是不准确或不一致的测量结果。
2.种类:
误差有两种形式:随机误差和系统误差。
随机误差,是由与测量目的无关的偶然因素引起而又不易控制的误差,它使多次测量产生了不一致的结果,这种误差的方向和大小的变化完全是随机的,无规律可循。
系统误差,是由与测量目的无关的变异引起的一种恒定而又规律的效应,稳定地存在于每一个测量中,此时测值虽然一致,但不正确。
系统误差只影响测值的准确性,而随机误差既影响准确性又影响一致性。系统误差只与效度有关,而随机误差与效度、信度都有关。
(二)测量的随机误差来源及控制
1.来源
与施测过程有关的误差:
(1)物理环境,如施测现场的温度、光线、声音、桌面好坏、空间宽窄等;
(2)主试者方面,主试者的年龄、性别、外表、施测时的言谈举止、表情动作等;
(3)意外干扰;考场突然停电、有人作弊、计时表停了、试卷印刷或装订错误等
(4)评分的不客观和计分的出错等由受测者本身引起的误差:
与测量对象方面有关的误差:
①测验的经验,如受测者对测验的程序和技能的熟悉程度;
②练习因素,任何一个测验在第二次应用时,都会有练习效应而使成绩提高。在能力测验方面,对于智力较高者练习效果较为显著。着重速度的测验,练习效果较明显。再做同一个测验比作复本的练习效果明显。两次测验之间的时距越大,练习效果越小,相距3 个月以上,练习效果可忽略不计;
③应试动机,被试的动机会引起偶然的不稳定的反应,造成随机误差;
④测验焦虑,是指受测者在应试前和测试中出现的一种紧张的不愉快的情绪体验,对测验的焦虑会影响被试的成绩;
⑤定势反应,也称反应的方式或反映风格,是指独立于测验内容的反应倾向,即由于每个人回答问题习惯的不同,而使有相同能力的被试获得不同的分数;
⑥生理因素,如生病、疲劳、失眠等生理因素也会影响测验成绩。
与测量工具方面有关的误差:
心理测量工具通常是一套以测验(问卷)为核心的刺激反应系统(量表),心里测量量表是否稳定、是否真正测到了我们所要测的东西是测量工具造成误差的两种主要原因。
2.控制
(三)测量的系统误差来源及控制
1.来源:
①测验难度——过高或过低
②测验内容——选题不当、题数太少、模棱两可、表述不清
③被试因素——应试动机变化、测验焦虑、测试经验、学习与发展、反应倾向、生理因素
2.控制
(四)测量误差的估计
四、心理测验的项目分析
项目分析是指根据被试的反应对组成测验的各个题目(项目)进行分析,从而评价其功用的程序和方法,主要包括定性分析和定量分析,定性分析包括考虑内容 效度,题目编写的恰当性和有效性等;定量分析主要是指题目的难度和区分度的测量。通过项目分析,研究者可以选择和修改测验题目,以提高测验的信度和效度。
(一)项目的难度
1.定义
难度:测验项目的难易程度,一个测验项目,如果大部分被试都能答对,则该项目的难度就小,反之亦然。
2.计算
Ⅰ 二分法记分项目的难度——以通过率来表示(注:这里通过率的概念和我们通常理解的难度相反)
其中 代表项目难度; 为全体被试数; 为答对通过该项目的人数
当被试人数较多时,将被试依照测验总分从高到低排列,用总分最高的27%作为高分组,总分最低的27%作为低分组
其中 和 分别代表高分组合低分组的通过率
Ⅱ 非二分法记分项目的难度—— 其中 为被试在某一项目上的平均分; 为该项目的满分
3. 难度水平的确定
进行难度分析的主要目的是为了筛选项目,项目的难度水平多高合适,取决于测验的目的、项目形式及测验的性质:
①
不必过多考虑难度,认为重要的内容都可选用,甚至极高极低通过率的题
②
项目难度易控制在录取率左右,即较多地采用那些难度值接近录取率的项目
4. 难度的等距变换
普通难度指数是顺序变量,无法指出难度之间差异的大小,我们设法将其转变为等距量数:①根据正态分布曲线将难度P作为正态曲线下的面积,转换成Z分数
②为避免小数和负值,再用公式进行变换 (注:可以看出新难度与我们通常理解的难度相同)
5.难度对测验的影响
①测验难度影响测验分数的分布形态:难度过大和过小都造成测验分数偏离正态,而心理特质和我们经常使用的统计分布却都是正态的。难度普遍较大,被试得分普遍较低,使得测验分数集中在低分端,其分数分布呈现正偏态,反之亦然。
②测验难度影响测验分数的离散程度:过难或过易题目的存在都会使得测验分数相对集中在低分端或高分端,造成分数全距缩小。
(二)项目的区分度
1.定义
区分度:测验项目对被试心理品质水平差异的区分能力. 具有良好区分度的项目,能将不同水平的被试区分开来,反之则不能。评价测验项目区分度高地依赖于被试水平的准确测量,通常称作效标分数。评价测验项目区分度的效标分数更多的是用测验总分,称作内部效标。
2.计算
Ⅰ
鉴别指数法——适合于二分法记分的项目
其中 和 分别代表高分组和低分组在该项目上的通过率。
D值越高,项目越有效。通常0.4以上的题目很好,0.2以下的题目差需要淘汰。
Ⅱ 相关法——以项目分数与效标分数或测验总分的相关作为项目区分度的指标
常用的有:点二列相关、二列相关、φ相关、积差相关
点二列相关:点二列相关适用于一个变量为连续变量,另一个变量为二分变量的资料。当一个变量是双峰分配时,尽管它并不是真正的二分变量,这种统计方法也适用。
二列相关:适用于两个可以连续测量的变量,但其中有一个由于某种原因被分成两个类别。当一个测验的项目是连续的,而效标或测验总分被分为高、低或及格、不及格两个类别时,就可以用二列相关法。有时效标或测验总分是连续的,而项目分数被人为分成对、错或通过、不通过两类,也可用此法。
Ф相关:Ф相关的统计方法适用于两个变量都是点分配的资料,即两个变量都是二分名义变量。Ф相关不要求变量成正态分布。
积差相关:对于论文是测验题目,因得分具有连续性,在被试团体较大时,可以认为项目分数服从正态分布,可将项目得分与效标分数求积差相关系数以得到项目的区分度。
(三)项目的综合分析和筛选
①难度越接近0.5,项目潜在区分度越大,因此整个测验的难度平均应保持在0.5左右
②测验中各项目之间有一定相关,为了使成绩分布均匀,项目难度的应广一些,梯度大一些,最好成正态分布。
③每项题目理想的区分度都应在0.3以上,至少是0.2
五、心理测验的编制技术
(一)心理测验编制的基本程序
编制一个可供使用的标准化的心理与教育测验,一般要经过以下几个步骤:确定测验目的、制定编题计划、编辑测验项目、预测与分析、合成测验、测验标准化、鉴定测验、编写测验说明书。
(二)测验目标与命题双向细目表
1.测验目标
测验目标指所编测验是用来测量什么心理变量或行为特征的。测验目标必须具有操作定义,即目标要非常具体,如测量语文理解能力的目标可定为测量阅读时了解文义的能力。
2.命题双向细目表
命题双向细目表:测验编制过程中的重要依据,即相当于编题的计划清单,是包括两个维度(双向)的表格。指出测验所包含的内容与要测定的各种技能,以及对每一个内容和技能的相对重要程度。
功能:双向细目表可以使命题工作避免盲目性而具有计划性;使命题者明确测验的目标,把握试题的比例与份量,提高命题的效率和质量。同时,它对于审查试题的效度和覆盖面也有重要的指导意义。
(三)题目编制技术
所谓测题编写时将测验材料编拟成测题的形式,按照测验题目评分客观性程度可分为主观性试题和客观性试题两大类。
题目编制的一般原则:
①测题要反映测验的目的,并对所测量的内容有代表性;
②测题适合于被试的能力水平,且能区分出不同水平的被试;
③测题所提供的信息不能对答案有暗示作用;
④测题之间互相独立,不能互相暗示;
⑤题干要简明,以一横行为宜,以免被试找不到重点;
⑥避免双重否定的语法;
⑦题目的叙述要简明易懂,杜绝使用晦涩的语言;
⑧题目要有唯一的正确答案;
⑨避免使用性别歧视、种族歧视和攻击性的用语,涉及社会禁忌和个人隐私的内容;
⑩一个测题测量一个内容或一个概念。
六、心理测验的施测
(一)测验的设计
测验设计:对测验的结构和内容、可达到的目的、结果可提供的信息、使用范围、心理学指标等进行总体设计
1.确定测验目的
1)明确测量对象,明确哪些个人或团体,常以年龄、性别、职业、受教育程度、经济状况、民族、文化背景来区分。
2)明确测量目标,明确测量什么心理功能,是测能力、人格、还是测学业成绩,还要把目标具体化,给出操作定义。
3)明确测量用途,是明确编制的测验干什么用,是用于描述受测者的心理特质,还是用于诊断心理是否异常,是用于选拔人才还适用于验证某个理论假设。用途不同,编制测验的取材范围和测题的难度也不尽相同。
2.制定编题计划:编题计划是编制测验的总体构思。
要明确两方面信息:a、全面而具代表性的测验内容,不致使测题偏离了应测的范围
b、对各个内容点的相对重视程度,通常用百分比来表明
用途:a、指明了应编哪方面的测验项目以及编多少个项目
b、记分时可按计划中百分比确定每类测验项目的分数
3.编辑测验项目
1)收集测验资料,资料要丰富,要有普遍性,要有趣味性。
2)选择项目形式,取决于受测者的年龄、人数的多少、测量的目的、测验项目的性质等。
3)编写测验项目,具有代表性,取材范围一致,难度有一定的分布范围,用语简练,编题数量多于最终需要的数量,编制的测验项目的说明必须明确。
4.预测与项目分析
a、预测:目的在于获得被是对测验项目作何反应的资料。
注意的问题:1)对象应取自将来正式测验时准备施用的群体,人数不用很多,但要有代表性。
b、项目分析,对预测结果进行统计分析,确定项目的难度和区分度。
5.合成测验,就是把经过预测以后证明有价值的项目排成有组织的测验。
要解决的问题:a、测验项目的选择,指标有:测验的性质、项目的难度、项目的区分度
b、测验项目的编排,先易后难。排列方式有:并列直进式、混合螺旋式
c、编制复本,一种测验至少要有等值的两份
所谓等值要符合的条件:1)各测验测量的是同一种心理特质
2)各测验有相同的内容和形式
3)各测验不应有重复的项目
4)各测验项目数量相等,并且有大体相同的难度和区分度
6.测验标准化,标准化是指测验的编制、施测、评分以及解释测验分数的程度的一致性。
包括内容:a、测验内容 b、施测过程(相同测验情景、相同指导语、相同测验时限)
c、测验评分(对反应及时清楚记录、有标准答案、将受测者反应和标准答案比较确定得分)d、测验分数的解释,是测验结果标准化
7.鉴定测验,对测验的可靠性和有效性进行鉴定,包括:信度、效度、测验量表与常模。
8.编写测验说明书
包括:a、目的与功用 b、理论依据 c、内容及实施测验的方法 d、标准答案和评分方法
e、关于测验信度和效度资料的说明 f、常模表 即如何依据常模表解释测验结果
(二)施测的程序和步骤
1.施测前的准备工作:a、准备好测验材料(按一定顺序放在恰当位置)
b、熟练掌握施测手续(内容、步骤、方法)
c、熟记测验指导语并用口语清楚而流利的说出来
2.指导语:直接影响受测者反映的态度和方式,作用:使受测者按正确形式对题目做出反应
包括对测验目的的说明和对题目反应方式的解释。
3.测验情景:尽量标准化,包括:测验场地(通风、光线、噪音)、座位、答题纸型等
4.测验焦虑:因接受实验而产生的一种忧虑和紧张情绪,为确保实验结果真实,应稳定被试情绪
5.与受测者建立良好得协调关系:施测者设法努力引起受测者对测验的兴趣,取得他的合作,以保证它能按照标准测验指导语行事。
6.评分技术:标准化测验中答卷最好与测验分开
七、测验常模
当一个人的测验分数通过与其他人的分数进行比较而得到解释的时候,这个比较被称为基于常模的解释,而比较每个个体所用的分数被称为常模,它为解释测验分数提供了标准。常模群体规定了系列标准,基于常模的分数是个体与特定常模群体相比较所处的位置。
(一)常模与常模团体
1.定义
常模:根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的测验量表
常模团体:是由具有某种共同特征的人所组成的一个群体,或是该群体的一个样本。
2.确定常模团体的注意事项:
①群体构成的界限必须明确
②必须是所测群体的一个代表性样本
③取样过程必须明确且有详尽的描述
④样本大小要适当---总体的数目;群体的性质;测试结果的精确性
⑤常模团体必须是近时的
⑥注意一般常模与特殊常模的结合
(二)分数转换和合成
1.分数的转换
(1)原始分数与导出分数
原始分数:被试在接受测验后,根据测验的记分标准,对照被试的反应所计算出的测验分数。
其反映了被试作答的正确程度,但不能直接反映出被试之间的差异状况和被试在总体分布中的位置。
导出分数:在原始分数转换的基础上,按照一定的规则,经过统计处理后获得的具有一定参考点和单位,且可以相互比较的分数。常用的导出分数有百分等级、标准分数、T 分数。
分数的转换:按某种规则将原始分数转化为导出分数的过程即为分数转换。
(2)百分等级分数
一个原始分数的百分等级是指在一个群体的测验分数中,得分低于这个分数的人数的百分比。
计算: 其中 为百分等级, 为排名顺序的序号, 为被试总人数
团体人数过大分数以次数分布表的形式呈现时:
其中 为被试原始分数, 为被试所在组分数下限, 为被试所在组次数, 为组距, 为被试所组以下各组次数和
评价:优点:百分等级是一种相对位置量数,具有可比性,且具有易于计算、解释方便等优点,易于理解,较适用于不同的对象和性质不同的测验,另外,百分等级不受原始分数分布状态的影响,即是分数分配不是正态的,也不会改变百分等级常模的解释能力。
缺点:1)单位不等,尤其在分配的两个极端。
2)百分等级只有顺序性,而无法用他来说明不同被试之间的分数差异的数量
注意:百分等级是相对于特定的被试团体而言的,所以,解释时不能离开特定的参照团体
(3)标准分数
标准分数是一种具有相等单位的量数,又称作Z 分数,
计算:
Z:标准分数;X:原始分数; :团体所有被试的原始分数的平均数;S:原始分数的标准差
(4)正态化的标准分数:
正态化标准分数的原因:Z 分数与原始分数得分布形态相同,所以只能在两个原始分数分布形态相同或相似时才能运用Z 分数进行比较,否则仍然无法作直接比较分析。为了使来源于不同分布的分数进行比较,可将非正态分布的分数强制性的扭转成正态分布。
正态化标准分数的做法:首先将每个原始分数转换为百分等级,然后使用正态分布表,将对应的百分等级直接看成是正态分布曲线下的面积值,找出所对应的Z 值,这种方式所得到的分数叫做正态化的标准分数。
(5)标准分数的变式:
由于Z分数常出现小数和负值,我们可进一步将其转变为T分数:
其他形式:
对标准分数的变式的评价:
优点:①具有等单位的特点,便于工作进一步的统计分析;
②正态分布下,可以利用正态分布表将各种导出分数与百分等级分数做换算;
③正态分布下,运用某种变式 分数可以将几个测验上的分数做直接的比较,即使是非正态分布,也可运用由正态化的Z 分数转换而得的变式分数进行直接比较分析。
缺点:①分数过于抽象,不易理解;
②在非正态分布下,分布形态不同的变式分数,仍然不可以做相互比较,也不能相加求和。
(6)标准九分数
标准九分数是将原始分数分成几个部分的标准分数系统。
2.分数的合成
分数合成:将几个分数或几个预测源组合起来,以获得一个合成分数或作总的预测。
1)分数合成的种类
项目的组合:每个测验是由许多独立的项目所组成,这些项目可以结合成小组,各个小组的项目可以独立组合成量表或分测验,也有直接将所有项目得分合成一个测验总分的。在这种情况下总分均为个别项目得分的合成分数。
分测验或两表的组合:有些测验是由几个分测验或分量表所组成,每个分量表均有个分数,这些分数可以组合到一起得到一个合成分数。
测验或预测源的组合:在实际决定时,常常将几个测验或预测源同时使用。
2)分数合成的方法
Ⅰ 临床诊断——直觉合成
这种根据直觉的经验,主观地将各种因素加权,而获得结论或预测的方法叫临床诊断
优点:①具有高度的综合性 ②具有灵活的针对性,能就特定的个人作具体的结论
缺点:①易受决策者的偏见影响,不够客观
Ⅱ 加权求和合成——将各测验分数相加或乘以加权系数后相加
前提:各测验所测特质间有互相代偿作用,这些测验的分数又是连续性资料,并能大体同时获得
计算:
式中 为各测验的标准分数 是加权系数。
Ⅲ 多重回归——研究一种事物或现象与其他多种事物或现象在数量上相互联系和互相制约的统计方法
很多情况下,需要利用测验结果对预测效标做出估计,即求出效标估计与预测变量之间的数量关系式:
适用条件:应注意到多重回归方法所采用的是统计线性模型,所以只有当预测源与效标间存在线性关系时才是适合的,同时还要求预测源分数跟效标分数能够同时取得,并且都是连续资料。
Ⅳ 多重划分——在各个特质上都确定一个标准,从而把成绩划分为合格与不合格两类,只有每个测验都合格才算合格。