难度与区分度、信度、效度_紫龙科研设计与统计

http://blog.sina.com.cn/u/2760089722

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

难度与区分度、信度、效度

(2012-05-09 11:18:35)

标签：

教育

平均分（mean）表示考试分数的集中趋势的一种统计量，也是教育测量中使用最为广泛的一种统计指标。平均分一般计算公式：

（公式01）

式中，为平均分；为学生I的考试分数；N为参加考试的学生数。

平均分的基本作用在于它可以作为一组分数的典型代表，其代表性优于中数、众数。平均分数具有下列基本性质：

(1)平均分是由全部分数求出的。

(2)每个分数与平均分的离差之和等于零，说明平均分数是各个分数的中心。

(3)当分数分布呈正态时，平均分位于分布曲线的中点并和曲线的最高点相对应。

(4)各个分数与平均分数的离差的平方和比各个分数与其他任何集中量数的离差的平方和都小。

难度（difficulty）难度与区分度、信度、效度并称为“考试四度”，是控制考试质量的一个重要指标，也是试卷编制中特别关注的一个要素。难度又有试题难度和考试难度之分，前者是反映题目难易程度的量化指标，有时也称作试题难度系数，通常用该题目的答对率或平均得分率表示，而后者则是所有试题难易的综合反映，在考试分数控制、成绩解释上更为重要。

l、试题难度试题难度值与试题实际难易程度正好相反，越大表示试题越容易，而难度制越小则试题越难。试题越难（试题难度值越小），说明能够正确解答该题的学生越少，或该题的得分越低。主观题（答对得分、答错不得分）的试题难度用答对题目的人数与参加考试总人数的比值表示：

（公式02）

式中：为i试题难度，为答对该题人数，为总人数。

而试题使用连续分数计分时，试题难度则用参加考试的全体学生在该题的平均得分与该题满分的比值表示：

（公式03）

式中：为i试题难度，为该题平均得分，为该题满分值。

在试卷编制中，不同难度的试题在考试中扮演着不同的角色，不同难度试题的组和不但直接影响试卷难度和平均分数，进而影响对考生成绩的解释，还对成绩分布具有重要影响，从而影响考试深层的质量特性。为了确保每一道试题在考试中发挥应有的作用，一般将试题难度值控制在一定的范围内，通常是在0.5 0.2之间。

2、考试难度又称试卷平均难度或加权试卷平均难度，其计算公式：

(公式04)

式中：P为考试难度，为i题的加权系数，为i题的试题难度。

因为 , ，可以证明：

（公式05）

因此，计算考试平均分数后，可以通过上式方便地算出考试难度。

标准差（standard）它是描述一组分数离散情况的最常用、最可靠的统计量数，标准查核平均分一样，也是计算其他统计量数时常用的基本数据之一。计算公式：

（公式06）

式中各符号与公式01意义相同。

利用标准差对试题质量进行初步评价时，主要是看学生考试分数的离散情况是否与学生以往学习成绩的实际分布一致。如果学生学习成绩比较整齐，考试结果分数分布应相对集中，此时分数的标准差较小才符合学生的实际情况；相反，如果学生成绩参差不齐，考试分数的标准差较大才符合学生的实际情况。只有当标准差表明的考试分数的离散情况与被测学生群体的实际情况一致时，试题质量才有可能是合格的。

区分度（discrimination）测量理论对考试的区分度十分重视，称之为判断考试是否有效的指示器，并作为评价试题质量、对试题进行筛选的主要依据。

l、区分度概念指考试对学业水平不同的学生区分程度或鉴别能力。某一道试题在学业水平、实际能力较高的学生都能答对，而学业水平、实际能力较低的学生都答错，则认为该题目有好的区分度(试题区分度)。具有良好区分度的试题组成的试卷，实际水平高的学生应该能够获得较好的成绩，实际水平低的学生应该不能通过获得分较低。研究发现：当考试是以选拔为主要目的时，具备良好的区分度的考试才会满足考试效度要求；考试的信度随考试区分度的提高而增加，且前者的增加速率更快；试题的难度与区分度关系密切，在难度接近于0.5时，区分度量值接近最大，但区分度相同的考试其难度值可能不同。在编制是卷时，难度小的试题主要区分低分组学生，难度大的试题区分高分组学生，为适应对全部参考学生都能区分，需要对试卷中全部试题的难度、区分度做综合考虑。试题区分度与试题难度一样，属于试题库建设题目优化的控制指标，本文仅提及而不做讨论。

l、区分度计算最常用的计算方法是极端分组法，该方法计算简单，适合一般考试的总体区分度分析。该方法是通过比较两个极端效标组（高分组和低分组）的差异来估计试题区分度的。计算如下：

（公式07）

式中，为区分度，和分别为高分组、低分组学生的平均得分，M为该次考的满分值。

高分组和低分组的划分是将考试学生的成绩由高到低的顺序依次排序，然后取其上端一部分为高分组，取其下端一部分为低分组。对于极端分组的人数应占全部被测学生多大比例要视成绩分布的具体情况而定，如果考试成绩分布符合正态分布，则高分组和低分组最佳比例均为27%；如果考试成绩分布较平坦则比例应略高于27%；反之比例可低一些；一般情况下，其比例值介于25%—33%之间。

3、测量结果的评价使用上述算法，通常考试区分度数值应大于0.2。

考试信度（reliability）评价考试结果的稳定性是用考试信度（或测验信度）估计的。由于任何考试结果都因考试误差的客观存在而受到或多或少的影响，因此百分之百可信的考试几乎无法得到。考试信度就是推测考试可信与否的最重要量化指标。实际测量中多采用分半信度和同质性信度两种算法。

l、分半信度采用分半法（split-half reliability）考试信度是将考试施测于某被试总体，然后将考试分半，再求被试在每一半考试上的分数的一致性程度。具体方法是将奇数题组成一个部分，偶数题构成奇数题的复本。计算两半考试得分的皮尔逊相关系数（Pearson’s product moment correlation）（公式08），再采用Spearman-brown公式（公式09）矫正。

（公式08）

（公式09）

为皮尔逊相关系数（又称为分半信度），为矫正后的信度估计值，为配对后某对奇数题、偶数题得分值，为成对试题数目。

使用要求：①奇、偶数题目必须成对；②成对值的数目一般要大于30；③两列数据都应呈正态分布。因此，该方法通常仅用于由选择题组成的考试。

同质性信度又称为考试内在一致性信度。这种信度是以考试题目间的一致性程度作为指标。具体方法是将考试分成若干部分，求各部分的一致性程度。采用克伦巴赫（Cronbach）α系数进行考试信度值的估计，公式：

（公式10）

式中：为α系数，n为部分总数，指各部分考试分数的方差，为考试总方差。

不难看出分半法是将考试分成两部分（即n=2），并且可以证明公式12与公式11等价。该方法估计考试信度不受题目类型限制，使用最为广泛。

考试信度参照值标准学业成绩考试要求考试信度估计值在0.90以上，常达到0.95；一般考试应达到0.70～0.80。有人认为信度＜0.70不能用于鉴别考生个人。

考试效度（validity）考试效度是考试误差（准确度）大小估计的一个统计学指标。

效度的计算考试效度最常用的方法是相关效度分析(relative validity)。相关效度分析又称效标效度，是指考试分数与效标的相关程度。所谓效标就是检验考试有效性的一种参照标准，通常用一次公认比较可靠或权威的考试结果表示。效标的确定将直接影响考试效度测量结果的合理性和有效性，通常在选择效标时要求取同一批学生在考试构成、学科门类上都相近的考试数据，效标应是某一次十分成功的考试或几次成功考试的平均成绩。由于效标效度采用考试分数和效标分数间的相关系数来表示，可以对被检测的考试进行定量化的分析比较，其意义直观，易于被理解和接受。

计算公式：

（公式11）

式中：、为本次考试的观测分、平均分，、为效标分、效标平均分。

考试效度参照值在效标选择适当，考试编制合理的情况下，通常考试效度量值应在0.4—0.7之间，考试效度值过低（低于0.3）视为无效考试。当所选择的效标与该考试存在较大的差异时，考试效度值将严重偏低。例如我们用数学和生物两门课程的平均成绩做效标，采用本方法对某年级多门课程进行考试效度测试，计算物理、化学、政治三门课程考试效度值，数据见表02。

表02 使用同一效标对多门课程科目的效度计算结果

课程科目	物理	化学	政治
考试效度值	0.5858	0.5219	0.1748

结果证明：数学和生物均属于理科，不能用该两门课程数据做效标对政治考试做效度检验。

成绩分布统计 通常以10分为一个分数段，统计每个分数段包含的学生数，组成成绩的频数分布（frequency distribution）统计表。将该统计表各分数段的中值和该组学生数对应点依次制成条形图，形成中间高两边低的成绩频数分布图（图01）。

图01

频数分布统计表和频数分布图各具特色，前者数据准确而后者形象直观。当考试学生较多时，可以进一步细化分数段，如以5分为一个分数段。成绩分布的统计是考试数据统计的一项重要工作，它可以初步了解分数分布的特征，粗略判断考试运作是否理想；对学生成绩进行初步分挡，以配合进行学生成绩的合理解释。理想考试的成绩应该呈对称分布，高分或低分考生数量较少，中间部分数量较多，且其分档情况接近理想的分数解释。

考试成绩分布的正态性检验 研究证实自然人群中个体智力分布特征为处于中等智力附近的个体数量较多，并在分布图上呈现一高峰，由中间向两端（智力低下和智力超强）数量逐渐减少，形成类似钟形的分布曲线，该曲线符合统计学上的正态分布（normal distribution）。学生学习成绩的分布在外界条件相同情况下，因受智力影响较大，也呈正态分布。当考试成绩分布呈正态分布时，测量效果符合自然分布规律，因此认为考试比较成功，试题质量较好。测试学生总体学习成绩分布可以对试题质量进行粗略的评价。

正态分布说明测试结果与学生的实际情况一致，各种难度的项目比例合理。

正偏态分布说明试题难度偏高，难度较大的项目比例偏大。呈这种分布的试题有利于将成绩优秀的学生和中等程度的学生区别开，但不利于将中等程度的学生和成绩较差的学生区别开。

负偏态分布说明试题难度偏低，难度较低的项目比例偏大。呈这种分布的试题有利于将成绩较差的学生和中等程度的学生区别开，但不利于将中等程度的学生和成绩优秀的学生区别开。

双峰型分布说明试题存在两极分化现象，即难度偏高的和难度偏低的项目较多，而中等难度的项目偏少，项目难度的分布缺乏梯度，不够合理。呈这种分布的试题可以区别中等程度的学生，但不利于区别出成绩优秀的学生和成绩较差的学生。

平坡型分布说明试题中各种难度的项目比例接近，梯度较大。呈这种分布的试题区分度较高，但分数之间的差异偏大。

陡峭型分布说明试题中同等难度的项目较多，梯度偏小。呈这种分布的试题几乎不能将不同程度的学生去分开，分数分布过于集中。

正态性检验一般采用矩法（method of moment），矩法也称动差法。它是用数学上矩的原理推导出偏度系数（coefficient of skewness）和峰度系数（coefficient of kurtosis），公式：

（公式12）

（公式13）

式中X为某一分数段组中值，f为相应分数段学生个数，n为参加考试的学生数。为统计量，存在抽样误差，其标准误的计算如下：

（公式14）

（公式15）

在计算得到及后，可按下式计算检验统计量u值，用u检验推断资料的正态性。

偏度（公式16）

峰度（公式17）

正态性检验除采用矩法外，还有W法（样本小于50）、D法（样本范围51-1000）、X²检验法（精确性略差）等。

（转自温州教育网）

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：老外对SAS、SPSS和Stata的评价

后一篇：随机化

新浪BLOG意见反馈留言板　欢迎批评指正