
从教育测量学上讲,考试命题的技术指标较多,每种指标说法也不尽相同,下面我们就说说常见的四种技术指标。
1.难度:
指试卷(题)的难易程度。一般用试卷(题)的得分率或答对率表示,所以难度事实上是容易度或通过率。
难度用p表示,其值在0~1之间,难度值越接近1,越容易;越接近0,难度越大。试题要有梯度,因此各试题的难度应有不同。一般认为,理想的难度值在0.5-0.7之间,高于0.7和低于0.3的试题不能太多。
难度计算办法: P=平均分÷满分值
例如:第一题平均分为7.5分,此题的满分值为10分,则第一题的难度P=7.5÷10=0.75。
再如:全班语文成绩平均为91.5分,满分值为120分,则这套试题的难度P=91.5÷120=
0.76。
2.区分度:
指试题对不同考生的知识、能力水平的鉴别程度。如果一个题目的测试结果使水平高的考生答对(得高分),而水平较低的考生答错(得低分),它的区分能力就很强。区分度与难度紧密相关,测验过难或过易,会造成考试者都通不过或都通过的结果,这样,测验也就无区分度可言了。
计算区分度的方法很多,特别需要注意的是对同一个试题的考试成绩采用不同的方法所得到的区分度的值是不同的。为了简单计算,我们可以使用下面的一种方法进行计算区分度:先将分数排序,P1=27﹪高分组的难度,P2=27﹪低分组的难度。
区分度D=(27﹪高分组的平均分-27﹪低分组的平均分)÷满分值。
例如,某题满分为10分,高分组与低分组的平均分分别是8.2分与3.3分,则区分度为:
D=(8.2-3.3)÷10=0.49
区分度一般在-1~+1之间,值越大区分度越好。试题的区分度在0.4以上表明此题的区分度很好,0.3~0.39表明此题的区分度较好,0.2~0.29表明此题的区分度不太好需修改,0.19以下表明此题的区分度不好应淘汰。
3.信度:
指使用同一试卷对考生重复测验时,或两个平行试卷对考生测验时,所得测验分数的一致性和稳定性程度。
信度描述测量结果的一致性、可靠性程度。评价考试结果的稳定性是用考试信度(或测验信度)估计的。由于任何考试结果都因考试误差的客观存在而受到或多或少的影响,因此百分之百可信的考试几乎无法得到。考试信度就是推测考试可信与否的最重要量化指标。信度计算的方法较为复杂,需要借助计算机有关程序进行,我们这里就简要举例说说信度的含义。如一次命题考试,优等学生得
90 分,中等学生得 70 分,薄弱学生得 50
分,并且第二次或第三次测验结果都基本如此,则这个试题就可信。如果第一次甲好,第二次乙好,第三次丙好,则这个试题就不可信。信度的计算方法很多,一般采取半分法,即把同样的题目印制的试卷分成分数相等的两部分,分两次测验,如果两次结果基本相同,则可信;如果两次结果相去甚远,题目的信度则有问题,需要查找原因。
在控制试题难度和区分度的条件下,制定操作性强的评分标准,减少评分环节的误差,适当增加题目数量,扩大试题的覆盖面,尽量消除考试中的干扰因素,就可以提高测验的信度。
4.效度:
指考试有效性或正确性的质量指标,考试效度的高低反映着考试是否达到它的预定目标,是否考了要考的内容。
估计测验的效度还没有十分有效的方法,一般常用内容效度,就是指测验试题对所要测量的内容具有代表性的程度,反映测验题目的选取是否符合《课程标准》的要求,是否恰当地反映出所要测量的要求与水平,主要用于学科测验。内容效度一般不用数量化指标来表示,主要依靠某种依据的基础上作出逻辑分析。提高测验内容效度的方法一般采用分项细目表来控制。
以上四种命题技术指标,是大家常用的。但这些技术指标,基本都是考试结束以后,在对试题的详尽分析中得出的准确数据。命题时,对这些技术指标的把握,主要通过命题人的自身的经验来预估,预估的技术指标是否准确,还要等到考试结束后,进行统计分析准确数据来验证。
加载中,请稍候......