第十一讲 教育实验(下)
(2010-12-28 10:43:35)
标签:
教育研究方法基础讲义杂谈 |
分类: 教育研究方法基础 |
第十一讲 教育实验
第三问题 实验设计
实验设计是实验研究的蓝图。它的意义在于给研究者提供如何控制变量,如何分析资料,可以获得怎样的结论的一种构想、计划和策略。为了简明地表示各种研究设计的特征,下面的研究设计将用符号来表示。现先介绍实验设计的符号及其涵义:
X:表示研究者所操纵的实验变量;
O:表示观察分数或测量分数;
R:表示受试者是随机选择和随机分派到各组;
…:表示由虚线所隔开的各组研究对象之间不相等;
—:表示由实验所隔开的各组研究对象之间不相等;
由左至右:表示时间次序或先后;
同一横行的 X或0:表示这些X或0是对同一组受试者的实验处理。
一、单组实验设计
单组实验设计是用单一实验组为研究对象,施加某一种或数种实验处理的实验设计。
1. 设计1:单组后测设计
这种设计的模式如下: X O
这种设计的要求是,首先选择一些受试者作为研究对象,并给予一种实验处理,然后测量实验处理的效果。例如,为试验一种新的教学方法对学习成绩的影响,于是采用一班学生实施这种教学方法,一个学期后,测验学生的学习成绩,并凭研究者主观的判断下结论说:这种教学方法有助于学习成绩的提高。这个结论可能是不正确的,因为,这种设计的内在效度甚差,如“历史”、“成熟”、“差异的选择”和“受试的流失”等因素可能干扰实验结果。总之,这种设计虽然简单易行,但因缺乏控制组和可比较的量数,许多因素会混淆实验结果,在一般的教育研究中,这种设计已甚少采用,不过,能认识其优缺点,对于从事更适当的实验设计是必要的。
2. 设计2:单组前后测设计
这种设计的模式如下: O1 X O2
这种设汁的要求是,对受试者进行实验处理前的测验 (O1),然后给予受试者实验处理(X),再给予受试者一次测验(O2)。最后比较前测和后测的分数,通常采用两个相关样本平均数差异的显著性的检验(N>30用Z检验,N<30则用t检验),以检验前后两次测验平均数的差异显著性 (统计检验的具体方法可参阅有关章节)。这种研究设计的优点是:相同的受试者都接受前测和后测,“差异的选择”和“受试的流失”两因素即可被控制。缺点则是:实验效果可能受到“历史”、“成熟”、“工具”、“选择与成熟的交互作用”的干扰,可见其内在效度也很差,少用为宜。
3. 设计3:单组相等时间样本设计
这种设计的基本模式是: X1O1 X0O2 X1O3 X0O4
这种设计是对一组受试者抽取两个相等的时间样本,在其中一个时间样本出现实验处理( X),另一个时间样本不出现实验处理(X0),然后,比较这两段时间测验的分数。例如,新的教学方法与传统的教学方法对同一班学生相间出现,看两段时间的学习成绩有无不同。统计检验可采用变异数分析法。也可采用相关样本平均数差异的显著性检验(N)30用Z检验,N<30用t检验)。这种设计能完全控制影响内在效度的八个因素。缺点主要在外在效度方面,实验结果可能会受到“实验安排的反作用效果”、“选择的偏差与实验变量的交互作用”、“重复实验处理的干扰”等因素的影响。这一设计也可用于只有一个受试者的情形。
4. 设计4:单组纵贯时间系列设计
这种设计的基本模式是: O1 O2 O3 O4 X O5 O6 O7 O8
使用这种设计时,要对实验组做周期性的一系列测量,并在测量的这一时间系列中间呈现实验变量 (X),然后比较实验变量前后的一系列测量记录是否有显著差异。例如,研究者欲探索提高工人的教育水平是否会提高工厂的产量,于是从1月到6月,在每月末,都把准备参加教育培训的工人的生产量记录起来,然后,从7月至12月,对工人进行某一项专门技术的教育培训,接着,继续记录从第二年的1月至6月的生产量,看看经培训后的1~6月产量比培训之前1~6月产量是否有显著增加。
这种设计的统计分析除了可用相关样本平均数差异的显著性检验 (N>30用Z检验,N〈30用t检验〉外,比较理想的统计检验方法是采用趋向分析。
在内在效度方面,这一设计的缺点是:“历史”的因素可能对实验结果产生干扰。要补救这一缺点,最好多增加一个控制组,成为“多重纵贯时间系列设计”。除了“历史”因素外,影响内在效度的其他因素均可被控制。在外在效度方面,“测验的反作用或交互作用效果”未能控制,因此,其实验结果只能推论到重复测验的群体。好在利用学校里的学生做实验时,学生便是常常接受重复测验的团体,而研究者所要推论的对象也正好是学生。因此,这一缺点,对于在校学生而言,并非真正的缺点。
5. 设计5:单组多因子实验设计
这种设计的基本模式是: (O1 X1 O2) (O3 X2 O4)
这一设计的要求是,以单组作为实验对象,施加两种或两种以上的实验处理。每一种实验处理均进行前测和后测。然后比较各种实验处理的效果。例如,要对一个班级进行两种教学方法的对比实验。具体做法是,在实施甲种方法前进行一次测验 (O1),在实施甲种方法(X1)后,再进行一次测验(O2),对两次测验成绩比较,可求出甲种方法所产生的效果。同样,用乙种方法(X2)实验一次,得出乙种方法所产生的效果。最后,对这两种教学方法所产生的效果进行比较,明确哪一种方法的效果比较好。
这种设计的统计分析,可采用相关样本平均数差异的显著性检验 (N)30用Z检验,N<30用t检验)。内在效度方面,这种设计的缺点是:实验结果可能受到“历史”、“测量的工具”等因素的影响。在外在效度方面,这种设计的缺点是“多重实验处理的干扰”即后一实验处理在实验对象中所产生的变化,可能受到前一实验处理的影响。
二、组别比较实验设计
组别比较实验设计是以两个或两个以上的组作为实验组和控制组,然后比较各个组所发生的变化。
1. 设计6:静态组比较设计
这种设计的基本模式是:
这种设计要求选择一班学生作为实验组,另一班学生为控制组,给予实验组实验处理后,测验两班学生的成绩。统计分析可采用独立样本平均数差异的显著性检验 (N)30用Z检验,N〈30用t检验〉。这种设计由于使用控制组比较,“历史”因素可被控制,如果两组年龄相同,也可能控制“成熟”因素。因在设计中没有前测处理,“测验”和“工具”两个因素也容易控制。但由于两组实验对象条件不相等,“差异的选择”、“选择与成熟”的因素可能会影响结果。因为有两个组,“受试者的流失”也可能干扰实验效果。
2. 设计7:等组前后测设计
这种设计的基本模式是:
这个设计的主要步骤:
①用随机方法选择受试者,并将其随机分派到实验组和控制组 (R);
②实验处理前,两组都接受前测( O1O3);
③实验组接受实验处理( X),而控制组则否;
④实验处理后,两组都接受后测( O3O4);
⑤比较两组实验结果 [(O2-O1)-(O4-O3)]。
在实际研究中,有时可能有好几种不同的实验处理,这时,可根据比较的需要采用两组或超过两组以上的实验设计。
两种实验处理的等组前、后测设计模式
实验结果 =(O2-O1)-(O4-O3)
三种实验处理的等组前、后测设计模式
实验结果是把三种实验处理所产生的变化互相比较。如果实验因子加多,设计的组数也要相应增加。
这种设计的统计分析是对两组调节后的平均数 (实验的后测值减去前测值的平均数,即各增益数之平均数)作独立样本平均数差异的显著性检验(N>30用Z检验,N<30用t检验)。但这种设计最适当的统计分析法,是共变量分析法(analysis of covariance),即以两组的前测分数作为共变量,进行共变量分析。9[l9]
这种实验设计的内在效度是很高的,由于采用相等的控制组,而且两组都有前、后测,故在前测到后测期间影响内在效度的“历史”、“成熟”、“测验”、“工具”、“统计回归”等因素,两组完全一样。再者,由于采用随机方法,两组在各方面的特质相等,故可控制“差异的选择”、“受试的流失”和“选择与成熟等因素交互作用”等三个因素的干扰。可见,它是一种严谨控制的实验设计,在教育实验研究中常被采用。
但在外在效度方面,由于采用前测,实验结果可能受到“测验的反作用或交互作用效果”因素的干扰,“实验安排的反作用效果”因素的干扰有时也可能产生。
3. 设计8:等组后测设计
这种设计的模式是:
这种设计与前述等组前后测设计比较,不同之处是两组在实验处理前都没有测验。现以一例子来说明这种设计的使用方法。假定要探讨教师和学校领导交换意见的机会是否有助于提高教帅的工作态度。于是从学校中随机抽取一些教师参加实验,其中一部分教师随机分派为实验组,另一部分为控制组。实验开始时,实验组的教师每日均有两次机会和校长交换意见,商谈校务和教学事宜,控制组则无此机会。经过一年后,实验组和控制组的教师,都接受一项测量“教师工作态度”的问卷。然后比较两组教师的工作态度是否有显著差异。统计分析可使用独立样本平均数差异的显著性检验 (N>30用Z检验,N<30用t检验)。
这是一种十分理想的实验设计,因为它对影响内在效度的八个因素均可有效控制,而且,尚可避免因前测所产生的“测验的反作用效果”。
这种设计的局限性在于,它无法确定实验处理是否对不同层次的受试者有不同的效果。如果有前测时,则可据之以形成不同组别,从事进一步的分析。例如,假定要比较采用归纳法和演绎法教数学的效果,如实验前,两组都没有进行数学成绩的测验 (前测),仅在实验后测量数学成绩,如经比较结果,发现两组没有显著差异,据此而确定实验处理没有效果。但是,如果有数学成绩的前测,人们就可根据数学成绩将学生分成高、中、低三个层次,进行2(教学法)×3(数学成绩)的实验设计,实验结果可以发现两种教学方法的效果因学生数学前测成绩不同而异。
4. 设计9:所罗门四等组设计
这一设计实际上是上述等组前后测设计和等组后测设计的综合,是由所罗门 (Solomon,1949)首创,故称为所罗门四组设计(Solomon four group designs)。其设计模式是:
这种设计包含有两个实验组和两个控制组,四组受试者均由随机方法选择而来。其中,有两个组接受前测,两个组则无。实验处理后,四组均接受后测。
实验效果的测定,可用相关样本或独立样本的 Z检验或t检验(N>30用Z检验,N<30用t检验)的方法,检验下列四种平均数的差异显著性:
①第一组前测和后测平均数的差异 (O2-O1);
②第一组和第二组后测平均数的差异 (O2-O4);
③第三组、第四组后测平均数的差异 (O5-O6);
④第一组、第二组前测平均数和第三组后测平均数的分别差异 (O5-O1或O5-O3)。
如果上述四个差异的检验都获得一致性的效果,研究者将更有信心确定是实验处理产生了效果。因为这等于重复做了四次实验 (若以有前测和无前测比较,则等于重复做了二次实验)。有关前测经验的单独效果之检验,可比较第二组和第四组后测平均数的差异(O4-O6)。这种设计对影响内在效度的八个因素均可控制,而且,可以控制和测量前测的主要效果,可以控制和测量前测与实验处理间的交互作用效果(通过第一组和第三组的比较),可以测量“成熟”和“历史”的综合影响效果(根据第四组的后测平均数O6和第一、二组的个别前测平均数O1、O3的比较)。可见,这种设计是最严谨控制的实验设计之一。但是,由于有四个组,需要大量的样本,研究者须付出很大的代价,缺乏实用性。因此,在一般的教育研究中,这种设计的应用并不广泛。
5. 设计10:不相等控制组设计
这种设计的模式是:
这种设计与静态比较设计相比,唯一不同之处是:这种设计两组都有前测。而与等组前后测设计相比,区别则在于:这种设计不是采取随机方法分派受试者,所以实验组与控制组的各方面条件未必相等。
运用这种设计的一般步骤是:①以班级为单位,将班级随机分派为实验组和控制组 ;②对两组实施前测;③实验组接受实验处理,而控制组则否;④实验处理后,两组进行后测。
例如,研究者欲试验新编的小学《数学》课教材是否优于旧教材,可接洽一所小学做实验,结果这所学校不允许采用随机方法从各班级中抽取学生,并随机分派到实验组和控制组,而只能提供六个原来班级学生作为实验对象。这时,研究者只好将六个班级随机分派三个班为实验组,另三个班为控制组 (显然,这种分派方式不能看作是随机分派,因为每一位学生并没有同等机会被分派到实验组或控制组。不过,在不能完全随机分派学生的情况下,以班级为单位随机分派也是一种可取的措施。) 。接着, 对两组受试者实施一项数学思维能力水平测验,然后,实验组使用新教材教学,而控制组仍使用旧教材教学,一个学期后,两组再接受思想品德水平测验,则可比较新旧教材之优劣。统计分析同第7种设计。
这种实验设计在教育研究中使用很普遍。在内在效度方面,这种设计可以控制“历史”、“测验”、“成熟”、“测量的工具”、“受试的流失”等因素。由于有前测,“差异之选择”因素也可控制 (如,可用共变量分析法控制某些特质方面的差异) 。但是,由于没有采用完全随机方式分派受试者,故“选择与成熟”、“选择与同时事件”等的交互作用,会干扰实验效果。如果两组受试的选择不适当,“统计回归”也有可能产生。在外在效度方面,不能控制“测验的反作用或交互作用效果”、“选择偏差的交互作用效果”和“实验安的反作用效果”等因素。
三、循环实验或轮组实验设计
循环实验设计或轮组实验设计也叫对抗平衡设计,它是把各种实验处理 (不管是几个),轮换施行于各组(各组不必均等)然后根据每种实验处理所发生变化的总和来决定实验的效果。
1. 设计11:循环实验设计
这种设计的模式分为甲、乙两种。甲模式:
这种设计的实验步骤如下:
①选取二班作为实验组 (两班不必均等);
②两组在第一个实验时间内进行前测并分别接受二种不同实验处理中的一种 ;
③两组在第一个实验时间内,进行实验 l处理以后的测验;
④在第二个实验时间内,将用轮换方式,将实验处理分别呈现给各组受试者,使每组都有机会接受每一种实验处理。在每次实验处理前后,各组均接受前测和后测。
例如,研究者欲探索两种不同的强化方式,对学习效果的影响。这两种不同的强化方式是: A.固定时间强化(X1):不管学生的学习成绩如何,只有等待某一特定时间到来才“强化”。如:教师固定在每个学期的中段考时,才对学生优者表扬,差者批评。B.不定时强化(X):教师对学生的强化,没有固定的时间,如教师经常对学生优者表扬,差者批评。
根据上述设计模式,研究者选择两组学生 (不必均等),在第一学期,A组接受固定时间的强化,而B组则接受不固定时间的强化;在第二学期,B组接受固定时间的强化,而A组则接受不固定时间的强化。在每个学期的实验前后,都分别对各组学生的学习成绩进行前测和后测。最后,把这两种不同的强化方式各自在各学期内所发生的变化的总和进行比较,即可知两种不同的强化方式对学习效果影响的优劣。
如果实验处理有三种,则实验组分别也应增至三个,每组仍对所有实验处理轮流实验一遍,各种实验处理的次序应像下面的方法排列:
这样的排列方法使每一种实验处理不但在各组中循环了一遍,而且在实验次序的每一个地位上也都循环了一遍。
在内在效度方面,这种设计除了可能产生“选择与成熟的交互作用效果”之外,其他七个影响内在效度的因素均可被控制。在外在效度方面,“多重实验处理的干扰”的因素可能影响外在效度。在每种实验处理都有前测的这类设计,“测验的反作用效果”因素也能影响外在效度。在实际应用上,这种设计不必要求各组均等,因而省却了均等组别的麻烦。但各种实验处理被实验的次数增加,这就自然又增加了很多麻烦。
上述十一种实验设计各有利弊。在选择运用时,每种设计还可以根据实验情况而加以改进。在这些设计中,第三种单组相等时间样本设计、第四种单组纵贯时间系列设计、第十种不相等控制组设计、第十一种循环实验设计这四种又被叫做“准实验设计” (quasi-experimental design)。准实验设计和真正实验设计的主要区别,在于真正实验设计可以使用随机分派的方法将受试者分派到不同的实验处理或情境,而准实验设计则无法如此分派受试者。准实验设计在教育研究中广泛应用,原因是在学校抽样很难做到随机化,因为在实际中,人们不能也不愿打破现存的编班。而准实验设计,以原班级作为实验对象,并在可能的条件下尽可能进行控制,所以教育研究者常常愿意采用。
第四问题 实验结果的验证
教育是复杂的社会现象,影响某一教育现象发生的因素是很多的,教育实验所得的结果不可能达到像自然科学实验研究结果那样准确的程度。为了有效地检验教育实验结果的准确程度,下面介绍几种常用的检验实验结果的方法。
一、从实验程序上检验
任何实验研究的进行都有一定的程序 (包括设计、抽样、分组、控制等工作),实验程序的科学性和先进性将影响实验结果i的准确性。因此,要验证实验结果,首先必须全面地考察整个实验的全过程,检查实验过程的各个环节是否抓好,实验设计效度;如何,无关因素控制得怎样。只有这样,才有可能对实验结果的l准确性有比较全面的认识和评价。
二、用实验系数进行检验
实验处理所产生的效果如何,主要是从前后测验所得数据的比较,及对不同实验处理效果测验所得数据的比较中来看的。实验结果可靠程度的大小一般可用下列求实验系数的办法来检验:优胜点实验系数 =2.78×优胜点标准差优胜点=实验因子1的平均进步数一实验因子z的平均进步数优胜点标准差=J(平均标准差1)2+(平均标准差2)2一每个受测者的增益数之和平均进步数一受测者数
每一实验因子的平均进步数求得后,可据以求得这个平均进步数的平均标准差,进而求得优胜点的标准差。实验系数的大小可用来表示实验可靠程度的大小。实验系数越大,就表明实验结果越可靠。一般说来,实验系数为 1或接近于1时,就表明实验结果相当可靠。如果在0.5以下,就不能认为是可靠的。
三、与其他有关的已确立的定理定论对照进行检验
任何理论都不是孤立的,人们可以把实验所得结果以及由此推出的理论,拿来和已经确立的有关定理、定论对照,进行验证。如果相一致,就证明实验结果及由此产生的理论是可靠的,否则就应有疑问。不一致有两种可能:一般情况下,可能是实验结果不可靠,但有时也可能是已成定论不可靠,应予推翻,当然,后一种情况是很少的。所以,当实验结果与已成定论不一致 J时,问题就非常复杂了,这时往往需要把研究范围再扩大,即连同所谓已成定论的也要再拿来分析研究一番。那就不属于这一实验的问题范围了。
四、用重复实验来检验
这种检验办法是另行抽样,改变实验对象,进行重复实验。重复实验的关键是:实验对象改变,实验处理不变,其他条件尽可能保持不变。重复实验的结果若与原实验结果相符或差别不大,就证明实验可靠,如果差别太大,还可重复实验多次,看究竟哪个实验结果比较可靠。真正的科学结论是应该经得起多次反复检验的。
不过,这种检验办法是比较麻烦的。前文就比较具体的问题所进行的有控制的小型实验而言,而对于牵涉面比较广的问题所进行的自然实验,就不能拿前面所讲的那些要求去硬套,特别是对于牵涉面比较广、规模比较大的实验,要想对于各方面的情况严格加以控制是不可能的,而且控制过多了反而会失去实验的真实性。在这种情况下,自然实验就非常必要,它决不是控制实验所能代替的。当然,自然实验也是一种科学实验,也一样须有假设,须有实验因子,并须有各方面应有的数据。它与控制实验的主要区别在于它是在自然状态下,在日常正常生活工作学习条件下所进行的实验。它需要进行更深入的分析与检验,并不断调整其实验措施。它要求实验者站在更高的角度,具有敏锐的观察能力与更高的分析综合能力。