质量数理科学——假设检验
标签:
杂谈 |
配对设计(paired design)资料的假设检验
配对设计是为了控制某些非处理因素对实验结果的影响。将那些因素相同或相近的受试对象配成对子,使得同一对子中的受试对象除处理因素不同外,其他因素相同或相近,同一对子中的两受试对象分别接受不同的处理,其实验结果的差异可以简单的认为是“纯”处理因素的作用。对于配对资料可以分析其差值。
对配对资料的分析,一般用配对http://www.foodmate.net/lesson/41/4-6_clip_image002.gif检验(paired t-test),其检验假设为:差值的总体均数为零。计算统计量的公式为
http://www.foodmate.net/lesson/41/4-6_clip_image004.gif(式4)
http://www.foodmate.net/lesson/41/4-6_clip_image006.gif(式5)
式中http://www.foodmate.net/lesson/41/4-6_clip_image012.gif为对子数。
例1将大白鼠按照同窝、同性别和体重接近的的原则配成8对,每对中两只大白鼠随机确定一只进食正常饲料,另一只进食缺乏维生素E饲料,一段时间以后,测量两组大白鼠的肝中维生素的A的含量如表1,问食物中维生素E的缺乏能否影响大白鼠肝中维生素A的含量?
表1两种饲料喂养大白鼠肝中维生素A的含量
|
对子号 (1) |
正常饲料 (2) |
缺乏维生素E饲料 (3) |
差值http://www.foodmate.net/lesson/41/4-6_clip_image014.gif (4) |
http://www.foodmate.net/lesson/41/4-6_clip_image016.gif (5) |
|
1 |
3350 |
2450 |
1100 |
1210000 |
|
2 |
2000 |
2400 |
-400 |
160000 |
|
3 |
3000 |
1800 |
1200 |
1440000 |
|
4 |
3950 |
3200 |
750 |
562500 |
|
5 |
3800 |
3250 |
550 |
302500 |
|
6 |
3750 |
2700 |
1050 |
1102500 |
|
7 |
3450 |
2500 |
950 |
902500 |
|
8 |
3050 |
1750 |
1300 |
1690000 |
|
合计 |
— |
— |
6500 |
7370000 |
计算得http://www.foodmate.net/lesson/41/4-6_clip_image018.gif
http://www.foodmate.net/lesson/41/4-6_clip_image020.gif
http://www.foodmate.net/lesson/41/4-6_clip_image024.gif
http://www.foodmate.net/lesson/41/4-6_clip_image028.gif
http://www.foodmate.net/lesson/41/4-6_clip_image030.gif
http://www.foodmate.net/lesson/41/4-6_clip_image032.gif
http://www.foodmate.net/lesson/41/4-6_clip_image034.gif
查表知,http://www.foodmate.net/lesson/41/4-6_clip_image040.gif,可认为两组大白鼠肝中维生素A的含量不等,维生素E缺乏饲料组的大白鼠肝中维生素A含量低。
两样本比较的假设检验
完全随机设计两样本的比较,用http://www.foodmate.net/lesson/41/4-7_clip_image005.gif统计量
http://www.foodmate.net/lesson/41/4-7_clip_image007.gif(式6)
http://www.foodmate.net/lesson/41/4-7_clip_image009.gif(式7)
式中http://www.foodmate.net/lesson/41/4-7_clip_image015.gif为两样本均数差值的标准误,可用下式计算
http://www.foodmate.net/lesson/41/4-7_clip_image017.gif(式8)
如果样本含量足够大时,可计算http://www.foodmate.net/lesson/41/4-7_clip_image019.gif统计量
http://www.foodmate.net/lesson/41/4-7_clip_image021.gif(式9)
如果方差不齐,可以考虑用http://www.foodmate.net/lesson/41/4-7_clip_image023.gif检验。两样本的方差是否齐同,可对样本的方差做方差齐性检验
http://www.foodmate.net/lesson/41/4-7_clip_image025.gif(式10)
http://www.foodmate.net/lesson/41/4-7_clip_image031.gif
式中http://www.foodmate.net/lesson/41/4-7_clip_image039.gif分别为方差较大和较小样本的样本含量。
根据计算得的http://www.foodmate.net/lesson/41/4-7_clip_image042.gif界知表(方差齐性检验用),作出推断。
第一类错误与第二类错误
假设检验是反证法的思想,依据样本统计量作出的统计推断,其推断结论并非绝对正确,结论有时也可能有错误,错误分为两类。
Ⅰ型错误又称第一类错误(type Ⅰ error):拒绝了实际上成立的http://www.foodmate.net/lesson/41/4-8_clip_image010.gif的结论中,平均有5次或1次是错误的。
Ⅱ型错误又称第二类错误(type Ⅱ error):不拒绝实际上不成立的http://www.foodmate.net/lesson/41/4-8_clip_image022.gif。
以下图说明两类错误:
http://www.foodmate.net/lesson/41/4-8_clip_image024.jpg
图a中为均数(http://www.foodmate.net/lesson/41/4-8_clip_image046.gif,不被拒绝的概率。
方差分析的基本思想
1、方差分析的意义
前述的t检验和u检验适用于两个样本均数的比较,对于k个样本均数的比较,如果仍用t检验或u检验,需比较http://www.foodmate.net/lesson/41/5-1_clip_image006.gif=0.05,则每次检验拒绝H0不犯第一类错误的概率为1-0.05=0.95;那么6次检验都不犯第一类错误的概率为(1-0.05)6=0.7351,而犯第一类错误的概率为0.2649,因而t检验和u检验不适用于多个样本均数的比较。用方差分析比较多个样本均数,可有效地控制第一类错误。方差分析(analysis of variance,ANOVA)由英国统计学家R.A.Fisher首先提出,以F命名其统计量,故方差分析又称F检验。
2、方差分析的基本思想
下面通过表5.1资料介绍方差分析的基本思想。
例如,有4组进食高脂饮食的家兔,接受不同处理后,测定其血清肾素血管紧张素转化酶(ACE)浓度(表5.1),试比较四组家兔的血清ACE浓度。
表5.1对照组及各实验组家兔血清ACE浓度(u/ml)
|
对照组 |
实验组 |
||||||
|
A降脂药 |
B降脂药 |
C降脂药 |
|||||
|
61.24 |
82.35 |
26.23 |
25.46 |
||||
|
58.65 |
56.47 |
46.87 |
38.79 |
||||
|
46.79 |
61.57 |
24.36 |
13.55 |
||||
|
37.43 |
48.79 |
38.54 |
19.45 |
||||
|
66.54 |
62.54 |
42.16 |
34.56 |
||||
|
59.27 |
60.87 |
30.33 |
10.96 |
||||
|
20.68 |
48.23 |
||||||
|
329.92 |
372.59 |
229.17 |
191.00 |
1122.68 |
|||
|
6 |
6 |
7 |
7 |
26 |
(N ) |
||
|
54.99 |
62.10 |
32.74 |
27.29 |
43.18 |
|||
|
18720.97 |
23758.12 |
8088.59 |
6355.43 |
56923.11 |
|||
由表5.1可见,26只家兔的血清ACE浓度各不相同,称为总变异;四组家兔的血清ACE浓度均数也各不相同,称为组间变异;即使同一组内部的家兔血清ACE浓度相互间也不相同,称为组内变异。该例的总变异包括组间变异和组内变异两部分,或者说可把总变异分解为组间变异和组内变异。组内变异是由于家兔间的个体差异所致。组间变异可能由两种原因所致,一是抽样误差;二是由于各组家兔所接受的处理不同。正如第四章所述,在抽样研究中抽样误差是不可避免的,故导致组间变异的第一种原因肯定存在;第二种原因是否存在,需通过假设检验作出推断。假设检验的方法很多,由于该例为多个样本均数的比较,应选用方差分析。
方差分析的检验假设H0为各样本来自均数相等的总体,H1为各总体均数不等或不全相等。若不拒绝H0时,可认为各样本均数间的差异是由于抽样误差所致,而不是由于处理因素的作用所致。理论上,此时的组间变异与组内变异应相等,两者的比值即统计量F为1;由于存在抽样误差,两者往往不恰好相等,但相差不会太大,统计量F应接近于1。若拒绝H0,接受H1时,可认为各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用。此时的组间变异远大于组内变异,两者的比值即统计量F明显大于1。在实际应用中,当统计量F值远大于1且大于某界值时,拒绝H0,接受H1,即意味着各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用。
http://www.foodmate.net/lesson/41/5-1_clip_image002_0000.gif(5.1)
方差分析的基本思想是根据研究目的和设计类型,将总变异中的离均差平方和SS及其自由度http://www.foodmate.net/lesson/41/5-1_clip_image004_0000.gif分别分解成相应的若干部分,然后求各相应部分的变异;再用各部分的变异与组内(或误差)变异进行比较,得出统计量F值;最后根据F值的大小确定P值,作出统计推断。
例如,完全随机设计的方差分析,是将总变异中的离均差平方和SS及其自由度http://www.foodmate.net/lesson/41/5-1_clip_image007.gif组内分别为组间变异(MS组间)和组内变异(MS组内),两者之比即为统计量F(MS组间/MS组内)。
又如,随机区组设计的方差分析,是将总变异中的离均差平方和SS及其自由度http://www.foodmate.net/lesson/41/5-1_clip_image008_0000.gif分别分解成处理间、区组间和误差3部分,然后分别求得以上各部分的变异(MS处理、MS区组和MS误差),进而得出统计量F值(MS处理/MS误差、MS区组/MS误差)。
3、方差分析的计算方法
下面以完全随机设计资料为例,说明各部分变异的计算方法。将N个受试对象随机分为k组,分别接受不同的处理。归纳整理数据的格式、符号见下表:
1)总离均差平方和(sum of squares,SS)及自由度(freedom,ν)
总变异的离均差平方和为各变量值与总均数(http://www.foodmate.net/lesson/41/5-1_clip_image046.gif)差值的平方和,离均差平方和和自由度分别为:
http://www.foodmate.net/lesson/41/5-1_clip_image048.gif(5.2)
http://www.foodmate.net/lesson/41/5-1_clip_image050.gif=N-1(5.3)
2)组间离均差平方和、自由度和均方
组间离均差平方和为各组样本均数(http://www.foodmate.net/lesson/41/5-1_clip_image054.gif)差值的平方和
http://www.foodmate.net/lesson/41/5-1_clip_image056.gif
http://www.foodmate.net/lesson/41/5-1_clip_image058.gif(5.4)
http://www.foodmate.net/lesson/41/5-1_clip_image060.gif(5.5)
http://www.foodmate.net/lesson/41/5-1_clip_image062.gif(5.6)
3)组内离均差平方和、自由度和均方
组内离均差平方和为各处理组内部观察值与其均数(http://www.foodmate.net/lesson/41/5-1_clip_image068.gif(5.7)
http://www.foodmate.net/lesson/41/5-1_clip_image070.gif(5.8)
http://www.foodmate.net/lesson/41/5-1_clip_image072.gif(5.9)
4)三种变异的关系:
http://www.foodmate.net/lesson/41/5-1_clip_image074.gif
http://www.foodmate.net/lesson/41/5-1_clip_image076.gif
http://www.foodmate.net/lesson/41/5-1_clip_image077.gif= N-1= (k-1)+(N-k) =http://www.foodmate.net/lesson/41/5-1_clip_image079.gif
可见,完全随机设计的单因素方差分析时,总的离均差平方和(SS总)可分解为组间离均差平方和(SS组间)与组内离均差平方和(SS组内)两部分;相应的总自由度(http://www.foodmate.net/lesson/41/5-1_clip_image084.gif)两部分。
5)方差分析的统计量:
http://www.foodmate.net/lesson/41/5-1_clip_image086.gif(5.10)
4、方差分析的应用条件与用途
方差分析的应用条件为①各样本须是相互独立的随机样本;②各样本来自正态分布总体;③各总体方差相等,即方差齐。
方差分析的用途①两个或多个样本均数间的比较;②分析两个或多个因素间的交互作用;③回归方程的线性假设检验;④多元线性回归分析中偏回归系数的假设检验;⑤两样本的方差齐性检验等。完全随机设计的单因素方差分析(one-way ANOVA)
1、用途:用于完全随机设计的多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等。
完全随机设计(completely random design)不考虑个体差异的影响,仅涉及一个处理因素,但可以有两个或多个水平,所以亦称单因素实验设计。在实验研究中按随机化原则将受试对象随机分配到一个处理因素的多个水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组,比较该因素的效应。
2、计算公式:完全随机设计的单因素方差分析是把总变异的离均差平方和SS及自由度http://www.foodmate.net/lesson/41/5-2_clip_image002.gif分别分解为组间和组内两部分,其计算公式如下。
表5.2单因素方差分析的计算公式
|
变异来源 |
离均差平方和(SS) |
自由度(http://www.foodmate.net/lesson/41/5-2_clip_image003.gif) |
均方(MS) |
F |
|||
|
总变异 |
N-1 |
||||||
|
组间变异 |
k-1 |
||||||
|
组内变异 |
N-k |
||||||
|
* C为校正数http://www.foodmate.net/lesson/41/5-2_clip_image017.gif |
|||||||
3、分析步骤(以例说明):
例5.1某军区总医院欲研究A、B、C三种降血脂药物对家兔血清肾素血管紧张素转化酶(ACE)的影响,将26只家兔随机分为四组,均喂以高脂饮食,其中三个试验组,分别给予不同的降血脂药物,对照组不给药。一定时间后测定家兔血清ACE浓度(u/ml),如表5.1,问四组家兔血清ACE浓度是否相同?
本例的初步计算结果见表5.1下部,方差分析的计算步骤为
1)建立检验假设,确定检验水准
H0:四组家兔的血清ACE浓度总体均数相等,μ1=μ2=μ3=μ4
H1:四组家兔的血清ACE浓度总体均数不等或不全相等,各μi不等或不全相等
α=0.05
2)计算统计量F值
按表5.2所列公式计算有关统计量和F值
http://www.foodmate.net/lesson/41/5-2_clip_image021.gif
http://www.foodmate.net/lesson/41/5-2_clip_image025.gif
http://www.foodmate.net/lesson/41/5-2_clip_image027.gif
=5515.3665
http://www.foodmate.net/lesson/41/5-2_clip_image031.gif
ν总=N-1=26-1=25
ν组间=k-1= 4-1=3
ν组内=N-K=26-4=22
http://www.foodmate.net/lesson/41/5-2_clip_image033.gif
http://www.foodmate.net/lesson/41/5-2_clip_image035.gif
http://www.foodmate.net/lesson/41/5-2_clip_image037.gif
表5.3例5.1的方差分析表
|
变异来源 |
||||
|
总变异 |
8445.7876 |
25 |
||
|
组间变异 |
5515.3665 |
3 |
1838.4555 |
13.80 |
|
组内变异 |
2930.4211 |
22 |
133.2010 |
3)确定P值,并作出统计推断
以http://www.foodmate.net/lesson/41/5-2_clip_image048.gif= 22查F界值表(方差分析用),得P <0.01,按http://www.foodmate.net/lesson/41/5-2_clip_image050.gif0.05水准拒绝H0,接受H1,可认为四总体均数不同或不全相同。
注意:根据方差分析的这一结果,还不能推断四个总体均数两两之间是否相等。如果要进一步推断任两个总体均数是否相同,应作两两比较。随机区组设计的两因素方差分析(two-way ANOVA)
1、用途:用于随机区组设计的多个样本均数比较,其统计推断是推断各样本所代表的各总体均数是否相等。
随机区组设计考虑了个体差异的影响,可分析处理因素和个体差异对实验效应的影响,所以又称两因素实验设计,比完全随机设计的检验效率高。该设计是将受试对象先按配比条件配成配伍组(如动物实验时,可按同窝别、同性别、体重相近进行配伍),每个配伍组有三个或三个以上受试对象,再按随机化原则分别将各配伍组中的受试对象分配到各个处理组。
值得注意的是,同一受试对象不同时间(或部位)重复多次测量所得到的资料称为重复测量数据(repeated measurement data),对该类资料不能应用随机区组设计的两因素方差分析进行处理,需用重复测量数据的方差分析。
2、计算公式:随机区组设计的两因素方差分析是把总变异中的离均差平方和SS与自由度http://www.foodmate.net/lesson/41/5-3_clip_image002.gif分别分解成处理间、区组间和误差三部分,其计算公式见表5.4。
表5.4两因素方差分析的计算公式
|
变异来源 |
离均差平方和http://www.foodmate.net/lesson/41/5-3_clip_image004.gif |
|||
|
总 |
N-1 |
|||
|
处理间 |
k-1 |
|||
|
区组间 |
b-1 |
|||
|
误差 |
||||
|
# b区组数 |
||||
例5.2某医师研究A、B和C三种药物治疗肝炎的效果,将32只大白鼠感染肝炎后,按性别相同、体重接近的条件配成8个配伍组,然后将各配伍组中4只大白鼠随机分配到各组:对照组不给药物,其余三组分别给予A、B和C药物治疗。一定时间后,测定大白鼠血清谷丙转氨酶浓度(IU/L),如表5.5。问四组大白鼠的血清谷丙转氨酶是否相同。
表5.5 四组大白鼠血清谷丙转氨酶浓度(IU/L)
|
区组 |
对照组 |
试验组 |
合计 |
||
|
A药组 |
B药组 |
C药组 |
|||
|
1 |
845.1 |
652.4 |
624.3 |
445.1 |
2566.9 |
|
2 |
834.7 |
741.3 |
772.3 |
432.5 |
2780.8 |
|
3 |
826.5 |
675.6 |
632.5 |
362.7 |
2497.3 |
|
4 |
812.8 |
582.8 |
473.6 |
348.7 |
2217.9 |
|
5 |
782.8 |
491.8 |
462.8 |
345.9 |
2083.3 |
|
6 |
745.6 |
412.2 |
431.8 |
312.8 |
1902.4 |
|
7 |
730.4 |
494.6 |
484.9 |
296.3 |
2006.2 |
|
8 |
684.3 |
379.5 |
380.7 |
228.4 |
1672.9 |
|
http://www.foodmate.net/lesson/41/5-3_clip_image002_0000.gif |
6262.2 |
4430.2 |
4262.9 |
2772.4 |
17727.7 (http://www.foodmate.net/lesson/41/5-3_clip_image004_0000.gif) |
|
782.78 |
553.78 |
532.86 |
346.55 |
553.99(http://www.foodmate.net/lesson/41/5-3_clip_image008.gif) |
|
|
4925110.04 |
2571668.14 |
2391246.57 |
995764.14 |
10883788.89 (http://www.foodmate.net/lesson/41/5-3_clip_image012.gif) |
|
本研究的主要目的在于比较不同治疗方法的效果,同时还可以比较不同区组间大鼠血清谷丙转氨酶浓度是否相同。计算步骤为
1)建立检验假设,确定检验水准
H0:四组大白鼠的血清谷丙转氨酶浓度含量相同,μ1=μ2=μ3=μ4
H1:各处理组的血清谷丙转氨酶浓度含量不同或不全相同,各μi不等或不全相等
H0:各区组的血清谷丙氨酶含量相同
H1:各区组的血清谷丙氨酶含量不同或不全相同
http://www.foodmate.net/lesson/41/5-3_clip_image002_0001.gif均等于0.05
2)计算统计量F值
按表5.4中公式计算各统计量。本例的初步计算结果见表5.5下半部。
http://www.foodmate.net/lesson/41/5-3_clip_image004_0001.gif
http://www.foodmate.net/lesson/41/5-3_clip_image006_0000.gif
http://www.foodmate.net/lesson/41/5-3_clip_image008_0000.gif
http://www.foodmate.net/lesson/41/5-3_clip_image010_0000.gif
http://www.foodmate.net/lesson/41/5-3_clip_image012_0000.gifν总=N-1=32-1=31
ν处理=k-1=4-1=3
ν区组=b-1=8-1=7
ν误差=(k-1)(b-1)=(4-1)(8-1)=21
http://www.foodmate.net/lesson/41/5-3_clip_image014.gif
http://www.foodmate.net/lesson/41/5-3_clip_image016.gif
http://www.foodmate.net/lesson/41/5-3_clip_image018.gif
http://www.foodmate.net/lesson/41/5-3_clip_image020.gif
http://www.foodmate.net/lesson/41/5-3_clip_image022.gif
列方差分析表,见表5.6。
表5.6例5.2的方差分析表
|
变异来源 |
||||
|
总变异 |
1062809.2870 |
31 |
||
|
处理间变异 |
766562.7784 |
3 |
255520.9261 |
102.798 |
|
区组间变异 |
244047.7597 |
7 |
34863.9657 |
14.026 |
|
误差 |
52198.7489 |
21 |
2485.6547 |
3)确定P值并作出统计推断
以http://www.foodmate.net/lesson/41/5-3_clip_image034.gif=21查F界值表,得F 0.01(3,21)=4.87。本例F =102.798> F 0.01(3,21), P <0.01,按http://www.foodmate.net/lesson/41/5-3_clip_image035.gif=0.05水准拒绝H0,接受H1,可认为各处理组大白鼠的血清谷丙转氨酶含量不同或不全相同。如果要进一步推断任两个总体均数是否相同,应作两两比较,见本章第四节。
以http://www.foodmate.net/lesson/41/5-3_clip_image037.gif=21查F界值表,得F 0.01(7,21)=3.65。本例F =14.026> F 0.01(7,21), P<0.01,按http://www.foodmate.net/lesson/41/5-3_clip_image038.gif=0.05水准拒绝H0,接受H1,可认为各区组大白鼠的血清谷丙转氨酶含量不同或不全相同。

加载中…