统计学读书笔记(1)-均值检验
(2012-02-28 22:10:28)
标签:
杂谈 |
分类: 大话统计 |
一、样本均值是否为固定值的检验
原理:
(1)
即:
(样本均值-总体均值)/S/sqrt(n) ~ t(n-1)
这里的S=样本值与样本均值的平方和/(n-1)
注1:该定理不需要用到样本的方差,所以当方差未知,可以求助该定理
注2:由于当n足够大,t分布与z分布接近,所以当n足够大,直接用z分布近似,这也就是为什么通常统计书里面,对于大样本方差未知的case,即使是正态分布,还是采用z分布计算(只是没有电脑时代的一种习惯的延续)
注3:t分布比正态分布平坦和分散。
(2)
注1:z分布要求方差已知,但是现实很少有这种情况,因此z分布其实没有太大意义,但是由于t分布当n较大,接近z分布,为了方便,统一采用z分布来计算
注2:与(3)不一样的地方,这里对n是没有限制的。
(3)
注1:这里均值分布的方差与总体的方差有关,当总体方差未定,怎么办?采用样本方差来近似(MARK:原理是在大样本条件下,总体方差可以用样本方差来近似,推导过程是什么?)
注2:大样本和小样本之间并不是以样本容量大小来区分的,在样本容量固定的条件下所进行的统计推断、问题分析,不管容量有多大,都成为小样本问题(MARK:不是特别理解)。而在样本容量n->无穷的条件下进行的统计推断则为大样本问题。
判断使用方法:
总体分布 |
样本大小 |
方差 |
|
正态分布 |
小样本 |
方差已知 |
由(2)用z分布 (感觉也可以用t分布) |
正态分布 |
大样本 |
方差已知 |
由(2)用z分布 (感觉也可以用t分布) |
正态分布 |
小样本 |
方差未知 |
由(1)用t分布 |
正态分布 |
大样本 |
方差未知 |
由(1)本来应该用t分布,但是由于当n较大,t分布和z分布区别不大,统一还是采用z分布 |
非正态分布 |
小样本 |
方差已知 |
无解 |
非正态分布 |
大样本 |
方差已知 |
由(3)z分布 |
非正态分布 |
小样本 |
方差未知 |
无解 |
非正态分布 |
大样本 |
方差未知 |
由(3)z分布 |
总结:通常我们用到的都是大样本,方差未知,所以统一采用z分布来做
R代码:
t.test()
二、样本均值是否相等的检验
原理:
(1)
其中用到的参数只与样本相关,与总体参数无关。
注1: 当方差未知,但是相等,s_p=[(n1-1)s1^2+(n2-1)s2^2]/(n1+n2-2)
注2: 当方差未知,但不相等,均值之差标准化后服从自由度为v的t分布,v依赖于s1,s2和n1,n2
注3:当n较大的时候,可以用样本方差替代总体方差,因此也可以采用z分布
(2)
注1:样本之差服从z分布,其中用到了总体的方差参数
(3)
在R中,只要总体方差不一致,就采用Welch重新计算自由度
总结:通常都是大样本,在R中,采用t.test,只要方差不相等,都使用welch检验,重新计算自由度。
|