加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

统计学读书笔记(1)-均值检验

(2012-02-28 22:10:28)
标签:

杂谈

分类: 大话统计

 

一、样本均值是否为固定值的检验

原理:

(1)       当总体服从正态分布,则抽样样本的均值服从t分布,

即:

(样本均值-总体均值)/S/sqrt(n) ~ t(n-1)

这里的S=样本值与样本均值的平方和/(n-1)

1:该定理不需要用到样本的方差,所以当方差未知,可以求助该定理

2:由于当n足够大,t分布与z分布接近,所以当n足够大,直接用z分布近似,这也就是为什么通常统计书里面,对于大样本方差未知的case,即使是正态分布,还是采用z分布计算(只是没有电脑时代的一种习惯的延续)

3t分布比正态分布平坦和分散。

(2)       当总体服从正态分布,抽样样本的均值服从正态分布(方差与总体方差相关)

1z分布要求方差已知,但是现实很少有这种情况,因此z分布其实没有太大意义,但是由于t分布当n较大,接近z分布,为了方便,统一采用z分布来计算

2:与(3)不一样的地方,这里对n是没有限制的。

(3)       当总体不服从正态分布,若抽样样本足够大(n大于30,经验值),且总体的方差有限,那么样本均值近似服从正态分布。

1:这里均值分布的方差与总体的方差有关,当总体方差未定,怎么办?采用样本方差来近似(MARK:原理是在大样本条件下,总体方差可以用样本方差来近似,推导过程是什么?)

2大样本和小样本之间并不是以样本容量大小来区分的,在样本容量固定的条件下所进行的统计推断、问题分析,不管容量有多大,都成为小样本问题(MARK:不是特别理解)。而在样本容量n->无穷的条件下进行的统计推断则为大样本问题。

 

判断使用方法:

总体分布

样本大小

方差

 

正态分布

小样本

方差已知

由(2)用z分布

(感觉也可以用t分布)

正态分布

大样本

方差已知

由(2)用z分布

(感觉也可以用t分布)

正态分布

小样本

方差未知

由(1)用t分布

正态分布

大样本

方差未知

由(1)本来应该用t分布,但是由于当n较大,t分布和z分布区别不大,统一还是采用z分布

非正态分布

小样本

方差已知

无解

非正态分布

大样本

方差已知

由(3z分布

非正态分布

小样本

方差未知

无解

非正态分布

大样本

方差未知

由(3z分布

总结:通常我们用到的都是大样本,方差未知,所以统一采用z分布来做


R代码:

t.test()

 

二、样本均值是否相等的检验

原理:

(1)       两个样本来源于独立的正态总体,则样本之差服从t分布

其中用到的参数只与样本相关,与总体参数无关。

1 当方差未知,但是相等,s_p=[(n1-1)s1^2+(n2-1)s2^2]/(n1+n2-2)

2 当方差未知,但不相等,均值之差标准化后服从自由度为vt分布,v依赖于s1s2n1n2

3:当n较大的时候,可以用样本方差替代总体方差,因此也可以采用z分布

(2)       两个样本来源于独立的正态总体,样本之差服从z分布

1:样本之差服从z分布,其中用到了总体的方差参数

(3)       两个样本来源于独立的分布,当样本量足够大,样本之差近似服从z分布

 

R中,只要总体方差不一致,就采用Welch重新计算自由度

 

总结:通常都是大样本,在R中,采用t.test,只要方差不相等,都使用welch检验,重新计算自由度。

var.equal

a logical variable indicating whether to treat the two variances as being equal. If TRUE then the pooled variance is used to estimate the variance otherwise the Welch (or Satterthwaite) approximation to the degrees of freedom is used.

 

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有