独立性检验的基本思想及背景资料

标签:
数学教育教学 |
独立性检验的基本思想
χ2=n(ad-bc)2/[(a+b)(c+d)(a+c)(b+d)] 其中n=a+b+c+d为样本容量
计算出的统计量大小与查χ2分布表的临界值比较,若大于临界值,则落入拒绝区域,(χ2的值越大,说明“X与Y有关系”成立的可能性越大)即两个量存在关系。
深层的背景知识,涉及到二维随机变量的联合分布与边缘分布、二维随机变量的独立性。抽样分布中的χ2分布。假设检验等。你可以查,《概率论与数理统计》相关教材,我下面列出一些,供参考。
二维离散型随机变量
1.联合分布
定义
设二维离散型随机变量(X,Y)的一切可能取值为(xi,yj)i,j=1,2,…,且(X,Y)取各对可能值的概率为
P{X=xi,Y=yi}=pij,i,j=1,2,….
称式(3.3)为(X,Y)的(联合)概率分布或(联合)分布律,离散型随机变量(X,Y)的联合分布律可用表3-1表示.
表3-1
X Y |
x1 |
y1 y2 … yj … |
p11
p12
…
p1j
… |
由概率的定义可知pij具有如下性质:
(1) 非负性:pij≥0(i,j=1,2,…);
(2) 规范性: =1.
离散型随机变量X和Y的联合分布函数为
F(x,y)=P{X≤x,Y≤y}=
,
其中和式是对一切满足xi≤x,yj≤y的i,j来求和的.
例3.1
求P{X>1,Y≥3}及P{X=1}.
解
X Y |
1 |
1 2 3 4 |
0.1
0
0.1
0 |
P{X=1}=P{X=1,Y=1}+P{X=1,Y=2}+P{X=1,Y=3}+P{X=1,Y=4}=0.2.
2.边缘概率分布
二维随机变量(X,Y)作为一个整体,它具有分布函数F(x,y).而X和Y也都是随机变量,它们各自也具有分布函数.将它们分别记为FX(x)和FY(y),依次称为二维随机变量(X,Y)关于X和Y的边缘分布函数(Marginal distribution function).边缘分布函数可以由(X,Y)的分布函数F(x,y)来确定,事实上
FX(x)=P{X≤x}=P{X≤x,Y<+∞}=F(x,+∞),
FY(y)=P{Y≤y}=P{X<+∞,Y≤y}=F(+∞,y).
设(X,Y)是二维离散型随机变量,其分布律为:
P{X=xi,Y=yj}=pij,i,j=1,2,….
于是,有边缘分布函数
FX(x)=F(x,+∞)= .
由此可知,X的分布律为:
P{X=xi}=
,i=1,2,…,
称其为(X,Y)关于X的边缘分布律.同理,称(X,Y)关于Y的边缘分布律为:
P{Y=yj}=
,j=1,2,….
例3.3
http://s3/mw690/7c9ce4cagdd35a8e5bc62&690
随机变量的独立性
定义3.7
P{X≤x,Y≤y}=P{X≤x}P{Y≤y},
则称X和Y是相互独立(Mutually independent)的.
若二维随机变量(X,Y)的分布函数为F(x,y),其边缘分布函数分别为FX(x)和FY(y),则上述独立性条件等价于对所有x和y有
F(x,y)=FX(x)FY(y).
对于二维离散型随机变量,上述独立性条件等价于对于(X,Y)的任何可能取的值(xi,yj)有
P{X=xi,Y=yj}=P{X=xi}P{Y=yj}.
对于二维连续型随机变量,独立性条件的等价形式是对一切x和y有
f(x,y)=fX(x)fY(y),
这里,f(x,y)为(X,Y)的概率密度函数,而fX(x)和fY(y)分别是边缘概率密度函数.
如在例3.6中,(1)有放回摸球时,X与Y是相互独立的;而(2)无放回摸球时,X与Y不是相互独立的.
抽样分布
http://s13/mw690/7c9ce4cagdd35bf6356ac&690
假设检验
假设检验是统计推断的一个重要部分.在日常生活和科学研究中,经常对某一事情提出疑问,解决问题的过程往往是先做一个和疑问相关的假设,然后在这个假设下去寻找和疑问相关的证据,如果得到的证据和假设矛盾,就否定这个假设. 类似地,在数理统计中,对总体的分布类型或者分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设,这就是假设检验问题.根据所做假设是关于总体分布中的参数的值,还是关于总体分布的类型,假设检验问题可分为参数假设检验和非参数假设检验问题.
§1 假设检验的基本概念
当总体的分布函数未知,或只知其形式而不知道它的参数的情况时,我们常需要判断总体是否具有我们所感兴趣的某些特性.这样,我们就提出某些关于总体分布或关于总体参数的假设,然后根据样本对所提出的假设作出判断:是接受还是拒绝.下面我们先从下面的例子来说明假设检验的一般提法.
例9.1
0.499
问该包装机的工作是否正常?
由于长期实践表明标准差比较稳定,于是我们假设X~N(μ,0.0152).如果奶粉重量X的均值μ等于0.5kg,我们说包装机的工作是正常的.于是提出假设:
H0:μ=μ0=0.5;
H1:μ≠μ0=0.5.
这样的假设就是统计假设.
1.统计假设
关于总体X的分布(或随机事件之概率)的各种论断叫统计假设,简称假设,用“H”表示,例如:
1° 对于检验某个总体X的分布,可以提出假设:
H0:X服从正态分布,H1: X不服从正态分布. 或
H0:X服从泊松分布,H1: X不服从泊松分布.
2° 对于总体X的分布的参数,若检验均值,可以提出假设:
H0:μ=μ0;H1:μ≠μ0.
H0:μ≤μ0;H1:μ>μ0.
若检验标准差,可提出假设:
H0:σ=σ0;H1:σ≠σ0.
H0:σ≥σ0;H1:σ<σ0.
这里μ0,σ0是已知数,而μ=E(X),σ2=D(X)是未知参数.
上面对于总体X的每个论断,我们都提出了两个互相对立的(统计)假设:H0和H1,显然,H0与H1只有一个成立,或H0真H1假,或H0假H1真,其中假设H0,称为原假设(Original hypothesis)(又叫零假设、基本假设),而H1称为H0的对立假设(又叫备择假设).
在处理实际问题时,通常把希望得到的陈述视为备择假设,而把这一陈述的否定作为原假设.例如在上例中,H0:μ=μ0=0.5为原假设,它的对立假设是H1:μ≠μ0=0.5.
统计假设提出之后,我们关心的是它的真伪.所谓对假设H0的检验,就是根据来自总体的样本,按照一定的规则对H0作出判断:是接受,还是拒绝,这个用来对假设作出判断的规则叫做检验准则,简称检验,如何对统计假设进行检验呢?我们结合上例来说明假设检验的基本思想和做法.
2.假设检验的基本思想
http://s5/mw690/7c9ce4cagdd35d4207234&690
3.两类错误
由于我们是根据样本作出接受H0或拒绝H0的决定,而样本具有随机性,因此在进行判断时,我们可能会犯两个方面的错误:一类错误是,当H0为真时,而样本的观察值U0落入拒绝域W中,按给定的法则,我们拒绝了H0,这种错误称为第一类错误.其发生的概率称为犯第一类错误的概率或称弃真概率,通常记为α,即
P{拒绝H0|H0为真}=α;
另一种错误是,当H0不真时,而样本的观察值落入拒绝域W之外,按给定的检验法则,我们却接受了H0.这种错误称为第二类错误,其发生的概率称为犯第二类错误的概率或取伪概率,通常记为β,即
P{接受H0|H0不真}=β.
显然这里的α就是检验的显著性水平.总体与样本各种情况的搭配见表9-1.
表9-1
H0 |
判断结论 |
犯错误的概率 |
|
真 |
接受 |
正确 |
0 |
拒绝 |
犯第一类错误 |
α |
|
假 |
接受 |
犯第二类错误 |
β |
拒绝 |
正确 |
0 |
对给定的一对H0和H1,总可以找到许多拒绝域W.当然我们希望寻找这样的拒绝域W,使得犯两类错误的概率α与β都很小.但是在样本容量n固定时,要使α与β都很小是不可能的,一般情形下,减小犯其中一类错误的概率,会增加犯另一类错误的概率,它们之间的关系犹如区间估计问题中置信水平与置信区间的长度的关系那样.通常的做法是控制犯第一类错误的概率不超过某个事先指定的显著性水平α(0<α<1),而使犯第二类错误的概率也尽可能地小.具体实行这个原则会有许多困难,因而有时把这个原则简化成只要求犯第一类错误的概率等于α,称这类假设检验问题为显著性检验问题,相应的检验为显著性检验.在一般情况下,显著性检验法则是较容易找到的,我们将在以下各节中详细讨论.
在实际问题中,要确定一个检验问题的原假设,一方面要根据问题要求检验的是什么,另一方面要使原假设尽量简单,这是因为在下面将讲到的检验法中,必须要了解某统计量在原假设成立时的精确分布或渐近分布.