首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

独立性检验的基本思想及背景资料

(2013-05-21 15:28:15)

标签：

数学

教育

教学

独立性检验是统计学的一种检验方式。属于χ²检验（即卡方检验）。它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。

独立性检验的基本思想

独立性检验是一种假设检验（先假设独立，再推翻假设）,它的原理及步骤与反证法类似.遵循的原理是小概率事件（概率不超过α，α一般为0.001,0.01,0.05或0.1）在一次实验中几乎不可能发生。如果它发生了，依据数学上的反证法的思想则推翻原假设。意味着不独立的可能性很大（可能性为1-α），即两个量存在关系。若不能推翻假设，则认为是相互独立的（两个量之间没有关系）。

在假设的前提下，由边缘分布去构造联合分布，再由联合分布得到χ²分布统计量，

χ²=n(ad-bc)²/[(a+b)(c+d)(a+c)(b+d)]　其中n=a+b+c+d为样本容量

计算出的统计量大小与查χ²分布表的临界值比较，若大于临界值，则落入拒绝区域，（χ²的值越大，说明“X与Y有关系”成立的可能性越大）即两个量存在关系。

深层的背景知识，涉及到二维随机变量的联合分布与边缘分布、二维随机变量的独立性。抽样分布中的χ²分布。假设检验等。你可以查，《概率论与数理统计》相关教材，我下面列出一些，供参考。

二维离散型随机变量

1.联合分布

定义若二维随机变量（X，Y）的所有可能取值是有限对或可列无穷多对，则称（X，Y）为二维离散型随机变量.

设二维离散型随机变量（X，Y）的一切可能取值为（x_i，y_j）i，j=1，2，…，且（X，Y）取各对可能值的概率为

P{X=x_i，Y=y_i}=p_ij，i，j=1，2，…. （3.3）

称式（3.3）为（X，Y）的（联合）概率分布或（联合）分布律，离散型随机变量（X，Y）的联合分布律可用表3-1表示.

表3-1

x₁ x₂ … x_i …

y₁

y₂

…

y_j

…

p₁₁ p₂₁ … p_i₁ …

p₁₂ p₂₂ … p_i₂ …

… … … … …

p_1j p_2j p_ij …

… … … … …

由概率的定义可知p_ij具有如下性质：

（1）非负性：p_ij≥0（i，j=1，2，…）；

（2）规范性： =1.

离散型随机变量X和Y的联合分布函数为

F（x，y）=P{X≤x，Y≤y}= ，（3.4）

其中和式是对一切满足x_i≤x，y_j≤y的i，j来求和的.

例3.1 设二维离散型随机变量（X，Y）的分布律如表3-2所示：

求P{X＞1，Y≥3}及P{X=1}.

解表3-2

1 2 3

0.1 0.3 0

0 0 0.2

0.1 0.1 0

0 0.2 0

P{X＞1，Y≥3}=P{X=2，Y=3}+P{X=2，Y=4}+P{X=3，Y=3}+P{X=3，Y=4}=0.3；

P{X=1}=P{X=1,Y=1}+P{X=1,Y=2}+P{X=1,Y=3}+P{X=1,Y=4}=0.2.

2.边缘概率分布

二维随机变量（X，Y）作为一个整体，它具有分布函数F（x，y）.而X和Y也都是随机变量，它们各自也具有分布函数.将它们分别记为F_X（x）和F_Y（y），依次称为二维随机变量（X，Y）关于X和Y的边缘分布函数（Marginal distribution function）.边缘分布函数可以由（X，Y）的分布函数F（x，y）来确定，事实上

F_X（x）=P{X≤x}=P{X≤x，Y＜+∞}=F（x，+∞）， (3.7)

F_Y（y）=P{Y≤y}=P{X＜+∞，Y≤y}=F（+∞，y）. (3.8)

设（X，Y）是二维离散型随机变量，其分布律为：

P{X=x_i，Y=y_j}=p_ij，i，j=1，2，….

于是，有边缘分布函数

F_X（x）=F（x，+∞）= .

由此可知，X的分布律为：

P{X=x_i}= ，i=1，2，…， (3.9)

称其为（X，Y）关于X的边缘分布律.同理，称（X，Y）关于Y的边缘分布律为：

P{Y=y_j}= ，j=1，2，…. (3.10)

例3.3 设袋中有4个白球及5个红球，现从其中随机地抽取两次，每次取一个，定义随机变量X，Y如下：

http://s3/mw690/7c9ce4cagdd35a8e5bc62&690

在上例的表中，中间部分是（X，Y）的联合分布律，而边缘部分是X和Y的边缘分布律，它们由联合分布经同一行或同一列的和而得到，“边缘”二字即由上表的外貌得来.显然，离散型二维随机变量的边缘分布律也是离散的.另外，例3.6的（1）和（2）中的X和Y的边缘分布是相同的，但它们的联合分布却完全不同.由此可见，联合分布不能由边缘分布惟一确定，也就是说，二维随机变量的性质不能由它的两个分量的个别性质来确定.此外，还必须考虑它们之间的联系.这进一步说明了多维随机变量的作用.在什么情况下，二维随机变量的联合分布可由两个随机变量的边缘分布确定，

随机变量的独立性

独立性是许多概率和统计问题的前提条件.第一章引进了事件的独立性概念，研究了独立事件的性质.本节主要研究随机变量之间的独立性：随机变量的独立性是通过与其联系的事件的独立性引进的，而随机变量独立性的研究也是通过事件的独立性展开的.下面将给出随机变量独立性的定义及其一些等价的独立性条件.

定义3.7 设X和Y为两个随机变量，若对于任意的x和y有

P{X≤x，Y≤y}=P{X≤x}P{Y≤y}，

则称X和Y是相互独立（Mutually independent）的.

若二维随机变量（X，Y）的分布函数为F（x，y），其边缘分布函数分别为F_X（x）和F_Y（y），则上述独立性条件等价于对所有x和y有

F(x，y)=F_X（x）F_Y（y）. (3.15)

对于二维离散型随机变量，上述独立性条件等价于对于（X，Y）的任何可能取的值（x_i，y_j）有

P{X=x_i，Y=y_j}=P{X=x_i}P{Y=y_j}. (3.16)

对于二维连续型随机变量，独立性条件的等价形式是对一切x和y有

f（x，y）=f_X（x）f_Y（y）， (3.17)

这里，f（x，y）为（X，Y）的概率密度函数，而f_X（x）和f_Y（y）分别是边缘概率密度函数.

如在例3.6中，（1）有放回摸球时，X与Y是相互独立的；而（2）无放回摸球时，X与Y不是相互独立的.

抽样分布

前面已经知道，统计量也是一个随机变量，因而，它必定服从一个分布。我们称统计量的分布为抽样分布.当总体的分布函数已知时，抽样分布是确定的，然而求统计量的精确分布一般是一个比较复杂的问题.本节介绍来自正态总体的三个最常用的抽样分布.

http://s13/mw690/7c9ce4cagdd35bf6356ac&690

假设检验

假设检验是统计推断的一个重要部分.在日常生活和科学研究中，经常对某一事情提出疑问，解决问题的过程往往是先做一个和疑问相关的假设，然后在这个假设下去寻找和疑问相关的证据，如果得到的证据和假设矛盾，就否定这个假设. 类似地，在数理统计中，对总体的分布类型或者分布参数作某种假设，根据抽取的样本观察值，运用数理统计的分析方法，检验这种假设是否正确，从而决定接受假设或拒绝假设，这就是假设检验问题.根据所做假设是关于总体分布中的参数的值，还是关于总体分布的类型，假设检验问题可分为参数假设检验和非参数假设检验问题.

§1 假设检验的基本概念

当总体的分布函数未知，或只知其形式而不知道它的参数的情况时，我们常需要判断总体是否具有我们所感兴趣的某些特性.这样，我们就提出某些关于总体分布或关于总体参数的假设，然后根据样本对所提出的假设作出判断：是接受还是拒绝.下面我们先从下面的例子来说明假设检验的一般提法.

例9.1 某工厂用包装机包装奶粉，额定标准为每袋净重0.5kg.设包装机称得奶粉重量X服从正态分布N（μ，σ²）.根据长期的经验知其标准差σ=0.015(kg).为检验某台包装机的工作是否正常；随机抽取包装的奶粉9袋，称得净重（单位：kg）为

0.499 0.515 0.508 0.512 0.498 0.515 0.516 0.513 0.524

问该包装机的工作是否正常？

由于长期实践表明标准差比较稳定，于是我们假设X~N（μ，0.015²）.如果奶粉重量X的均值μ等于0.5kg，我们说包装机的工作是正常的.于是提出假设：

H₀：μ=μ₀=0.5；

H₁：μ≠μ₀=0.5.

这样的假设就是统计假设.

1.统计假设

关于总体X的分布（或随机事件之概率）的各种论断叫统计假设，简称假设，用“H”表示，例如：

1° 对于检验某个总体X的分布，可以提出假设：

H₀：X服从正态分布，H₁: X不服从正态分布. 或

H₀：X服从泊松分布，H₁: X不服从泊松分布.

2° 对于总体X的分布的参数，若检验均值，可以提出假设：

H₀：μ=μ₀；H₁：μ≠μ₀.

H₀：μ≤μ₀；H₁：μ＞μ₀.

若检验标准差，可提出假设：

H₀：σ=σ₀；H₁：σ≠σ₀.

H₀：σ≥σ₀；H₁：σ＜σ₀.

这里μ₀，σ₀是已知数，而μ=E（X），σ²=D（X）是未知参数.

上面对于总体X的每个论断，我们都提出了两个互相对立的（统计）假设：H₀和H₁，显然，H₀与H₁只有一个成立，或H₀真H₁假，或H₀假H₁真，其中假设H₀，称为原假设(Original hypothesis)（又叫零假设、基本假设），而H₁称为H₀的对立假设（又叫备择假设）.

在处理实际问题时，通常把希望得到的陈述视为备择假设,而把这一陈述的否定作为原假设.例如在上例中，H₀：μ=μ₀=0.5为原假设，它的对立假设是H₁：μ≠μ₀=0.5.

统计假设提出之后，我们关心的是它的真伪.所谓对假设H₀的检验，就是根据来自总体的样本，按照一定的规则对H₀作出判断：是接受，还是拒绝，这个用来对假设作出判断的规则叫做检验准则，简称检验，如何对统计假设进行检验呢？我们结合上例来说明假设检验的基本思想和做法.

2.假设检验的基本思想

http://s5/mw690/7c9ce4cagdd35d4207234&690

3.两类错误

由于我们是根据样本作出接受H₀或拒绝H₀的决定，而样本具有随机性，因此在进行判断时，我们可能会犯两个方面的错误：一类错误是，当H₀为真时，而样本的观察值U₀落入拒绝域W中，按给定的法则，我们拒绝了H₀，这种错误称为第一类错误.其发生的概率称为犯第一类错误的概率或称弃真概率，通常记为α，即

P{拒绝H₀｜H₀为真}=α；

另一种错误是，当H₀不真时，而样本的观察值落入拒绝域W之外，按给定的检验法则，我们却接受了H₀.这种错误称为第二类错误，其发生的概率称为犯第二类错误的概率或取伪概率，通常记为β，即

P{接受H₀｜H₀不真}=β.

显然这里的α就是检验的显著性水平.总体与样本各种情况的搭配见表9-1.

表9-1

H₀	判断结论		犯错误的概率
真	接受	正确	0
真	拒绝	犯第一类错误	α
假	接受	犯第二类错误	β
假	拒绝	正确	0

对给定的一对H₀和H₁，总可以找到许多拒绝域W.当然我们希望寻找这样的拒绝域W，使得犯两类错误的概率α与β都很小.但是在样本容量n固定时，要使α与β都很小是不可能的，一般情形下，减小犯其中一类错误的概率，会增加犯另一类错误的概率，它们之间的关系犹如区间估计问题中置信水平与置信区间的长度的关系那样.通常的做法是控制犯第一类错误的概率不超过某个事先指定的显著性水平α（0＜α＜1），而使犯第二类错误的概率也尽可能地小.具体实行这个原则会有许多困难，因而有时把这个原则简化成只要求犯第一类错误的概率等于α，称这类假设检验问题为显著性检验问题，相应的检验为显著性检验.在一般情况下，显著性检验法则是较容易找到的，我们将在以下各节中详细讨论.

在实际问题中，要确定一个检验问题的原假设，一方面要根据问题要求检验的是什么，另一方面要使原假设尽量简单，这是因为在下面将讲到的检验法中，必须要了解某统计量在原假设成立时的精确分布或渐近分布.

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：线性回归分析

后一篇：独立性检验的应用案例

新浪BLOG意见反馈留言板　欢迎批评指正