加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

卡方检验

(2025-04-02 15:48:40)
标签:

图片

教育

文化

财经

it

分类: 教育理论
卡方检验

卡方检验的发明者为英国数学家卡尔·皮尔逊,他认为需要一种方法来描述统计样本的实际观测值与理论推断值之间的吻合程度,即用以测定观察值与预期值之间的差异显著性,遂于1900年发布了著名的统计量,卡方检验提出后得到了广泛的应用,在现代统计理论中占有重要地位。

所谓“假设检验”首先就必须先提出假设,这里就涉及到一个问题:我们应该提出怎样的假设?这里提出原假设(null hypothesis,也称为零假设)和备择假设的概念:原假设是备择假设的对立面,同时遵循如下原则:
“原假设通常是研究者想收集证据予以推翻的假设,而备择假设则是研究者想收集证据予以支持的假设。所以一般是先假设两个随机变量无关,即相互独立。
相似的思想在法律中也有应用,法律的“疑罪从无”原则指的是如果没有证据就不能判一个人有罪。因此我们一般会提出原假设:这个人无罪,要说明他有罪,控方就必须提供充足的证据来推翻原假设。

已经提出假设,接下来便是研究该如何“检验”.由于检验的基本原理是基于原假设收集数据,从而测定观察值与预期值之间的差异显著性。因此我们的预期值应当是基于相互独立得到的,即:两个分类的交叉项的概率可以根据独立事件的概率乘法公式得到。

那么想要计算出预期值,只要把上面这四个概率分别乘以样本总数就可以了,于是我们得到了理论频数表(对比的为观察值)。

显然,四个单元格中的数据和对比的数据有一定差距。如果原假设成立,它们应该相差不远。这个“相差不远”该如何用数据去衡量呢?容易想到用每一栏中观察值与期望值差的平方和来描述。
但是这样会产生一个问题:这个指标与每一栏自身的样本容量有关,不同的样本其基数是不一样的。换言之,这里需要的是一个相对量而不是绝对量。因此我们还要将求和公式中的每一个平方项除以这一栏的预期值:这里构造的就是皮尔逊发布的著名统计量,也即列联表的卡方检验公式。

给出分布分位点的概念:对于给定的正数α,称满足条件卡方值大于等于某个值的点为分布的上α分位点,称为显著性水平。一个好消息是,对于不同的卡方值,上α分位点的值已经被统计学家们研究透了,对此我们只需要查表即可!

卡方检验的方法其实就类似于反证法。实际上,这两者既有联系也有区别。卡方检验先假设两变量独立,然后构造一个事件(具体来说该事件指的是皮尔逊检验统计量大于给定显著性水平下的临界值),它在我们的假设之下发生的概率极小(即为)。如果它在实际情况中发生了,就与小概率原理矛盾,因此我们便可以拒绝原假设。这个过程和反证法的步骤是类似的。

需要注意的是,小概率事件确实在一次试验中几乎不可能发生,但这并不代表着在一次试验中它一定不发生,所以我们作出“拒绝原假设”的结论是有一定的犯错误概率的。而我们知道数学中的反证法只要逻辑正确是一定可以否定初始假设的命题的。因此,卡方检验并不完全是反证法,它是一种“基于概率性质的反证法”。



卡方检验

卡方检验

卡方检验



0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有