Stata:正确理解置信区间
(2022-10-25 08:00:13)
标签:
stata置信区间 |
分类: Stata推文 |
目录
1. 何谓置信区间
无论是描述性统计还是检验统计量,都是基于总体的样本进行估计的,因此存在不确定性。置信区间是指以同样的方式重新对总体抽样时,期望的估计出现在一定范围内的概率。
在统计学中,置信度是描述概率的另一种方式。例如,构建一个具有
95% 置信水平的置信区间,那么 100 次的估计值中将有 95 次落在置信区间。其中,95% 为置信度,或置信水平、置信系数,一般用
CI
表示。如果我们使用
我们在很多场景下都会使用置信区间,包括:
- 比例
- 总体平均值
- 总体平均值和比例之间的区别
- 组间差异
以上均为点估计,并没有给出任何关于变量数据变化的相关信息,因此置信区间对于理解点估计值附近的变化是有用的。例如,我们分别调查了 100 名英国人和美国人看电视的习惯,发现两组人平均每周看 35 小时电视。然而,被调查的英国人看电视的时间存在很大差异,而美国人看电视的时间都差不多。尽管两组人的点估计值 (平均观看时长) 相同,但英国人的估计值比美国人的估计值有更大的置信区间。
如下图所示,蓝色代表美国人看电视时间的分布情况,绿色为英国人。两份数据均服从正态分布,并且都具有相同的均值 35 小时 (虚线),但是蓝色分布更加集中,而绿色更加分散,说明英国人看电视的时间存在更大的差异性,而美国人看电视的时间更为集中。