Stata缺失值专题:多重补漏分析
(2020-10-28 20:55:40)
标签:
数据缺失单一补漏多重补漏stata |
分类: Stata数据处理 |
目录
我们在实际的问卷收集中,会因为诸多原因存在数据缺失的问题,诸如填写问卷的人没有完成全部的问卷调查、一些跟进问题的缺失和存储设备故障等。在统计学中,补漏 (imputation) 是用替换值替换缺失数据的过程。本文将着重介绍多重补漏 (multiple imputation) 及 Stata 的实现。
1. 数据丢失会导致三个主要问题
- 数据丢失会带来大量偏差 (bias)
- 使数据的处理和分析更加艰巨
- 导致数据分析效率降低
由于缺少数据可能会造成分析数据的潜在问题,因此补漏被视为一种避免列表式删除具有缺失值的案例所涉及的陷阱的方法。也就是说,当一个案例缺少一个或多个值时,大多数统计数据包默认会丢弃任何具有缺失值的案例,这可能会引入偏差或影响结果的代表性。补漏通过基于其他可用信息将丢失的数据替换为估计值来保留所有情况。估算完所有缺失值后,即可使用标准技术对数据集进行分析以获取完整数据。目前国内外学者已经接受了许多理论来解释缺失的数据。