缺失值处理:虚拟变量调整法靠谱吗?
(2023-06-02 22:26:32)
标签:
stata缺失值处理虚拟变量调整法 |
分类: Stata数据处理 |
目录
1. 引言
社会调查数据难免会有缺失值,常见情形之一是问卷题目跳转。比如,未婚群体受访时会跳过「婚姻幸福度」等类似题目。一般而言,缺失值有实际值,但由于受访者拒答、隐瞒或谎报造成答案不合理、追踪调查数据后期未能成功追访等原因无法观测。目前,数据缺失大致分为以下三种类型:
- 完全随机缺失 (Missing Completely at Random, MCAR):表现为出现的数据缺失与已观测到的数据无关,并且与未观测到的数据也无关。例如,由于测量设备出故障,导致某些值缺失。
- 随机缺失 (Missing at Random, MAR):此时出现的数据缺失的现象与已观测到的数据有关,而与未观测到的数据无关。例如,人们是否透露收入可能与性别、教育程度、职业等因素有关系。如果除了收入数据缺失,其他因素都能被观测到,并且收入缺失情况在不同性别、教育程度、职业的人群内存在差异,而与收入本身的值无关——那么收入就是随机缺失的。
- 非随机缺失 (Not Missing at Random, NMAR):出现的数据缺失现象与未观测的数据有关。例如,在控制了性别、教育程度、职业等已观测因素之后,如果收入是否缺失还依赖于收入本身的值,像是高收入人群倾向于隐瞒自己的收入,那么收入就是非随机缺失的。
在数据缺失类型中,完全随机缺失和随机缺失属于可忽略的缺失,而非随机缺失属于不可忽略的缺失。总的来说,由于数据缺失原因复杂、影响难测,对缺失值进行合理处理就成为一项重要工作。目前,缺失数据的处理方法常被分为三类:加权法、删除法和插补法。
- 插补法又包括统计学插补法和机器学习插补法。
- 如果缺失数据是由单元无回答 (被调查者不愿意或者不能够回答整张问卷) 造成的,那么常用的方法是“加权法” (通过增加回答者的权重来弥补无回答,以减小无回答带来的偏倚)。
- 如果缺失数据是由项目无回答 (被调查者拒绝回答个别的调查项目) 造成的,那么常用的方法是“删除法”或者“插补法”。
在处理数据缺失问题上,虚拟变量调整法
然而, DVA 并不正确。Michael
Jones (1996)
本文将重新介绍 DVA。尽管 Jones 一再强调 DVA
的缺陷,但 Allison 本人认为,仍然存在两种情况,可以使 DVA
成为处理缺失值的有效方法。这种方法,甚至会优于