缺失值处理：虚拟变量调整法靠谱吗？_Stata连享会

个人资料

微博

正文字体大小：大中小

缺失值处理：虚拟变量调整法靠谱吗？

(2023-06-02 22:26:32)

标签：

分类： Stata数据处理

社会调查数据难免会有缺失值，常见情形之一是问卷题目跳转。比如，未婚群体受访时会跳过「婚姻幸福度」等类似题目。一般而言，缺失值有实际值，但由于受访者拒答、隐瞒或谎报造成答案不合理、追踪调查数据后期未能成功追访等原因无法观测。目前，数据缺失大致分为以下三种类型：

完全随机缺失 (Missing Completely at Random, MCAR)：表现为出现的数据缺失与已观测到的数据无关，并且与未观测到的数据也无关。例如，由于测量设备出故障，导致某些值缺失。
随机缺失 (Missing at Random, MAR)：此时出现的数据缺失的现象与已观测到的数据有关，而与未观测到的数据无关。例如，人们是否透露收入可能与性别、教育程度、职业等因素有关系。如果除了收入数据缺失，其他因素都能被观测到，并且收入缺失情况在不同性别、教育程度、职业的人群内存在差异，而与收入本身的值无关——那么收入就是随机缺失的。
非随机缺失 (Not Missing at Random, NMAR)：出现的数据缺失现象与未观测的数据有关。例如，在控制了性别、教育程度、职业等已观测因素之后，如果收入是否缺失还依赖于收入本身的值，像是高收入人群倾向于隐瞒自己的收入，那么收入就是非随机缺失的。

在数据缺失类型中，完全随机缺失和随机缺失属于可忽略的缺失，而非随机缺失属于不可忽略的缺失。总的来说，由于数据缺失原因复杂、影响难测，对缺失值进行合理处理就成为一项重要工作。目前，缺失数据的处理方法常被分为三类：加权法、删除法和插补法。

插补法又包括统计学插补法和机器学习插补法。
如果缺失数据是由单元无回答 (被调查者不愿意或者不能够回答整张问卷) 造成的，那么常用的方法是“加权法” (通过增加回答者的权重来弥补无回答，以减小无回答带来的偏倚)。
如果缺失数据是由项目无回答 (被调查者拒绝回答个别的调查项目) 造成的，那么常用的方法是“删除法”或者“插补法”。

在处理数据缺失问题上，虚拟变量调整法 (DVA, Dummy variable adjustment) 曾在许多年间大行其道。它主要针对回归分析中不完全的自变量，适用于任何类型的回归——线性、logistic、Cox 等，易于理解与实现。

然而， DVA 并不正确。Michael Jones (1996) 证明了：即使数据的缺失是完全随机的，DVA 也常常会产生有偏的系数估计。由此，目前在回顾缺失值处理方法时，DVA 常被弃置一旁。

本文将重新介绍 DVA。尽管 Jones 一再强调 DVA 的缺陷，但 Allison 本人认为，仍然存在两种情况，可以使 DVA 成为处理缺失值的有效方法。这种方法，甚至会优于多重插补法和 (完全信息下的) 最大似然法。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report