加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

缺失值处理:虚拟变量调整法靠谱吗?

(2023-06-02 22:26:32)
标签:

stata

缺失值处理

虚拟变量调整法

分类: Stata数据处理
全文阅读:https://www.lianxh.cn/news/716acf8ee40b7.html

目录

 


1. 引言

社会调查数据难免会有缺失值,常见情形之一是问卷题目跳转。比如,未婚群体受访时会跳过「婚姻幸福度」等类似题目。一般而言,缺失值有实际值,但由于受访者拒答、隐瞒或谎报造成答案不合理、追踪调查数据后期未能成功追访等原因无法观测。目前,数据缺失大致分为以下三种类型:

  • 完全随机缺失 (Missing Completely at Random, MCAR):表现为出现的数据缺失与已观测到的数据无关,并且与未观测到的数据也无关。例如,由于测量设备出故障,导致某些值缺失。
  • 随机缺失 (Missing at Random, MAR):此时出现的数据缺失的现象与已观测到的数据有关,而与未观测到的数据无关。例如,人们是否透露收入可能与性别、教育程度、职业等因素有关系。如果除了收入数据缺失,其他因素都能被观测到,并且收入缺失情况在不同性别、教育程度、职业的人群内存在差异,而与收入本身的值无关——那么收入就是随机缺失的。
  • 非随机缺失 (Not Missing at Random, NMAR):出现的数据缺失现象与未观测的数据有关。例如,在控制了性别、教育程度、职业等已观测因素之后,如果收入是否缺失还依赖于收入本身的值,像是高收入人群倾向于隐瞒自己的收入,那么收入就是非随机缺失的。

在数据缺失类型中,完全随机缺失和随机缺失属于可忽略的缺失,而非随机缺失属于不可忽略的缺失。总的来说,由于数据缺失原因复杂、影响难测,对缺失值进行合理处理就成为一项重要工作。目前,缺失数据的处理方法常被分为三类:加权法、删除法和插补法。

  • 插补法又包括统计学插补法和机器学习插补法。
  • 如果缺失数据是由单元无回答 (被调查者不愿意或者不能够回答整张问卷) 造成的,那么常用的方法是“加权法” (通过增加回答者的权重来弥补无回答,以减小无回答带来的偏倚)。
  • 如果缺失数据是由项目无回答 (被调查者拒绝回答个别的调查项目) 造成的,那么常用的方法是“删除法”或者“插补法”。

在处理数据缺失问题上,虚拟变量调整法 (DVA, Dummy variable adjustment) 曾在许多年间大行其道。它主要针对回归分析中不完全的自变量,适用于任何类型的回归——线性、logistic、Cox 等,易于理解与实现。

然而, DVA 并不正确。Michael Jones (1996) 证明了:即使数据的缺失是完全随机的,DVA 也常常会产生有偏的系数估计。由此,目前在回顾缺失值处理方法时,DVA 常被弃置一旁。

本文将重新介绍 DVA。尽管 Jones 一再强调 DVA 的缺陷,但 Allison 本人认为,仍然存在两种情况,可以使 DVA 成为处理缺失值的有效方法。这种方法,甚至会优于 多重插补法和 (完全信息下的) 最大似然法


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有