加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

因果推断:双重机器学习-ddml

(2023-06-03 09:37:07)
标签:

stata

因果推断

双重机器学习

ddml

分类: Stata推文
全文阅读:https://www.lianxh.cn/news/5529578569a81.html

目录

 


1. 理论基础

1.1 为什么我们需要 DDML

实证研究往往会面临一个质疑:模型设定是正确的吗?例如,研究在班级中加入助教对教学质量的影响,常见的方法是构造回归方程:

其中, 代表成绩; 是标志是否加入助教的二元变量; 为控制变量,可能包括:每天学习时间、作业完成率、出勤率等。那么这些特征的关系真的是线性的吗?显然不是。例如随着学习时间增加,成绩自然会提高,然而学习时间过长很可能导致疲惫、睡眠不足等,进而造成学习效率下降,反而使得成绩下降。

需要注意的是,我们实际上并不关心学习时间对成绩的影响,我们只希望研究 ,我们只是需要处理控制变量对  造成的影响。

接下来用更严谨的方法描述上述问题。考虑因果模型:

其中  是模型的 Outcome, 是因果模型的 treatment。这里,我们关注 ,即 treatment 的因果效应。一种常见的思路是,通过假设 (例如常见的线性假设),或者利用一定方法 (通常是机器学习) 估计,得到 ,随后就可以利用线性回归得到 

接下来,很自然的想要研究这个估计量是否无偏。遗憾的是  往往是有偏的:

可以看出误差分为两项。 项来自于  和  的独立性,即 ,若二者不独立则会造成偏误。然而问题来源于  项,我们将其展开为以下形式:

注意到  项。首先, 的估计往往存在误差,例如对于高维数据,往往会采用正则项处理,造成正则化误差,此时  项发散。此外, 是数据本身的性质,因此数据会决定偏误的大小而无法改变,导致估计非常不稳健。

综合以上推论,可以说因果模型 treatment effect 的传统估计方法并不完美。因此,我们引入Double/Debiased Machine Learning (DDML) 的概念,为因果估计提供更为稳健的方法。


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有