Stata:自变量组合筛选-subset
(2023-07-31 11:12:13)
标签:
stata自变量组合筛选subset |
分类: Stata新命令 |
目录
1. 简介
在进行回归分析时,我们通常能够获得大量的自变量,而这些自变量并不全是有用的。比如,这其中存在着和因变量不相关或者相关性极小的变量。
针对这种情况,我们可以根据经验判断筛选对因变量有影响的自变量,比如工业生产对污染排放的影响。但有时,我们无法凭借经验和理论来判断哪些自变量对因变量有影响。此时,我们需要借助一定的算法和统计标准,来帮助我们选取最佳的自变量组合。其中,最优子集回归就是这样一种帮助我们筛选协变量的方法。
最优子集回归的基本思想是,当我们用比真实模型中的自变量更多的自变量时,所有这些自变量构成的集合中的一个子集一定和潜在的真实模型是一样的。如
m 个自变量会拟合
一般来说,在 R
中可以通过 regsubsets
subset
subset
regsubsets
当协变量的数量大于样本大小时,也可以使用“正向选择”模型。该方法为模型的每个特定大小 (即 1 个协变量, 2 个协变量等)
提供了协变量的最优子集,也可以提供了总体最优子集组合。当提供最优子集组合时,主要使用三个标准作为验证方法,即调整后的