加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

Stata:自变量组合筛选-subset

(2023-07-31 11:12:13)
标签:

stata

自变量组合筛选

subset

分类: Stata新命令
全文阅读:https://www.lianxh.cn/news/e9be7ce5e9150.html

目录

 


1. 简介

在进行回归分析时,我们通常能够获得大量的自变量,而这些自变量并不全是有用的。比如,这其中存在着和因变量不相关或者相关性极小的变量。

针对这种情况,我们可以根据经验判断筛选对因变量有影响的自变量,比如工业生产对污染排放的影响。但有时,我们无法凭借经验和理论来判断哪些自变量对因变量有影响。此时,我们需要借助一定的算法和统计标准,来帮助我们选取最佳的自变量组合。其中,最优子集回归就是这样一种帮助我们筛选协变量的方法。

最优子集回归的基本思想是,当我们用比真实模型中的自变量更多的自变量时,所有这些自变量构成的集合中的一个子集一定和潜在的真实模型是一样的。如 m 个自变量会拟合  个子集回归方程,从这些模型中选择 RSS 最小或  最大的模型,然后用回归方程的统计量作准则 (如交叉验证误差、、、、调整  等指标)从中挑选最优的模型设定形式。

一般来说,在 R 中可以通过 regsubsets 函数来实现最优子集回归分析,根据一定的统计标准来选取最佳的协变量组合,本文主要介绍 Stata 中的 subset 命令。

subset 是 R 中函数 regsubsets 的 Stata 包装器,提供“最佳”、“向后”和“向前”的逐步子集协变量选择。这是一种机器学习方法,用于在具有许多协变量的监督线性学习方法 (即线性回归模型) 中选择最优数量的特征 (协变量)。

当协变量的数量大于样本大小时,也可以使用“正向选择”模型。该方法为模型的每个特定大小 (即 1 个协变量, 2 个协变量等) 提供了协变量的最优子集,也可以提供了总体最优子集组合。当提供最优子集组合时,主要使用三个标准作为验证方法,即调整后的 、 和 


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有