第三十三课逐步回归分析_黄双斗

http://blog.sina.com.cn/u/1798760053

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

第三十三课逐步回归分析

(2010-09-18 22:26:33)

标签：

杂谈

分类： SAS学习

第三十三课 逐步回归分析

一、 逐步回归分析

在一个多元线性回归模型中，并不是所有的自变量都与因变量有显著关系，有时有些自变量的作用可以忽略。这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显著影响的部分自变量的问题。

在可能自变量的整个集合有40到60个，甚至更多的自变量的情况下，使用“最优”子集算法可能并不行得通。那么，逐步产生回归模型要含有的X变量子集的自动搜索方法，可能是有效的。逐步回归方法可能是应用最广泛的自动搜索方法。这是在求适度“好”的自变量子集时，同所有可能回归的方法比较，为节省计算工作量而产生的。从本质上说，这种方法在每一步增加或剔除一个X变量时，产生一系列回归模型。增加或剔除一个X变量的准则，可以等价地用误差平方和缩减量、偏相关系数或F统计量来表示。

无疑选择自变量要靠有关专业知识，但是作为起参谋作用的数学工具，往往是不容轻视的。通常在多元线性模型中，我们首先从专业角度选择有关的为数众多的因子，然后用数学方法从中选择适当的子集。本节介绍的逐步回归法就是人们在实际问题中常用的，并且行之有效的方法。

逐步回归的基本思想是，将变量一个一个引入，引入变量的条件是偏回归平方和经检验是显著的，同时每引入一个新变量后，对已选入的变量要进行逐个检验，将不显著变量剔除，这样保证最后所得的变量子集中的所有变量都是显著的。这样经若干步以后便得“最优”变量子集。

逐步回归是这样一种方法，使用它时每一步只有一个单独的回归因子引进或从当前的回归模型中剔除。Efroymoson (1966)编的程序中，有两个F水平，记作F_in和F_out，在每一步时，只有一个回归因子，比如说X_i，如果剔除它可能引起RSS的减少不超过残差均方MSE（即ESS/(N-k-1)）的F_out倍，则将它剔除；这就是在当前的回归模型中，用来检验_i=0的F比是小于或等于F_out。

若剔除的变量需要选择，则就选择使RSS减少最少的那一个（或等价的选择F比最小的）。用这种方式如果没有变量被剔除，则开始引进一个回归因子，比如X_j，如果引进它后使RSS的增加，至少是残差均方的F_in倍，则将它引进。即若在当前模型加X_j项后，为了检验 _j =0的F比，F ≥F_in时，则引进X_j，其次，若引进的变量需要选择，则选择F比最大的。程序按照上面的步骤开始拟合，当没有回归因子能够引进模型时，该过程停止。

二、 变量选择的方法

若在回归方程中增加自变量X_i，称为“引入”变量X_i，将已在回归方程中的自变量X_j从回归方程中删除，则称为“剔除”变量X_j。无论引入变量或剔除变量，都要利用F检验，将显著的变量引入回归方程，而将不显著的从回归方程中剔除。记引入变量F检验的临界值为F_in（进），剔除变量F检验的临界值为F_out（出），一般取F_in≥F_out，它的确定原则一般是对k个自变量的m个(m ≤k)，对显著性水平df1=1，df2= 的F分布表的值，记为F*，则取F_in=F_out= F*。一般来说，也可以直接取F_in=F_out=2.0或2.5。当然，为了回归方程中还能够多进入一些自变量，甚至也可以取为1.0或1.5。

1. 变量增加法

首先对全部k个自变量，分别对因变量Y建立一元回归方程，并分别计算这k个一元回归方程的k个回归系数F检验值，记为{ }，选其最大的记为 = max{ },若有 ≥ F_in，则首先将X₁引入回归方程，不失一般性，设X_i就是X₁。

接着考虑X₁分别与X₂,X₃,...,X_k与因变量Y组成二元回归方程，对于这k－1个回归方程中X₂,...,X_k的回归系数进行F检验，计算F值，并选其最大的F值 ,若 ≥F_in,则接着就将X_j引入回归方程，不失一般性，设X_j就是X₂。

对已经引入回归方程的变量X₁和X₂，如同前面的方法做下去，直至所有未被引入方程的变量的F值均小于F_in时为止。这时的回归方程就是最终选定的回归方程。

显然，这种增加法有一定的缺点，主要是，它不能反映后来变化的情况。因为对于某个自变量，它可能开始是显著的，即将其引入到回归方程，但是，随着以后其他自变量的引入，它也可能又变为不显著了，但是，并没有将其及时从回归方程中剔除掉。也就是增加变量法，只考虑引入而不考虑剔除。

2. 变量减少法

与变量增加法相反，变量减少法是首先建立全部自变量X₁,X₂,...,X_k对因变量Y的回归方程，然后对k个回归系数进行F检验，记求得的F值为{ }，选其最小的记为 =min{ },若有 ≤F_out，则可以考虑将自变量X_i从回归方程中剔除掉，不妨设X_i就取为X₁。

再对X₂,X₃,...,X_k对因变量Y建立的回归方程重复上述过程，取最小的F值为，若有 ≤F_out，则将X_j也从回归方程中剔除掉。不妨设X_j就是X₂。重复前面的做法，直至在回归方程中的自变量F检验值均大于F_out，即没有变量可剔除为止。这时的回归方程就是最终的回归方程。

这种减少法也有一个明显的缺点，就是一开始把全部变量都引入回归方程，这样计算量比较大。若对一些不重要的变量，一开始就不引入，这样就可以减少一些计算。

3. 变量增减法

前面的两种方法各有其特点，若自变量X₁,X₂,...,X_k 完全是独立的，则可结合这两种方法，但是，在实际的数据中，自变量X₁,X₂,...,X_k之间往往并不是独立的，而是有一定的相关性存在的，这就会使得随着回归方程中变量的增加和减少，某些自变量对回归方程的贡献也会发生变化。因此一种很自然的想法是将前两种方法综合起来，也就是对每一个自变量，随着其对回归方程贡献的变化，它随时可能被引入回归方程或被剔除出去，最终的回归模型是在回归方程中的自变量均为显著，不在回归方程中的自变量均不显著。

三、 引入变量和剔除变量的依据

如果在某一步时，已有个变量被引入到回归方程中，不妨设为，即已得回归方程：

(33.1)

并且有平方和分解式：

(33.2)

显然，回归平方和及残差平方和均与引入的变量相关。为了使其意义更清楚起见，将其分别设为RSS（）及ESS（）。下面我们来考虑，又有一个变量（l≤i≤k）被引入回归方程中，这时对于新的回归方程所对应的平方和分解式为：

TSS = RSS（，） ESS（ , ）

(33.3)

当变量X_i引入后，回归平方和从RSS（）增加到RSS（，）,而相应的残差平方和却从ESS（）降到ESS（ , )，并有：

RSS( , )-RSS( )

= ESS( )-ESS( , )

(33.4)

记 ,它反映了由于引入后，对回归平方和的贡献，也等价于引入后残差平方和所减少的量，称其为对因变量的方差贡献，故考虑检验统计量：

(33.5)

其中为样本量，是已引入回归方程的变量个数，这时若有，则可以考虑将自变量引入回归方程，否则不能引入。

实际上大于F_in的变量开始时可能同时有几个，那么是否将它们都全部引入呢？实际编程序时并不是一起全部引入，而是选其最大的一个引入回归方程。

关于剔除变量，如果已有个变量被引入回归方程，不失一般性，设其为，所对应的平方和分解公式为：

(33.6)

其中为了研究每个变量在回归方程中的作用，我们来考虑分别删掉X_i (i=1,2,...,l后相应的平方和分解公式为：

(33.7)

这时，回归平方和从降为 ,同时残差也发生相应的变化。残差平方和从增加到，对回归平方和的贡献，也等价于删除后残差平方和所增加的量，同理可表示为：

(33.8)

同理，我们来构造检验统计量：

(33.9)

显然，这时F_i越小，则说明在回归方程中起的作用（对回归方程的贡献）越小，也就是若有 ,则可以考虑将自变量从回归方程中剔除掉，我们在编程序时，每次只剔除一个，因此，我们每次选择最小的来与进行比较。若有则可以不考虑剔除，而开始考虑引入。

四、 逐步回归在使用过程中要注意的问题

逐步回归在计算过程中，进入和剔除变量规则的差别在例子中有可能得到说明。例如，可以根据F_i统计量中MSE的自由度来使用不同的F_in和。但是，往往并不使用这种提纯量，而是使用固定的F 值，因为在搜索过程的重复检验中，并不可能得到精确的概率解释。最低可接受F_in决不应小于最高可接受，否则就有可能重复进入和剔除一个自变量。

自变量进入模型的顺序并不反映它们的重要程度。例如，第一个进入模型的X₁，最终却可能被剔除。我们使用的逐步回归程序，在每个阶段上都打印出偏相关系数。对于筛选变量来说，使用这些相关系数与使用F_i值是等价的，事实上，有些程序就是使用偏相关系数来筛选变量的。进入和剔除一个变量的F 限不必根据近似显著性水平选定，但可以根据误差缩减量来描述性地确定。例如，一个进入变量的F限2.0可以这样来说明：变量一旦进入模型，那么，进入变量的边际误差缩减量至少应该是剩余误差均方的二倍。

逐步回归方法的一个局限是预先假定有单一的最优X变量子集，从而来进行识别。正如前面已经提到的，常常并没有唯一的最优子集。因此，一些统计学家建议，求得逐步回归的解后，拟合所有可能与逐步回归解的自变量个数相同的回归模型，以研究是否存在更好的X变量子集。

逐步回归方法的另一个缺点是当X变量高度相关时，有时会得到不合理的“最优”子集。也有人提出好几种其他寻找“最优”自变量子集的自动搜索方法。我们这里提一下其中的两种。但这两种方法都还未被接受为逐步搜索方法。其中之一为向前选元法，这种搜索方法只是逐步回归方法的简化，略去了检验进入模型的变量是否应被剔除这一步。其中之二为向后剔除法，这种搜索方法与向前选元法相反。它从包括所有X变量的模型开始，挑出值最小的那个变量。例如，假定为值最小的那个变量，有：

(33.10)

如果最小的值小于预定限，就剔除这个变量，然后拟合剩余的个自变量的模型，挑选下一个待剔除元。重复这种过程，直至没有自变量可以被剔除。因为向后剔除法是从最大可能模型开始的，所以它比向前选元法需要更多的计算量。但是，向后剔除法有一个优点，它可以使使用者明白含有许多变量模型的复杂性。

五、 stepwise逐步回归过程

stepwise过程对逐步回归提供了九种方法。当你有许多自变量且想找出哪些自变量是该选入回归模型时，stepwise是有用的。

由于stepwise可以使你深入地了解自变量与因变量或响应变量之间的关系，因此，它对考察分析是很有帮助的。但是，stepwise并不能保证给你“最好”的模型，甚至具有最大R²的模型也不一定是“最好”的，并且靠这些均值演变得来的模型没有一个可以保证它精确地描述了真实世界的过程。

stepwise与rsquare以及其他过程是不同的。rsquare对所有自变量的组合找出R² ，所以它可以指出具有最大R²的模型。而stepwise在挑选变量时选择下面描述的方法，所以，当stepwise判断模型时，它打印一份多个回归报告。

1. stepwise过程提供的九种模型

（1） none（全回归模型）。没有对回归变量进行筛选，建立与全部自变量的全回归模型。

（2） forward（向前选择）。向前选择技术以模型中没有变量开始，对每个自变量，forward计算反映自变量对模型的贡献的F 统计量。这些F 统计量与model语句中给出的slentry＝水平上的值相比较，如果F 统计量的显著水平没有一个比slentry＝水平上（如果缺省slentry＝这个参数，则显著水平假设为0.50）的值大，则forward停止。否则，forward在模型中加入具有最大F 统计量的变量，然后forward再计算这些变量的F 统计量直到剩下的变量都在模型的外面，再重复估计过程。变量就这样一个接一个地进入模型直到剩下的变量没有一个可以产生显著的F统计量。一旦一个变量进入了模型，它就不再出去了。

（3） backward（向后淘汰）。向后淘汰技术以计算含有全部自变量的模型的统计量为开始。然后变量一个接一个地从模型中剔除，直到留在模型中的所有变量产生的F统计量的显著水平在slstay= 水平上（如果缺省slstay= 这个参数，则显著水平假设为0.10）。在每一步，剔除对模型贡献最小的变量。

（4） stepwise（逐步回归，向前且向后）。逐步方法是向前选择的修正。对已在模型中的变量，不一定必须一直在模型中，这点与向前选择法是不同的。stepwise按照向前选择方法选入变量后，还考察模型中所包含的所有变量并剔除使得F 统计量的显著水平不在slstay=水平上的变量。只有在完成检验和必要的剔除之后，其他变量才可再进入模型。当模型外的变量没有一个使F 统计量在slentry= 水平上显著且模型中的每个变量在slstay= 水平上显著，或加到模型中的变量是刚刚剔除的变量时候，逐步处理便结束了。

（5） maxr（具有对偶切换的向前选择）。最大R² 改良技术是占优势的逐步技术，它几乎与所有可能的回归一样好。不像上面三种技术，这个方法不是落在单个模型上，而是试着找出最佳一变量模型、最佳二变量模型等等，但它不能保证对每个量度都能找到具有最大R²的模型。

maxr方法先找出一个产生最大R²值的变量，然后再加入另一个次最大R²值的变量，从而形成二变量的模型。形成二变量的模型之后，将模型中的变量与模型外的变量相比较，以决定是否移去一个变量而以另一个能生成更大R² 值的变量来代替。全部比较结束后，便得到了最佳二变量模型。依次往下，便得到最佳三变量模型等等。

（6） minr（具有对偶搜索的向前选择）。最小R² 增量法非常类似于maxr，只是选择准则为产生最小R²增量。对模型中一个已知的变量数，maxr和minr通常产生同样的“最佳”模型，但是minr在每步中考虑较多的模型。

（7） rsquare（R²选择法）。按给定样本的R²大小准则选择最优的自变量子集，但不能保证对总体或其他样本而言是最优的。用户可以规定出现在子集中自变量的最大和最小个数及被选择的每种子集的个数。R²选择法总能够对所考虑变量的每种变量个数找到具有最大R²的模型，但需要很多的计算时间。

（8） adjrsq（修正R²选择法）。该方法类似于rsquare法，只是对于选择模型使用的准则为修正R²统计量。修正公式见(32.27)式。

（9） Mallows的C_p统计量。C_p统计量是由Mallows提出的作为选择模型的判别式的变量。C_p是一个误差平方总和的量度：

(33.11)

其中，P是模型中包括截距项的参数个数，MSE是满模型时均方误差，ESS_p是具有P个自变量（包括截距项）回归模型的误差平方和。作C_p与P的曲线图，Matlows建议取C_p 首次接近P的地方的模型。

2. proc stepwise过程控制语句

stepwise过程一般由下列语句控制：

proc stepwise data=数据集;

model 因变量＝自变量 </选项列表>;

weight 变量 ;

by 变量 ;

run ;

stepwise至少需要一个model语句。by语句和weight语句可以放在任何地方。

（1） model语句的</选项列表>

stepwise中可以有任意多个model语句。model语句中的选项如下：

l noint——不产生一般在模型中自动生成的截距参数。

l none——请求全回归模型。

l forward或f——请求向前选择法。

l backward或b——请求向后淘汰法。

l stepwise——请求逐步技术，这个任选项是预置的。

l maxr——请求最大R²增量法。

l minr——请求最小R² 增量法。

l rsquare——请求R²最大准则法。

l adjrsq——请求修正R²最大准则法。

l cp——请求Mallows的C_p统计量法。

l slentry= 值——指出向前选择和逐步技术中选择变量进入模型的显著水平。如果省略，那么stepwise过程便对向前选择技术置slentry= 0.5，对逐步技术置slentry＝0.15。

l slstay= 值——指出向后淘汰与逐步技术中变量留在模型里的显著水平。如果省略，则逐步技术用0.15，向后淘汰技术用0.10。

l include=n——强迫头n 个因变量总是在模型中。选择技术由model语句中其他变量来完成。

l start= s——以含有model语句中头s个自变量的模型为开始，进行比较、选择过程。理所当然地，没有一个被估计的模型含有不足s个的变量。此仅应用于maxr或minr模型。

l stop= s——当它找到“最佳”s变量模型之后，stepwise便停止。其中s是stop的值，此仅应用于maxr或minr模型。

（2） 其他语句

l weight语句——用于指出含有观察值的权数的变量。分析中仅用具有weight变量正值的观察。

l by语句——指定的变量值来分组处理某数据集。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：第三十二课多元线性回归分析3

后一篇：第三十三课逐步回归分析2

新浪BLOG意见反馈留言板　欢迎批评指正

第三十三课 逐步回归分析

杂谈

第三十三课逐步回归分析