多元回归分析
标签:
spss统计多元回归预测杂谈 |
分类: 统计 |
多元回归分析在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。可以建立因变量y与各自变量xj(j=1,2,3,…,n)之间的多元线性回归模型: http://zhibao.swu.edu.cn/epcl/spss/Regression/images/2_m2.gif 其中:b0是回归常数;bk(k=1,2,3,…,n)是回归参数;e是随机误差。 多元回归在病虫预报中的应用实例: 某地区病虫测报站用相关系数法选取了以下4个预报因子;x1为最多连续10天诱蛾量(头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为4月中旬降水量(毫米),x4为4月中旬雨日(天);预报一代粘虫幼虫发生量y(头/m2)。分级别数值列成表2-1。 预报量y:每平方米幼虫0~10头为1级,11~20头为2级,21~40头为3级,40头以上为4级。 预报因子:x1诱蛾量0~300头为l级,301~600头为2级,601~1000头为3级,1000头以上为4级;x2卵量0~150块为1级,15l~300块为2级,301~550块为3级,550块以上为4级;x3降水量0~10.0毫米为1级,10.1~13.2毫米为2级,13.3~17.0毫米为3级,17.0毫米以上为4级;x4雨日0~2天为1级,3~4天为2级,5天为3级,6天或6天以上为4级。
数据保存在“DATA6-5.SAV”文件中。 1)准备分析数据 在SPSS数据编辑窗口中,创建“年份”、“蛾量”、“卵量”、“降水量”、“雨日”和“幼虫密度”变量,并输入数据。再创建蛾量、卵量、降水量、雨日和幼虫密度的分级变量“x1”、“x2”、“x3”、“x4”和“y”,它们对应的分级数值可以在SPSS数据编辑窗口中通过计算产生。编辑后的数据显示如图2-1。 http://zhibao.swu.edu.cn/epcl/spss/Regression/images/y01.jpg 或者打开已存在的数据文件“DATA6-5.SAV”。 2)启动线性回归过程 单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项,将打开如图2-2所示的线性回归过程窗口。 http://zhibao.swu.edu.cn/epcl/spss/Regression/images/2_2.jpg 3) 设置分析变量 设置因变量:用鼠标选中左边变量列表中的“幼虫密度[y]”变量,然后点击“Dependent”栏左边的http://zhibao.swu.edu.cn/epcl/spss/images/r.jpg向右拉按钮,该变量就移到“Dependent”因变量显示栏里。 设置自变量:将左边变量列表中的“蛾量[x1]”、“卵量[x2]”、“降水量[x3]”、“雨日[x4]”变量,选移到“Independent(S)”自变量显示栏里。 设置控制变量: 本例子中不使用控制变量,所以不选择任何变量。 选择标签变量: 选择“年份”为标签变量。 选择加权变量: 本例子没有加权变量,因此不作任何设置。 4)回归方式 本例子中的4个预报因子变量是经过相关系数法选取出来的,在回归分析时不做筛选。因此在“Method”框中选中“Enter”选项,建立全回归模型。 5)设置输出统计量 单击“Statistics”按钮,将打开如图2-3所示的对话框。该对话框用于设置相关参数。其中各项的意义分别为: http://zhibao.swu.edu.cn/epcl/spss/Regression/images/1_03a.jpg ①“Regression Coefficients”回归系数选项: http://zhibao.swu.edu.cn/epcl/spss/images/fang01.jpg“Estimates”输出回归系数和相关统计量。 ②“Residuals”残差选项: http://zhibao.swu.edu.cn/epcl/spss/images/fang00.jpg“Durbin-Watson”Durbin-Watson检验。 本例子都不选。 ③ 其它输入选项 http://zhibao.swu.edu.cn/epcl/spss/images/fang01.jpg“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。 本例子选择“Model fit”项。
6)绘图选项 在主对话框单击“Plots”按钮,将打开如图2-4所示的对话框窗口。该对话框用于设置要绘制的图形的参数。图中的“X”和“Y”框用于选择X轴和Y轴相应的变量。 http://zhibao.swu.edu.cn/epcl/spss/Regression/images/1_04.jpg 左上框中各项的意义分别为:
“Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项: “Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。 本例子不作绘图,不选择。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
7) 保存分析数据的选项
在主对话框里单击“Save”按钮,将打开如图2-5所示的对话框。
http://zhibao.swu.edu.cn/epcl/spss/Regression/images/1_05.jpg
图2-5 “Save”对话框
①“Predicted Values”预测值栏选项:
②“Distances”距离栏选项:
③“Prediction Intervals”预测区间选项:
④“Save to New File”保存为新文件:
选中“Coefficient statistics”项将回归系数保存到指定的文件中。本例不选。
⑤ “Export model information to XML file” 导出统计过程中的回归模型信息到指定文件。本例不选。
⑥“Residuals” 保存残差选项:
⑦“Influence Statistics” 统计量的影响。
本例子不保存任何分析变量,不选择。
8)其它选项
在主对话框里单击“Options”按钮,将打开如图2-6所示的对话框。
http://zhibao.swu.edu.cn/epcl/spss/Regression/images/1_06.jpg
图2-6 “Options”设置对话框
①“Stepping Method Criteria”框用于进行逐步回归时内部数值的设定。其中各项为:
http://zhibao.swu.edu.cn/epcl/spss/images/yuan01.jpg“Use probability of
F”如果一个变量的F值的概率小于所设置的进入值(Entry),那么这个变量将被选入回归方程
http://zhibao.swu.edu.cn/epcl/spss/images/yuan00.jpg“Ues F
value”如果一个变量的F值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当变量的
②“Include constant in equation”选择此项表示在回归方程中有常数项。
③“Missing Values”框用于设置对缺失值的处理方法。其中各项为:
http://zhibao.swu.edu.cn/epcl/spss/images/yuan01.jpg“Exclude cases listwise”剔除所有含有缺失值的观测值。
本例选中“Exclude cases listwise”。
9)提交执行
在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中。主要结果见表2-2至表2-4。
10) 结果分析
主要结果:
表2-2
http://zhibao.swu.edu.cn/epcl/spss/Regression/images/2_tab01jpg
表2-2 是回归模型统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std. Error of the Estimate 估计标准误差。
表2-3
http://zhibao.swu.edu.cn/epcl/spss/Regression/images/2_tab02.jpg
表2-3 回归模型的方差分析表,F值为10.930,显著性概率是0.001,表明回归极显著。
表2-4
http://zhibao.swu.edu.cn/epcl/spss/Regression/images/2_tab03.jpg
分析:
建立回归模型:
根据多元回归模型:http://zhibao.swu.edu.cn/epcl/spss/Regression/images/2_m2.gif
把表6-9中“非标准化回归系数”栏目中的“B”列系数代入上式得预报方程:
预测值http://zhibao.swu.edu.cn/epcl/spss/Regression/images/2_sy2.gif
回归方程的显著性检验:
从表6-8方差分析表中得知:F统计量为10.93,系统自动检验的显著性水平为0.001。
F(0.05,4,11)值为3.36,F(0.01,4,11) 值为5.67,F(0.001,4,11) 值为10.35。因此回归方程相关非常显著。(F值可在Excel中用FINV( )函数获得)。
回代检验
需要作预报效果的验证时,在主对话框(图6-8)里单击“Save”按钮,在打开如图3-6所示对话框里,选中“Predicted Values”预测值选项栏中的“Unstandardized”非标准化预测值选项。这样在过程运算时,就会在当前文件中新添加一个“PRE_1”命名的变量,该变量存放根据回归模型拟合的预测值。
然后,在SPSS数据窗口计算“y”与“PRE_1”变量的差值(图2-7),本例子把绝对差值大于0.8视为不符合,反之则符合。结果符合的年数为15年,1年不符合,历史符合率为93.75%。
http://zhibao.swu.edu.cn/epcl/spss/Regression/images/2_7.jpg
图2-7
多元回归分析法可综合多个预报因子的作用,作出预报,在统计预报中是一种应用较为普遍的方法。
在实际运用中,采取将预报因子和预报量按一定标准分为多级,用分级尺度代换较大的数字,更能揭示预报因子与预报量的关系,预报效果比采用数量值统计方法有明显的提高,在实际应用中具有一定的现实意义。

加载中…