采用EXCEL2007建立多元线性回归OAR模型
标签:
教育 |
感谢新雨和一波,终于分别在EXCEL2003版和2007版上安装完成“分析工具库”和“分析数据库-VBA函数”,及时解决了建模的计算工具问题。
在求得中等值、优秀值、后进值之后,如何赋予优秀值、中等值、后进值三个指标加权和合理适当的权重,使之成为导向良好的水平指数?1998年最初用过主观经验法、加权平均法、等量加权法,1999年则采用德尔裴法,2008年相应又作了一些微调,虽然强调中学各年级水平指数加权和公式应当有所区别,以促使学校管理者和学科教师从学生年级特点出发,明确本年级教学工作重点和难点,进一步强化中学生学业质量监测评价体系的目标导向作用,但总觉得随意性太大。成果申报写的是德尔裴法,其实早已又回到了主观的经验判断。
对样本质量水平的评价,大致可有两个途径:一是将原方案的均差值转化为均差水平,作为综合性的水平指数;二是对中等值、优秀值、后进值三个分项指标加权求和,作为分析性的水平指数。现以均差水平作为被解释变量,中等值、优秀值、后进值作为解释变量,以区分差异度相对较大为18所中学某科中考成绩为模拟数据,尝试建立合适的多元线性回归模型。
http://s12/middle/41861a7agac80bbe5444b&690
y=a1X1 + a2X2 + a3X3 + ...+anXn + b
式中,y可看作是总体测评目标,X1,X2,X3,...,Xn为代表N个测评要素,a1,a2,...,an称为回归系数,其实质为各个指标的权重系数。它的大小表明各个指标对总体目标y贡献的大小,当我们获得了一组测评对象在Y及其每个变量Xi等上的值,就可以估计出权重系数(a1,a2,...,an)的大小。
在本案例中,这是均差水平指数与中等值、优秀值、后进值三者之间的关系问题。被解释预测变量——均差水平指数和中等值、优秀值、后进值三者之间的依存关系是通过建立回归模型表示的。
要建立回归模型,首先要判断各个解释变量(或称为预测源)之间是否具有互偿性,即中等值、优秀值、后进值三者之间因均在比率和离差体现了“量”与“质”的统一,因而具有良好的互偿性。也就是说,样本的均差水平W是通过其他途径综合形成的,当在某一群体的低指标则意味着其他指标可能得高分而获得一定补偿的趋势。如果各个预测源之间不具有互偿性时,就不能采用多元回归的方法,而只能采用确定多重划界的方法来进行预测。
其次,要判断三个解释变量和被解释变量在多大程度上存在依存关系。判断的办法有两个:一是让三个解释变量分别与被解释变量作积差相关分析;二是对三个解释变量与被解释变量分别作一元线性回归,以拟合系数的大小来判别三个解释变量对被解释变量的重要程度。由下表可见,相关系数和拟合系数均显示,对样本均差水平指数w的影响程度依次是中等值To、后进值Tr和优秀值Ta。
http://s16/middle/41861a7agac80bdfd593f&690
以拟合系数最大的回归方程W=-0.67To++23.91为基础,采用逐步回归法,依次将解释变量——后进值Tr和优秀值Ta引入这个回归模型。结果如下:
上表显示,在一元回归模型W=-0.67To++23.91中依次引入后进值Tr、优秀值Ta之后,分别得到二元回归模型W=0.63To+0.042Tr+23.66和三元回归模型W=0.50To+0.15Ta+0.04Tr+22.19。依次进行拟合系数检验(R检验),回归方程显著性检验(F检验),回归系数显著性检验(T检验),结果显示:
1.拟合系数又称判定系数,这是判定回归模型可靠性的主要指标。拟合系数R2从一元回归模型到三元回归模型略有提高,其中三元回归模型W=0.50To+0.15Ta+0.04Tr+22.19的拟合系数(即复相关系数)达到0.85,表征回归离差占总离差的百分比为85%。这说明均差水平W的变动有85%可由中等值To、后进值Tr和优秀值Ta三者的变动来解释,只有15%的因素属于随机误差。当后进值Tr和优秀值Ta不变时,中等值To每增加1分,均差水平就提高0.5分;当中等值To、后进值Tr不变时,优秀值Ta每增加1分,均差水平提高0.15分;当中等值To、优秀值Ta不变时,后进值Tr每增加1分,均差水平提高0.04分。这个回归模型还因学科、年级等因素的不同而有所不同。
2.F检验是检验整个回归方程的显著性,或者说是评判所有解释变量与被解释变量的线性关系是否密切,这是判定回归模型有效性的主要指标。当显著性水平设为α=0.05时,F(2,18-2-1=15)的临界值为4.77,F(3,18-3-1=14)的临界值为6.68,而三个回归模型的F分别为85.57,40.12,26.50,均远远大于临界值。这表明所有解释变量作为一个整体与被解释变量之间有着显著的线性相关关系。也就是说,当所有解释变量共同变动时,被解释变量也随之发生显著变动,回归效果显著。
另外,从一元回归模型到三元回归模型,截距略有减少,这也表明中等值To、后进值Tr和优秀值Ta三者的整体影响在逐步扩大, To,Ta,Tr三者整体上与W的线性关系程度日益密切。
3.t检验是检验回归方程中各个解释变量与被解释变量之间的显著性,这是判定回归模型中各个解释变量对被解释变量是否影响显著或者是否存在多重共线性问题的一个指标。当显著性水平设为α=0.05时,t(2,18-2-1=15)的临界值为2.131,t(3,18-3-1=14)的临界值为2.145,我们发现,在一元回归模型W=-0.67To++23.91中,中等值To 与均差水平W之间的t 值达到9.251,远大于t的临界值,这表明在一元回归模型中,中等值To 与均差水平W之间存在显著的线性相关关系。但在多元回归模型中,To,Ta,Tr均未通过t检验,这是否说明中等值To、后进值Tr和优秀值Ta在多元回归模型中对均差水平W缺乏显著性影响?这是否意味着被解释变量与解释变量之间不存在显著的线性相关关系?
在一元线性回归中,t检验与F检验等价的,但在多元线性回归中,这个等价不成立。因为t检验是分别检验回归模型各个回归系数是否具有显著性,以便判别在模型中是否保留对被解释变量有显著影响的因素。如果某个回归系数的t检验通不过,可能是这个回归系数相对应的解释变量对被解释变量的影响不显著所致,这就需要剔除这个解释因素;也可能是解释变量之间有多重共线性问题所致,这就需要设法降低共线性问题的影响。
多重共线性问题是指各个解释变量本身之间有较强的线性关系(这也可理解为因素之间的互偿性),而且超过了解释变量对被解释变量的影响,从而导致回归模型遭到一定破坏,回归系数估计不够准确。在多元回归模型中,多重共线性问题难以避免,只要多重共线性问题不太严重就可以。
为了进一步检验中等值To、后进值Tr和优秀值Ta三者之间存在的多重共线性问题,分别建立中等值To、后进值Tr和优秀值Ta对均差水平W的一元回归方程:
W=-0.67 To++23.91
W=-0.72 Tr++20.18
W=-0.65 Ta++24.17
结果显示,中等值To、后进值Tr和优秀值Ta相应的t值分别为9.251,8.918,6.816,这不仅表明中等值To、后进值Tr和优秀值Ta三个解释变量对均差水平W存在显著的线性相关关系,而且表明在另外两个解释变量相对不变时,单个解释变量与均差水平W的线性相关显著性程度依次是中等值To、后进值Tr和优秀值Ta,这与判定系数和相关系数的结论完全一致。
几个发现:
1.当各个解释变量均通过t检验时,所有解释变量作为整体必然通过F检验;但所有解释变量作为整体通过F检验时,各个解释变量却不一定都能通过t检验,而且通常是因为多重共线性问题引起的。
2.t检验能用于检验回归方程中各个参数的显著性,而F检验则能用于检验整个回归关系的显著性。也就是说,F检验是对回归方程的整体检验,t检验是对回归方程系数的个别检验。或者似乎可以理解为t检验是F检验的特例。
几个困惑:
1.实现t检验与F检验、R检验的统一,还有什么路径?
2.在W=0.50To+0.15Ta+0.04Tr+22.19中,其回归系数不仅与R检验不一致,而且与三个一元回归模型的t检验结论相悖,需要设法再做调整。

加载中…