回归:R方究竟多大才算是合理的?
(2021-10-23 17:58:13)
标签:
回归 |
分类: 研究学习 |
SPSS的回归分析,一般最关键的是看两个值。
一个是Sig值(即p值),这决定了自变量与因变量之间形成的线性关系是否显著:如果p不显著,那R方的存在就是一个多余项。
另一个就是R方,在线性关系显著的前提下,R方的大小则反映着所构建的回归方程的拟合优度,R方的取值范围在0到1之间。
那,是不是R方越大、越接近1就越好呢?也不一定。
首先上结论:一般来说,自然科学领域中的回归方程拟合优度总体上是会高于社会科学领域的。
原因也不难理解。
在社会科学中,因为影响社会现象的因素太多了(可以想象成有几千个),而你在研究中只可能涉及其中的三五个变量,不可能有几十或上百个。所以,在只提取其中几个主要影响因素的情况下,它们能解释到30%因变量的变化,这个效果已经算是不错的了。
所以一般来说,社会科学中回归里的R方达到0.3左右,这个效果就已经足够拿得出手了。
在自然科学领域中,R方的情况一般就要好得多。因为自然科学研究中的数据往往来自实验——实验是一个相对精密的过程,由于实验是经过设计的,所以许多因素得到了控制,因此在你控制住其他变量的时候,你观测的那几个自变量对因变量的预测效果就会非常明显了。
举个简单的例子:体重的影响因素虽然很多,但身高一个变量就可以解释大部分变异。虽然只有一个自变量,但R方可能能高达80%以上。
在经济学或统计学的教科书中经常会举这类例子,它们的R方都是很高的。就是这些例子,给我们造成了一种“R方不高于0.9,模型的拟合效果就算是不好”的印象。但事实上,这种观点是片面的,模型拟合效果好不好,不是一个效应量能决定的,需要结合问题的具体背景。
继续想象上面那个例子:社会科学中,在几千个影响因素中,我们能找出三到五个因素来解释30%的变化真的已经很不容易了。
你可以换个角度考虑:其他70%的变化可能由剩余的成百上千个影响因素共同解释,假设还有1000个影响因素,那每个影响因素平均解释0.7/1000的变化,每个变量的影响力已经非常弱了,所以这时我们无法也没有必要列出这剩余的1000个影响因素,有这三五个关键的因素是完全足够的。
我也曾经见过一些社会科学研究,它回归的R方有0.9+。说实话,这已经有点不可信了,我甚至有理由怀疑研究过程或者不规范、或者有猫腻了。因为它高得有点离谱了,这种情况实在太少见了。
所以,R方绝不是越高越好,特别是在社会科学研究中。
当然,如果你通过一些方法达到了很高的R方值,而你又能自圆其说的话,那我也愿意为你竖个大拇指

综上:
——如果你是做社会科学研究的,R方达到0.3左右了,你就完全不必担心,大大方方地写进论文就好;如果达到0.8、0.9了,那建议你再重新审视一下你的整个研究过程和数据分析过程,检查它们是否都是规范的。
——如果你是做自然科学的,相比上面提到的社会科学研究的R方值,你应当稍高一些比较好。至于具体达到什么水平是最好……我也不好说,我不是自然科学领域的,不敢妄言,建议你去问问你业内懂行的朋友吧。
以上内容,想法源自https://bbs.pinggu.org/forum.php?mod=viewthread&tid=2143578,作者ID:linkim,在此感谢前辈。