回归分析:总偏差平方和=回归平方和 + 残差平方和
(2013-12-25 14:58:58)分类: 数据分析 |
因变量y的取值是不同的,y取值的这种波动成为变差。变差的产生来自于两个方面:一个是变量x的取值不同造成的;二是除x以外的其他因素的影响(随机误差)。对于实际的观测值来说,变差的大小可以用实际观测值y与其均值y-之差(y
- y-)来表示。
残差平方和:为了明确解释变量和随机误差各产生的效应是多少,统计学上把数据点与它在回归直线上相应位置的差异称残差,把每个残差的平方后加起来称为残差平方和,它表示随机误差的效应。
回归平方和
总偏差平方和=回归平方和 + 残差平方和。
sst: total sum of squares
ssr: sum of squares of regression
sse: sum of squares of error
sst = sum[(yi - y-)^2]
ssr = sum[(yi^ -
y-)^2]
sse = sum[(yi - yi^)^2]
SST= SSR + SSE
R^2=SSR/SST=1-SSE/SST
残差平方和与总平方和的比值越小,判定系数 R^2 的值就越大
R^2判定系数就是拟合优度判定系数,它体现了回归模型中自变量的变异在因变量的变异中所占的比例。
如R^2=0.99999表示在因变量y的变异中有99.999%是由于变量x引起。
当R^2=1时表示,所有观测点都落在拟合的直线或曲线上;当R^2=0时,表示自变量与因变量不存在直线或曲线关系