如何报告回归分析的结果(1)

标签:
博士校园学习 |
分类: 博士生活 |
回归分析的结果可以分为以下几部分:1)回归模型;2)回归系数;3)因变量和自变量的特征;4)自变量之间的关系。其中,1和2是必须详细报告的基本信息;而3和4则可以根据具体情况而详略各异的辅助信息。以下分别讨论之。
如何描述回归模型和回归系数
先简单讲一下一元回归。一元回归,即只涉及一个自变量(如X)。这种模型在社会科学中既很少见(一个常见的例外是时间序列分析中以时间为自变量分析因变量的长期趋势),也很容易报告。一般不需用表格,只须写一句话(如“自变量X的b = ?,std = ?, Beta = ?”)或给一个公式(如“Y = ? + ?b, where std = ?, Beta = ?”)就足够了。如果一项研究中有多个一元回归分析,那么就应该也可以用一个表格来报告(参加?),以便于读者对各模型之间作比较。
接下来专门讲多元回归。由于其涉及诸多参数,有的必须报告、有的酌情而定、有完全不必,为了便于说明,我按SPSS回归分析的输出结果(其它统计软件大同小异),做了一个如何报告回归模型和回归系数的一览表(表一)。如表所示,我将各种参数分成“必须报告”、“建议报告”、“一般不必”和“完全不必”四类。我的分类标准来自于公认的假设检验所涉及的四个方面,即变量之间关系的显著性、强度、方向和形式(详见“解释变量关系时必须考虑的四个问题”一文)。也就是说,每个参数的取舍,应该而且可以由其是否提供了不重复的显著性(即Sig)、强度(B或Beta的值)、方向(B或Beta的符号)和形式(自变量的转换)信息而定的。
表一、如何报告回归模型和回归系数之一览表
|
注释 | SPSS结果出处 | 是否报告 | 如何报告 |
回归模型部分 | ||||
R | 因变量与所有自变量的复合相关系数 | Model Summary表 | 完全不必 |
|
R Square | R的平方值 | Model Summary表 | 一般不必 |
|
Adjusted R Square | R平方的修正值 | Model Summary表 | 必须报告 | 见表二 |
Std Error of the Estimate | 因变量预测值的标准误差(注1) | Model Summary表 | 建议报告 | 见表二 |
Sum of Squares | 总离差 | ANOVA表 | 完全不必 |
|
df | 自由度 | ANOVA表 | 完全不必 |
|
Mean Square | 平均离差 | ANOVA表 | 完全不必 |
|
F | 模型F值 | ANOVA表 | 一般不必 |
|
Sig. | F值的显著水平 | ANOVA表 | 必须报告 | 见表二 |
N | 模型的个案数(注2) | ANOVA表 | 必须报告 | 见表二 |
回归系数部分 | ||||
Unstandardized Coefficients (B) | 非标准化系数 | Coefficients表 | 必须报告 | 见表二 |
Unstandardized Coefficients (Std. Error) | B的标准误差 | Coefficients表 | 必须报告 | 见表二 |
Standardized Coefficients (Beta) | 标准化系数 | Coefficients表 | 必须报告 | 见表二 |
t | = B / Std. Error | Coefficients表 |
|
|
Sig. | t值的显著水平 | Coefficients表 | 必须报告 | 见表二 |
95% Confidence Interval for B (Lower Bound) | B的置信区间(下限) | Coefficients表(注3) | 建议报告 | 见表二 |
95% Confidence Interval for B (Upper Bound) | B的置信区间(上限) | Coefficients表(注3) | 建议报告 | 见表二 |
注1:因变量预测值的标准误差描述了该模型的精确度(precision),如表二中的因变量是当前年薪,其预测误差为?,即如果用该模型(包括起薪、工龄和性别三个自变量)去预测条件相同的企业中的员工年薪,则可以知道?。这种信息无法从模型的其它参数(如R平方或其修正值、显著水平、各自变量的B或Beta)中得知。
注2:如果因变量和所有自变量都没有缺省值,那么模型的个案数就等于样本数。但变量常有缺省值,这时模型的个案数就会小于样本数、有时两者相差很大(当然是个严重问题),所以一定要报告前者。SPSS并不直接显示该信息,但很容易计算,等于 ANOVA表中的Total df + 1就是了。http://byfiles.storage.msn.com/y1pFyeopQlUNU_EYPgMLieVA526pAEIsx2pxCOiHVzZ0sQhvJPhDFVXA6IJWBDGrY1658OczH6zASs?PARTNER=WRITER
注3:B的置信区间,是用来检验B的显著水平的另一工具(如果上、下限之间包含了0,说明B在95%的水平上不显著),以弥补t检验及其Sig值的不足。这是一个经典又有复杂的问题,叫做Null
Hypothesis Significance Test (NHST),本文不做详谈。有兴趣的读者可以参见有关网页(R.
C. Fraley;