加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

如何报告回归分析的结果(1)

(2010-04-01 14:20:16)
标签:

博士

校园

学习

分类: 博士生活
感谢中国人民大学新闻学院长江学者讲座教授祝建华,本文转引自他对网上学院提问的回答。

转自http://zjz06.spaces.live.com/?_c11_BlogPart_pagedir=Next&_c11_BlogPart_handle=cns!3F49BBFB6C5A1D86!828&_c11_BlogPart_BlogPart=blogview&_c=BlogPart

回归分析的结果可以分为以下几部分:1)回归模型;2)回归系数;3)因变量和自变量的特征;4)自变量之间的关系。其中,1和2是必须详细报告的基本信息;而3和4则可以根据具体情况而详略各异的辅助信息。以下分别讨论之。

如何描述回归模型和回归系数

先简单讲一下一元回归。一元回归,即只涉及一个自变量(如X)。这种模型在社会科学中既很少见(一个常见的例外是时间序列分析中以时间为自变量分析因变量的长期趋势),也很容易报告。一般不需用表格,只须写一句话(如“自变量X的b = ?,std = ?, Beta = ?”)或给一个公式(如“Y = ? + ?b, where std = ?, Beta = ?”)就足够了。如果一项研究中有多个一元回归分析,那么就应该也可以用一个表格来报告(参加?),以便于读者对各模型之间作比较。

接下来专门讲多元回归。由于其涉及诸多参数,有的必须报告、有的酌情而定、有完全不必,为了便于说明,我按SPSS回归分析的输出结果(其它统计软件大同小异),做了一个如何报告回归模型和回归系数的一览表(表一)。如表所示,我将各种参数分成“必须报告”、“建议报告”、“一般不必”和“完全不必”四类。我的分类标准来自于公认的假设检验所涉及的四个方面,即变量之间关系的显著性强度方向形式(详见“解释变量关系时必须考虑的四个问题”一文)。也就是说,每个参数的取舍,应该而且可以由其是否提供了不重复的显著性(即Sig)、强度(B或Beta的值)、方向(B或Beta的符号)和形式(自变量的转换)信息而定的。

表一、如何报告回归模型和回归系数之一览表

  注释 SPSS结果出处 是否报告 如何报告
回归模型部分
R 因变量与所有自变量的复合相关系数 Model Summary表 完全不必  
R Square R的平方值 Model Summary表 一般不必  
Adjusted R Square R平方的修正值 Model Summary表 必须报告 见表二
Std Error of the Estimate 因变量预测值的标准误差(注1) Model Summary表 建议报告 见表二
Sum of Squares 总离差 ANOVA表 完全不必  
df 自由度 ANOVA表 完全不必  
Mean Square 平均离差 ANOVA表 完全不必  
F 模型F值 ANOVA表 一般不必  
Sig. F值的显著水平 ANOVA表 必须报告 见表二
N 模型的个案数(注2) ANOVA表 必须报告 见表二
回归系数部分
Unstandardized Coefficients (B) 非标准化系数 Coefficients表 必须报告 见表二
Unstandardized Coefficients (Std. Error) B的标准误差 Coefficients表 必须报告 见表二
Standardized Coefficients (Beta) 标准化系数 Coefficients表 必须报告 见表二
t = B / Std. Error Coefficients表    
Sig. t值的显著水平 Coefficients表 必须报告 见表二
95% Confidence Interval for B (Lower Bound) B的置信区间(下限) Coefficients表(注3) 建议报告 见表二
95% Confidence Interval for B (Upper Bound) B的置信区间(上限) Coefficients表(注3) 建议报告 见表二

注1:因变量预测值的标准误差描述了该模型的精确度(precision),如表二中的因变量是当前年薪,其预测误差为?,即如果用该模型(包括起薪、工龄和性别三个自变量)去预测条件相同的企业中的员工年薪,则可以知道?。这种信息无法从模型的其它参数(如R平方或其修正值、显著水平、各自变量的B或Beta)中得知。

注2:如果因变量和所有自变量都没有缺省值,那么模型的个案数就等于样本数。但变量常有缺省值,这时模型的个案数就会小于样本数、有时两者相差很大(当然是个严重问题),所以一定要报告前者。SPSS并不直接显示该信息,但很容易计算,等于 ANOVA表中的Total df + 1就是了。http://byfiles.storage.msn.com/y1pFyeopQlUNU_EYPgMLieVA526pAEIsx2pxCOiHVzZ0sQhvJPhDFVXA6IJWBDGrY1658OczH6zASs?PARTNER=WRITER

注3:B的置信区间,是用来检验B的显著水平的另一工具(如果上、下限之间包含了0,说明B在95%的水平上不显著),以弥补t检验及其Sig值的不足。这是一个经典又有复杂的问题,叫做Null Hypothesis Significance Test (NHST),本文不做详谈。有兴趣的读者可以参见有关网页(R. C. FraleyD. J. Denis)。SPSS不直接给出B的置信区间,需要在“Statistics”一项中要求添加。如右图所示,SPSS回归分析的输出结果中,内定只显示“Estimates" 和"Model fit"两项(即会产生表一中除了置信区间之外的其它各项参数)。建议加选“Confidence intervals”。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有