加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

如何报告回归分析的结果(2)

(2010-04-01 14:25:24)
标签:

博士

校园

学习

分类: 博士生活
学院长江学者讲座教授祝建华,本文转引自他对网上学院提问的回答。

转自http://zjz06.spaces.live.com/?_c11_BlogPart_pagedir=Next&_c11_BlogPart_handle=cns!3F49BBFB6C5A1D86!828&_c11_BlogPart_BlogPart=blogview&_c=BlogPart

现在用一个实例来演示如何报告回归分析结果。为了便于大家重复这个实例,我使用的数据是SPSS自带的world95.sav。这是联合国教科文组织(或世界银行之类机构)发表的1995年全球109个国家或地区的“国情”数据,其中含有人口、地理、经济、社会、文化等26个指标。我以其中的birth_rt(每1000人的出生率)为因变量,gpd_car(人均国内生成总值)、urban(城市化,即人口中城市人口比例)、literacy(识字率、即人口中能阅读者比例)和calories(每天卡路里摄入量)等四项为自变量。按表一的原则,我将该回归分析的结果报告在表二中:

http://s1/middle/4a839b9at8326fa9591e0&690

限于篇幅和本文目的,我不对表二的各参数作解读。但想对表中的有关格式做些补充说明。

  1. 如何给表格取标题:一般只须描述表内的内容即可。那么,本表的内容是什么呢?是出生率对四个自变量作回归的结果。该四个自变量在表内均有详细介绍,故不必在表格标题中重复。
  2. 如何描述变量(包括因变量和自变量):我先给出每个变量的理论概念名(如必要,可以用英文)、然后在括号中注明其对应的SPSS变量名(这并非必须、而是为了便于大家对照手头的SPSS数据)和操作定义(很有必要、强烈推荐,从中读者可以看到变量是否做过转换、从而得知有关关系的形式、即线性还是非线性)。为何要如何详细地描述变量?APA手册对如何制作各种定量分析结果的表格或图形有一条“独立信息”的基本原则,即每个图表要包含基本信息、以致读者不需参照正文而能够独立读懂该图表。因此,简单地将SPSS输出结果黏贴过来,虽是最常见的做法、但是很坏的习惯。
  3. 是否需要报告常数(Constant):一定要。常数对解读回归模型的实际社会意义,有十分重要的作用。如本表中的常数 = 65.444,意即全球(74个国家或地区)的平均出生率(即在控制了四项自变量的影响之后)为千分之65.4,等等。有一点须注意的是在SPSS的输出结果中,常数是放在第一行的。应该搬到其它自变量之后。
  4. 报告哪个回归系数(即标准化还是非标准化系数):这是最常见问题。以前曾有过“预测派”和“解释派”之争,前者主张只要报告B就够了、而后者则认为只要报告Beta就行了。其实两者反映的是不同的信息,B不受因变量变异程度(variability)的影响、所以同一自变量在各回归模型中的B是可以比较的(很多理论假设需要检验的就是这一问题);而Beta受因变量变异程度的影响而无法跨越本模型、但是却因其标准化而可以与同一模型中的其它Beta相比(也有很多理论假设希望解决的是这个问题)。因此,APA手册建议同时报告两者(英文第五版pp. 160-161)。
  5. 小数点之后取几位:APA手册认为,一般的定量分析结果只须保留两位小数足够。对回归结果来说,Beta、R2值、显著水平等标准化参数(即其取值均在0与1之间)取两位小数最合适。B及其相关指标(标准误差、置信区间)是非标准化的(即取值可以是任意大或任意小),所以要酌情而定,根据变量的量表(scale,即取值范围)大小而多取、少取甚至不取小数点。一般而言,当自变量的量表大于因变量时,其B会取小值、所以需要多取一至数位小数;相反,自变量的量表小于因变量时,其B会取大值、所以可以少取甚至不取小数。在本例中,GDP和卡路里的量表都远大于出生率,所以它们的B值看上去很小(但不一定意味着影响小)。因此,我就没有机械地只取两位小数。大家如果仔细看一下表二,就会发现我的“酌情”规则是“最后一位0之后取两位”,如-0.00042、0.033、-0.034、-0.0041,这与APA手册的“取两位小数”原则的基本精神是一致的。我们日常见到的问题,主要是保留过多的小数点,往往是是直接黏贴SPSS的结果(其内定是6位小数)而不加编辑而造成。
  6. 表格内是否有横竖分割线:按APA的规定,除了表格顶部、底部和列标题底部有三条横线外,其余一概不用。很多人简单照搬Word表格的内定线条,不做任何修饰。审稿专家一看就知是“菜鸟”或懒汉所为。
  7. p是什么东东?就是SPSS输出中的Sig。p是所有统计学教科书中通用的符号,Sig则只是SPSS的专用。前者更广为认知。

如何报告多个回归模型?以上是如何报告一个回归模型的结果。实际上,一项研究(即一篇论文)中往往涉及数个回归模型。有些作者喜欢为每个回归做一个类似表二的回归结果表。这种方法有两个问题:一是占用过多的空间、二是不利于对各模型进行比较。一般说来,应该而且可以将平行(即全部自变量相同)或交集(即部分自变量相同)的回归模型结果放在同一个表内。我们还是用world95数据,再对死亡率和AIDS发病率分别做一个回归,然后将三个模型的结果放在表三:

http://s16/middle/4a839b9at83270ad5f03f&690

http://s9/middle/4a839b9at83270b2d7aa8&690

表三与表二的主要区别在于表二是横向的(每列为同一类参数)、而表三是纵向(每列为同一模型)。表二中横排的六类参数改成竖立的四行(其中的p值被星号代替、置信区间的上下限合在一行),以便读者做横向比较(这是所有定量分析结果的表格制作的一个基本原则)。 如果是英文报告,去掉中文后,表三会变得简洁明了很多。

如何报告变量特征和自变量关系

如前所述,因变量和自变量的特征以及自变量之间的相关关系,是需要酌情考虑的辅助信息。鉴于本文已经很长了,我们简单说一下。变量特征主要指

  1. 变量的操作定义(问卷原文)
  2. 取值范围(如0-100、0-1、0或1、1-5、1-7等等;好雪问的,如果数据做过对数、平方、开方、倒数等转换,就应该而且最适合在这里报告)
  3. 描述性统计值(均值、标准差、偏度Skewness、峰度Kurtosis等)

一种值得推荐的方法,是将所有变量的上述特征列在一个表中(表四)、放到论文的附录中去、供有兴趣的读者查阅(类似的技术细节一般都可以放到附录中去)。 

http://s15/middle/4a839b9at83270ea257fe&690

最后我们谈谈好雪的另一问题:如何报告自变量共线性的信息。这其实就是自变量相关问题,初步的检验是看各自变量之间的相关矩阵(可以在上图中添加Descriptive Statistics获得),如果其中有相关系数超过0.50,就有必要作正式的共线性检验(即在上图中选取Collinearity Diagnostics),其会针对每个自变量产生两个统计值:ToleranceVIF (参见详细解释)。前者是该自变量对所有其它自变量做回归的R2之余数(= 1 - R2,如该自变量与其它自变量中的某些或全部高度相关,Tolerance就会很少、甚至趋于0),而VIF则是Tolerance的倒数。两者只须看其中之一就可以了。一般认为,Tolerance < 0.2或VIF > 5,该变量就有较严重的共线性问题了。

如何报告这类问题?通常和值得推荐的做法是将自变量的相关矩阵表放在附录中,而在论文正文中的方法部分(或结果部分),用文字简单描述一下这些相关系数的最大和最小值。如上所述,如果有系数>0.5,则还有接着用文字分别描述一下这些变量的tolerance值。另外,还可以将Tolerance加到表四(作为新的一列)或自变量相关矩阵表(作为最底部新的一行)中去,但没有必要专门替Tolerance和VIF做一个单独的表格。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有