正态分布的SPSS和Eviews检验

标签:
杂谈 |
分类: 实用主义 |
在数据建模时,通常要检验数据是否服从正态分布,最简单的办法是绘制直方图,肉眼观察。观测标准简单地说就是:两头小,中间大,且左右对称。一般情况下,数据极少完全服从正态分布。
那么当需要进行检验时,可以根据哪些参数来判断呢?
SPSS中,可以用Analyze-Descriptive Statistics-Explore-Plots-Normality plots with test来检验。Kolmogorov-Smirnov检验时根据z值大小判断,比较适合大样本量数据。该检验的零假设是数据服从正态分布,如果置信度为95%的话,那么P值大于5%就表示数据服从正态分布,不能拒绝零假设。当样本量较小时,SPSS可以根据Shapiro-Wilk检验来判断数据是否服从正态分布。所谓小样本数据,有人认为是3-2000。(见http://blog.sina.com.cn/s/blog_4e015ce50100o1a5.html)该检验还计算了数据的峰度(kurtosis)和偏度(skewness)值,标准正态分布的峰度和偏度值分别为3(!!!)和0。一般而言,如果计算值与其接近,就认为数据是基本服从正态分布的。
下面的数据是245条性别记录,其中男性记录为1,女性记录为2。无论是峰度还是偏度的计算值,抑或是KS或SW检验(sig即是P值),都表明这些数据并未服从正态分布。
http://s8/mw690/5e1adac5gda253abbea47&690
http://s10/mw690/5e1adac5gda253b3f3e59&690
但是这里要注意一点,许多软件中峰度接近3认为数据峰度服从正态分布,但SPSS中是接近零为标准。而偏度值认为在-0.8至0.8为佳。
Eviews中,可以在数据描述中绘制直方图(view-descriptive
statistics
http://s11/mw690/5e1adac5gda250c7f747a&690
当数据不服从正态分布时,为了建模,有时还需要进行数据变换,例如开方、取对数或者box-cox变换等。
主要参考文献:
Jason W. Osborne(2010). Improving your data transformations: applying the Box-Cox transformation. Pracitcal Assessment, Research & Evaluation.