加载中…
个人资料
Python
Python
  • 博客等级:
  • 博客积分:0
  • 博客访问:2,137
  • 关注人气:150
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

数据分析方法:非正态数据转化成正态数据

(2017-04-11 14:00:27)
标签:

数据分析

数据分析师

数据分析师培训

数据挖掘

数据分析方法:非正态数据转化成正态数据

大部分的数据分析都希望原始数据是满足正态分布的定距变量。然而,显示是残酷的,在各种研究中,常常需要面对非正态分布的定距数据。为了解决数据的正态性问题,数学家们总结了很多转化方法,但是没有万能神药,都需要对症下药(根据数据的实际分布情况,选择合适的转化方法)。

下面不会介绍具体的转化方法,只是帮助大家理顺正态转化的思路,明白正态转化的逻辑,不至于将正态转化看做神秘领域,高不可攀。

正态转化四步骤

第一步:计算数据的分布状况及两个参数:偏度(Skewness)和峰度(Kurtosis)。

第二步:根据变量的分布形状和参数,决定是否做转换。

1、对称判断

看Skewness(偏差度)的取值。如果偏度为0,则是完全对称(但罕见);如果偏度为正值,则说明该变量的分布为正偏态;如果偏度为负值,则说明该变量的分布为负偏态。然而,偏度值还不能完全判断偏态的分布是否与正态分布有显著差别,所以还需要做显著性检验。如果检验结果显著,我们可能(注意是“可能”)可以通过转换来达到或接近对称。

http://www.cda.cn/uploadfile/image/20170410/20170410202911_83299.png
2、峰度检验

Kurtosis(峰度)是判断曲线陡峭和平缓的指标。如果峰度为0,说明该变量分布合适(但罕见);如果峰度为正值,说明该变量的分布陡峭;反之,如果峰度为负值,说明变量的分布平缓。峰度也需要通过显著检验来判断与正态分布是否有显著差别。我们可能可以通过转换来达到或接近正态分布。

http://www.cda.cn/uploadfile/image/20170410/20170410202853_91912.png

第三步:如果需要做正态转换,根据变量的分布形状,确定相应的转换公式。下面简单介绍3种常见的正态转换方法

1、如果是中度偏态

如果偏度为其标准误差的2-3倍,可以考虑取根号值来转换。

2、如果高度偏态

如果偏度为其标准误差的3倍以上,则可以取对数,其中又可分为自然对数和以10为基数的对数。

3、对于双峰或多峰数据

秩分的正态得分的转化方法,SPSS软件中常用,请关注SPSS视频教程。


第四步:再次检验转换后变量的分布形状。如果没有解决问题,或者甚至恶化,需要再从第二或第三步重新做起,然后再回到第一步的检验。直至达到比较令人满意的结果。


数据正态化注意点

1、偏度和峰度的标准误差与样本量直接有关。具体说来,偏度的标准误差约等于6除以n后的开方,而峰度的标准误差约等于24除以n后的开方,n为样本量。由此可见,样本量越大,标准误差越小。 

2、数据的正态转化方法不是通用的,要根据不同的数据分布情况,选择合适的或创造合适的转化公式,转化后必须验证转化效果,最终达到转化的目的。

3、不是所有的非正态分布的数据都能够通过正态转化而转化为正态分布数据。非正态分布的数据也可以使用非参数方法进行分析数据分析师培训

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有