加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

数据预处理-空缺值的处理方法

(2016-03-01 18:29:34)
标签:

空缺值处理

分类: 数据分析
在许多的研究中发现,在对数据进行处理的过程中会发现有许多数据缺失的情况并且数据缺失在统计调查研究中也是非常常见的一种现象。产生这种现象的原因有很多种,每种缺失都会给统计分析带来不同的影响, 如何有效处理这些缺失数据成为了近年来大家关注的焦点之一。所以在科学研究中,为了提高数据的可信度科学度, 很多科学家都提出了自己的观点,来保证调查研究的顺利进行。所以我们必须要掌握一些处理空缺值得方法,来平衡我们的数据.
1.数据缺失的概念
数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。
二、数据缺失产生的原因
在研究过程中,数据缺失是不可避免的,造成这种现象的原因是多方面的,主要有以下几种:
1. 在存储数据的过程中,由于机器的损坏造成数据存储失败。
2. 实验人员在采集数据过程中,由于主观因素,人为地认为数据不重要或无用,而私自丢弃数据。
3.实验过程中平行实验的失败或者失误。
在一个统实验过程中, 要想得到一个完全有效的数据是很难达到的。 具体说来有以下原因:
1.实验是一个偶然因素很大的过程,很多情况都可以造成数据缺失.
2.实验人员对数据处理不当,将不合目标的数据直接删除;
3.数据的有效性没有得到重视,并没有在规定条件下采集数据。这些都是数据缺失产生的原因, 也是在工作过程中不得不引起重视的几个方面。
三、数据缺失的类型
完全随机缺失(Missing Completely at Random,MCAR):数据的缺失与不完全变量以及完全变量都是无关的;随机缺失(Missing at Random,MAR):数据的缺失不是完全随机的,数据的缺失只依赖于完全变量;完全非随机缺失(Missing Not At Random,MNAR):数据的缺失依赖于不完全变量自身。
四、数据缺失的处理办法
数据缺失在统计过程中是一个很重要的问题, 全世界都很关注,他的处理方法更是一个新兴的领域,综合各个国家的研究结果,大致有以下几种方法。
(一)删除法(Deletion)
这种方法非常简单,当被调查对象出现缺失的变量值, 并且这些缺失的变量值占总体数据的总量很小的情况下, 这种方法非常有效。 解决方法就是将存在缺失的变量值删除, 形成一个完整的调查表。 但是这种方法有它的不足之处,在删除缺失数据的过程中,减少了原始的数据,导致了信息的损耗,而且丢失了很多包含在被删除数据中的信息。 特别是当被研究的数据本身数量很少的时候, 删除少量数据就足以影响整体结果的客观性以及正确性。 所以,当缺失数据占总体数据比例很大时,这种
方法将会导致错误结论。
(二)填补法(Imputation)
当有数据缺失的记录在整个数据中只占一个很小比例时,可以直接删除缺失记录,对余下的完全数据进行处理。 但是在实际数据中,往往缺失数据占有相当的比重,这样做不仅会产生偏差,甚至会得出有误导性的结论,同时丢失大量信息,造成浪费。因此我们使用一种新的方法来进行处理。目前,填补法是处理数据缺失时普遍使用的一种技术,就是说给各个缺失数据找一个填充值,用这样的方法得到“完整数据”,然后用标准正常的完整数据的统计方法进行数据分析和推断。
1. 人工填写法(Filling Manually)。根据专业知识对缺失数据进行填补, 这是一种非常精确的方法。 但是他的缺点是费时又费力,当缺失的数值很多时,使用这种方法是基本不可能的。
2. 平均值填充法(Mean/Mode Imputation)。 删除法用以解决少量缺失值, 但是当缺失值大量出现时我们就需要使用一种新的方法, 即平均值填充法。 在处理数据时可以把变量分为数值型和非数值型。 如果是非数值型的缺失数据,运用统计学中众数的原理,用此变量在其他对象中取值频数最多的值来填充缺失值; 如果是数值型的缺失值, 则取此变量在其他所有对象的取值均值来补齐缺失值。 这种方法的优点是简便、快速,缺点是要建立在完全随机缺失(MCAR)的假设之上。
3. 热卡填充法(Hot Deck Imputation,或就 近 补 齐 )。
对于一个包含空值的变量, 本方法是在完整数据中找到一个与空值最相似的变量, 然后用这个相似的值来进行填充。 与均值替换法相比, 本方法简单易懂还可以保持数据本身的类型,利用本方法填充数据后,其变量值与填充前很接近。 但是这种方法也存在不足之处, 就是其主观因素较多,还比较耗时。
4. 使用任何可能的值填充(Assigning All Possiblevalues of the Attribute)。 这种方法是用缺失值所有可能的数值来填充, 能够起到一个补齐效果。 而这种方法的缺点是,当要研究的数据量很大或者缺失的数值较多时,他的计算量很大,需要测试的方案很多。针对其缺点有另外的一种方法,用一样的方法来填补缺失数,不同的是从结果相同的对象中选择所有可能情况的数值, 而不是根据所有情况的对象进行尝试, 这样能够在一定程度上缓解原方法的不足。
5. 多重填补法(Multiple Imputation,MI)。多重填补法是由Rubin等人根据贝叶斯估计原理于1978年建立起来的。 多重填补的原理是首先为缺失值产生一系列用来填充的数值,把这个系列中的每一个值都用来填充,产生相对应的一系列的完整的数据集合。 再将这些经过填充过的数据集合使用完整数据的方法进行研究。 最后把各个填充过的数据集合结果进行综合考量得出结论, 这个结论考虑到了数据填补过程中产生的各种不确定性。 这种方法的缺点也是不能不重视的:第一,计算很复杂;第二,是要求数据集满足贝叶斯假设,这个在现实中很难实现;第三,是多重填补法只适用于统计分析,不适合数据挖掘的需要。
(三)不处理
既然每种方法都有其不足之处, 那么就直接在包含空值的数据上进行数据挖掘。 这样既节省了时间又减轻了负担。 但是这种方法也不是完美的,也有其弱点,现实工作中,大家对数据是没有前期知识的,而采用此种方法要求使用者对部分数据先进行假设, 但是在没有任何前期知识的情况下,很容易假设出错误的结论,而且即使知道数据中的一些参数, 要估计出正确的数值也需要很长的时间,所以说也不是非常实用的。综合以上三种方法,可以知道,每种方法都适用于不同的条件, 而每种方法都有其不足之处。 在实际的工作中, 我们要根据实际情况正确选择解决方法。 当数据样本很大, 而缺失数据所占比例很小的情况下我们可以使用“删除法”;当数据缺失值形式是MCAR,并且样本容量并不大的情况下,可采用“填补法”;当以上两种方法都不实用的情况下我们可以考虑使用“不处理”的方法。 针对不同的问题我们不能一概而论,关键是要分清实质,寻找到在当前条件下最适宜的方法, 使不完全样本的已有信息得到最佳利用。Rubin D.Inference and missing data〔J〕.Biometrika,
1976,(3):581-592.

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有