数据预处理-总
(2016-03-01 18:34:56)
标签:
数据预处理 |
分类: 数据分析 |
一、数据预处理
(1)数据集压缩处理,主要策略:1数据聚集2.维规约3.数据压缩4.数据规约
(2)空缺值处理,主要策略:1.忽略元组2.人工填写空缺值3.使用固定值4.使用属性平均值5.使用最有可能值
(3)噪声数据处理,主要策略:1.数据平滑技术:需要做分箱处理2.箱的深度:表示不同的箱里有相同个数的数据。3.箱的宽度:每个箱值的取值区间是个常数。
(4)聚类技术:1.每个簇中的数据用其中心值代替2.识别检测并忽略孤立点3.计算机和人工检查相结合技术:先通过聚类等方法找出孤立点。这些孤立点可能包含有用的信息。人工再审查这些孤立点
(5)回归技术:通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。
二、数据集成:
将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。实体识别
三、数据变换:平滑
四、数据归约:1、维归约删除不相关的属性(维)来减少数据量。属性子集选择找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布2、数据压缩有损,无损
五、离散化和概念分层
离散化技术用来减少给定连续属性的个数,这个过程通常是递归的,而且大量时间花在排序上。对于给定的数值属性,概念分层定义了该属性的一个离散化的值。数值数据离散化和概念分层生成方法有:分箱
分类数据的概念分层生成方法有:由用户和专家在模式级显式的说明属性的部分序