加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

数据预处理-总

(2016-03-01 18:34:56)
标签:

数据预处理

分类: 数据分析

一、数据预处理

(1)数据集压缩处理,主要策略:1数据聚集2.维规约3.数据压缩4.数据规约

(2)空缺值处理,主要策略:1.忽略元组2.人工填写空缺值3.使用固定值4.使用属性平均值5.使用最有可能值

(3)噪声数据处理,主要策略:1.数据平滑技术:需要做分箱处理2.箱的深度:表示不同的箱里有相同个数的数据。3.箱的宽度:每个箱值的取值区间是个常数。

(4)聚类技术:1.每个簇中的数据用其中心值代替2.识别检测并忽略孤立点3.计算机和人工检查相结合技术:先通过聚类等方法找出孤立点。这些孤立点可能包含有用的信息。人工再审查这些孤立点

(5)回归技术:通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。

二、数据集成:

将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。实体识别 实体和模式的匹配冗余:某个属性可以由别的属性推出。相关分析重复 同一数据存储多次数据值冲突的检测和处理

三、数据变换:平滑 聚集 数据概化 规范化  最小 最大规范化  小数定标规范化  属性构造:由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解

四、数据归约:1、维归约删除不相关的属性(维)来减少数据量。属性子集选择找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布2、数据压缩有损,无损 小波变换 将数据向量D转换成为数值上不同的小波系数的向量D’.D’进行剪裁,保留小波系数最强的部分主成分分析3、数值归约 回归和对数线形模型 线形回归 对数线形模型 直方图聚类 多维索引树 : 对于给定的数据集合,索引树动态的划分多维空间。

五、离散化和概念分层

离散化技术用来减少给定连续属性的个数,这个过程通常是递归的,而且大量时间花在排序上。对于给定的数值属性,概念分层定义了该属性的一个离散化的值。数值数据离散化和概念分层生成方法有:分箱 直方图分析

分类数据的概念分层生成方法有:由用户和专家在模式级显式的说明属性的部分序 通过显式的数据分组说明分层结构的一部分 说明属性集,但不说明他们的偏序 只说明部分的属性集

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有