数据挖掘的六大步骤
标签:
模型数据数据挖掘标准偏差步骤 |
数据挖掘(Data
Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。
此过程包括以下六个基本步骤进行定义:
1.
2.
3.
4.
5.
6.
http://www.itongji.cn/uploads/allimg/120929/225U32233-0.gif
1、定义问题
http://www.itongji.cn/uploads/allimg/120929/225U3J53-1.gif
该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。
·
·
·
·
·
·
若要回答这些问题,可能必须进行数据可用性研究,必须调查业务用户对可用数据的需求。
此外,还需要考虑如何将模型结果纳入用于度量业务进度的关键绩效指标
2、准备数据
http://www.itongji.cn/uploads/allimg/120929/225U32W1-2.gif
数据可以分散在公司的各个部门并以不同的格式存储,或者可能包含错误项或缺少项之类的不一致性。
数据清除不仅仅是删除错误数据或插入缺失值,还包括查找数据中的隐含相关性、标识最准确的数据源并确定哪些列最适合用于分析。
3、浏览数据
http://www.itongji.cn/uploads/allimg/120929/225U35b2-3.gif
浏览技术包括计算最小值和最大值,计算平均偏差和标准偏差,以及查看数据的分布。
4、生成模型
http://www.itongji.cn/uploads/allimg/120929/225U32b3-4.gif
通过创建挖掘结构定义要使用的数据列。
5、浏览和验证模型
http://www.itongji.cn/uploads/allimg/120929/225U3Db-5.gif
在将模型部署到生产环境之前,您需要测试模型的性能。
6、部署和更新模型
http://www.itongji.cn/uploads/allimg/120929/225U31504-6.gif
上海天元项目数据分析师事务所有限公司
联系电话:13917778657
网址:www.shtianyuan.com

加载中…