CRISP-DM——数据挖掘项目标准流程

标签:
数据挖掘crisp-dm |
分类: 数据分析 |
一、前言
每次提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞工程实施的我而言,很是头疼。其实作为数据挖掘的而言,算法只是其实现手段、是工具和实现手段而已,我们不是在创造算法(国外职业搞研究的除外),我们是在使用算法而已,换句话说我们是算法的工程化实践者。数据挖掘非今日之物,大数据挖掘也不是一个孤立的概念,其实质还是采用传统的数据挖掘的方法,只是其实现工具发生了变化而已,本质的东西还在。简说一下,发布近20年前的CRISP-DM数据挖掘标准规范模型,以享其用。
CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准". 此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data mining and knowledge discovery中 )。
二、框架
CRISP-DM数据挖掘方法论用层次过程模型描述,包括四个抽象(从一般到具体)层次构成的任务集合:阶段(phase)、一般任务(generic task)、具体任务(specialized task)和过程实例(process instance)。每个阶段由若干一般任务组成,每个一般任务又实施若干具体任务,每个具体任务由若干过程实例来完成。
CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的、但顺序并非完全不变的阶段(如下图示)。
三、详述
3.1 业务理解(Business Understanding)
最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。
一般任务:确定商业目标、评析环境、确定数据挖掘目标、制定项目计划。
3.2 数据理解(Data Understanding)
数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。
一般任务:收集原始数据、描述数据、探索数据、检验数据质量。
3.3 数据准备(Data Preparation)
数据准备阶段包括从未处理的数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。
一般任务:选择数据、清洗数据、构造数据、整合数据、格式化数据。
3.4 建模(Modeling)
在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。
一般任务:选择建模技术、生成测试计划、构建模型、评估模型(参数设置等技术角度)。
3.5 评估(Evaluation)
到这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。
一般任务:评价结果、重审过程、确定下一步。
3.6 部署(Deployment)
通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担部署的工作。
一般任务:规划部署、规划监控与维护、产生最终报告、回顾项目。
四、总结
从以上流程和规范我们可以看到,算法实现过程,其实只占了数据挖掘的一部分,真正要想实现数据挖掘,并达到数据挖掘的目标,我们需要做的事情还有很多。