如何建立数据挖掘过程模型
(2009-07-14 08:45:03)
标签:
数据挖掘模型数据分析dm数据质量数据挖掘模型biit |
分类: 产品经理宝典 |
中心的重要参考。
1.与数据挖掘的过程模型CRISP-DM中的要求相比较,目前,我们在数据中心建设过程中还存在一些问题,主要表现在以下几个方面
以需求分析代替了商业理解
在CRISP-DM过程模型中,“商业理解”的重点是根据商业目标的要求找出存在的商业问题,并把商业问题转化为数据分析问题,这一
过程主要回答了“为什么要做?”的问题。而我们目前所做的“需求分析”往往是从业务问题出发并转化成了数据分析问题,这一过程
只回答了“怎么做?”的问题。这就使得一些数据分析往往没有什么实际作用或者是作用不大,这主要就是因为业务问题解决的商业
目标并不清晰。
2. 数据理解工作还不成系统
“数据理解”应该是一个独立的过程,其在整个数据分析应用项目实施过程中非常重要。而我们在做数据中心建设项目的可行性研究
时,只是很粗略地对源数据进行了一些了解,比如了解了源数据是来源于业务系统的数据库还是手工编制的Excel文件,数据大致包
含了什么信息等,却并没有对源数据进行细致的分析。此外,对数据质量问题的分析在可行性研究阶段根本尚未建立。因此,数据
中心建设项目中分析主题的数学模型虽然建立了,但却缺少足够的数据支持,有时甚至是在项目实施后的阶段才去了解源数据的情
况,并仓促将源数据导入数据中心,也并未建立源数据准确、及时提供的保障机制,这就造成了数据分析应用中,数据质量较差、
可信度很低的情况。
3. 数据准备不充分
在CRISP-DM过程模型中,“数据准备”也是一个独立的过程,且需要与建立模型的过程互动,通过多次的数据准备,使数据能够被所
建立的模型使用。而目前,企业在数据中心的建设中,业务人员和数据中心建设人员并不熟悉业务系统数据库中源数据的情况,也
就无法对所需要的数据做准确的描述,而熟悉源数据的人员又不熟悉数据中心建设的需求,因此数据准备阶段的工作量很大,协调
成本也很高。
4. 模型评估机制未建立
目前,对模型的评估主要体现在检查功能的实现情况,比如检查所需要的报表、图表、数据是否按要求建立。由于之前并没有很好
地落实商业理解阶段确定商业目标的工作,以及根据商业目标提出商业问题的工作,因此对模型的评估不能真正体会其为商业目标
服务的作用,只能停留在技术和功能的层面上。

加载中…