数据科学与数据挖掘的区别

标签:
数据挖掘科学 |
分类: 数据库概念 |
1
1.1 基本概念
1.2
主要任务
-
关联分析 Association Analysis
关联分析是从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。该过程通过发现顾客放人其购物篮中的不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。
-
聚类分析 Clustering
聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
-
分类 Classification
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
-
预测 Predication
预测是利用历史数据找出变化规律,建立模型并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。
-
时序模式 Time-series Pattern
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
-
偏差分析 deviation
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。偏差分析是探测数据现状、历史记录或标准之间的显著变化和偏离,偏差包括很大一类潜在的有趣知识。如观测结果与期望的偏离、分类中的反常实例、模式的例外等。
1.3 基本技术
-
统计学
统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里斯多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”、“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学的范畴。统计学虽然是一门“古老的”学科,但它依然是最基本的数据挖掘技术,特别是多元统计分析,如判别分析、主成分分析、因子分析、相关分析、多元回归分析等。
-
聚类分析
聚类分析主要是根据事物的特征对其进行聚类或分类,即所谓物以类聚,以期从中发现规律和典型模式。这类技术是数据挖掘的最重要的技术之一。除传统的基于多元统计分析的聚类方法外,近些年来模糊聚类和神经网络聚类方法也有了长足的发展。
-
模式识别
模式识别是人类的一项基本智能,在日常生活中,人们经常在进行“模式识别”。模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。
-
决策树分类
决策树分类是根据不同的重要特征,以树型结构表示分类或决策集合,从而产生规则和发现规律。决策树分类算法是数据挖掘研究中的一个以样本数据集为基础的归纳学习方法,它着眼于从一组无次序、无规则的样本数据集中推理出决策树表示形式的分类规则,提取描述样本。
-
人工神经网络和遗传基因算法
人工神经网络是一个迅速发展的前沿研究领域,对计算机科学人工智能、认知科学以及信息技术等产生了重要而深远的影响,而它在数据挖掘中也扮演着非常重要的角色。人工神经网络可通过示例学习,形成描述复杂非线性系统的非线性函数,这实际上是得到了客观规律的定量描述,有了这个基础,预测的难题就会迎刃而解。目前在数据挖掘中,最常使用的两种神经网络是BP网络和RBF网络,不过由于人工神经网络还是一个新兴学科,一些重要的理论问题尚未解决。
-
规则归纳
规则归纳是机器学习的一个领域,是从观察集中将形式规则提取出来。提取的规则可能代表了全面的科学数据模型,或者只是代表了数据的本地模式。规则归纳相对来讲是数据挖掘特有的技术。它指的是在大型数据库或数据仓库中搜索和挖掘以往不知道的规则和规律,这大致包括以下几种形式:IF … THEN …
-
可视化技术
可视化技术是数据挖掘不可忽视的辅助技术。数据挖掘通常会涉及较复杂的数学方法和信息技术,为了方便用户理解和使用这类技术,必须借助图形、图象、动画等手段形象地指导操作、引导挖掘和表达结果等,否则很难推广普及数据挖掘技术。
1.4 实施步骤
-
理解业务:从商业的角度理解项目目标和需求,将其转换成一种数据挖掘的问题定义,设计出达到目标的一个初步计划。
-
理解数据:收集初步的数据,进行各种熟悉数据的活动。包括数据描述,数据探索和数据质量验证等。
-
准备数据:将最初的原始数据构造成最终适合建模工具处理的数据集。包括表、记录和属性的选择,数据转换和数据清理等。
-
数据建模:选择和应用各种建模技术,并对其参数进行优化。
-
模型评估:对模型进行较为彻底的评价,并检查构建模型的每个步骤,确认其是否真正实现了预定的商业目的。
-
模型部署:创建完模型并不意味着项目的结束,即使模型的目的是为了增进对数据的了解,所获得的知识也要用一种用户可以使用的方式来组织和表示。通常要将活动模型应用到决策制订的过程中去。该阶段可以简单到只生成一份报告,也可以复杂到在企业内实施一个可重复的数据挖掘过程。控制得到普遍承认。
2
进阶篇 - 数据科学
2.1
传统商业智能面临的挑战
2.2
商业分析技术发展趋势
-
第一阶段Descriptive Analytics:对历史数据进行统计分析,描述过去发生了什么。
-
第二阶段Diagnostic Analytics:通过对历史数据进行数据挖掘,发现过去发生的原因。传统BI工具生成的报表内容都是这一以及第二阶段分析技术的产物。
-
第二阶段Predictive Analytics:在第一阶段描述性分析结果的基础上,结合规则、数据科学、机器学习以及实时外界数据,能够对未来进行实时预测,实时动态分析一个事件发生的概率。例如交通流量预测、客户流失预测、用户画像。
-
第三阶段Prescriptive Analytics:在第二阶段预测性分析分析的基础上,结合收益分析、风险分析给出最优决策,这一阶段的分析需要基于实时数据流做出动态预测决策,根据外界数据变化持续调整自动化决策以达到最优效益。例如RTB,推荐系统,客户挽留。
2.3 数据科学 Data
Science
2.4
如何用好数据科学?
2.4.1
模型评价是关键
2.4.2 特征提取是要点
2.4.3 模型选择最耗神
3 观点 -
数据科学平台工具很重要
延伸阅读东软大数据:SaCa RealRec 数据科学平台软件
SaCa RealRec
数据科学平台
产品概述
产品组成
应用领域
转自:https://mp.weixin.qq.com/s?__biz=MzI2NjQ0MjYwMQ==&mid=2247483707&idx=1&sn=65e61573cd3b86c1f3320e466706c870
后一篇:MYSQL查看执行计划