加载中…
个人资料
心如止水
心如止水
  • 博客等级:
  • 博客积分:0
  • 博客访问:54,679
  • 关注人气:31
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

数据仓库的基本概念

(2010-05-24 18:38:29)
标签:

数据仓库系统

数据集市

决策支持系统

分类: DataWareHouse

1.数据仓库概念始于上世纪80年代中期,首次出现是在被誉为“数据仓库之”WilliamH.Inmon的《建立数据仓库》一书中。随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。数据仓库并没有严格的数据理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。通常按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。

  数据仓库的重点与要求是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。数据仓库主要是应用于决策支持系统,其主要目的是“提取”信息并加以扩展,用来进行处理基于数据仓库的决策支持系统(DSS)的应用。

2.基于数据仓库的决策支持系统(DSS)由三个部件组成:数据仓库技术(Data warehousing),联机分析处理技术(OLAP,On—Line Analytical Pro—cessing),数据挖掘技术(Data Mining)。

  联机分析处理(OLAP,On—Analytical Pro—cessing)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业给特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求。数据仓库侧重于存储和管理面向决策主题的数据;而OLAP侧重于数据仓库的数据分析,并将其转换成辅助决策信息。OLA P的一个主要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。问此,利用OLAP技术与数据仓库的结合可以较好地解决传统决策支持系统既需要处理大量数据又需要进行大量数值计算的问题。
OLAP的多维数据分析主要通过对多维数据的维进行剖切、钻取和旋转来实现对数据库所提供的数据进行深入分析,为决策者提供决策支持。多维结构是决策支持的支柱,也是OLAP的核心。

  数据挖掘(Data Mining)是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。

  数据仓库概念的提出者、美国著名信息工程专家 William Inmon 博士在90年代初提出了数据仓库概念的一个表述。他认为:“一个数据仓库通常是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,它用于对管理决策过程的支持。”

  所谓主题,是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。

  所谓集成,是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。

  所谓随时间变化,是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

  而信息本身相对稳定,是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作。

  依据上面的定义,有人可能会把数据仓库简单地理解为仅仅是一个大型的数据存储机制,是一个静态的概念。实际上,数据仓库更像一个过程,这个过程涉及数据的收集、整理和加工,生成决策所需要的信息,并且最终把这些信息提供给需要这些信息的使用者,供他们做出改善业务经营的正确决策。数据仓库的重点与要求就是能够准确、安全、可靠地从业务系统中取出数据,经过加工转换成有规律信息之后,供管理人员进行分析使用。因此数据仓库是一个动态的概念,应该称为数据仓库工程(Data Warehousing)。

数据仓库不是现成软件或硬件产品

  对数据仓库最大的误解可能是把它当作一个现成的可以直接买来使用的产品。事实上,数据仓库和数据库不同,它不是现成的软件或者硬件产品。比较确切地说,数据仓库是一种解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程,用户可以通过分析这些信息从而作出策略性的决策。因此,在很多场合,我们也把数据仓库系统称为决策支持系统。由于这个原因,数据仓库的用户不是类似银行柜员的终端操作人员,而是针对各个业务部门的用户和有关决策人员。因此,数据仓库的用户比传统的OLTP(联机事务处理:On-line Transaction Processing)用户少得多。

3.DW相关

OLTPOLAP

  OLTP系统也称为生产系统,它是事件驱动、面向应用的,比如银行的储蓄系统就是一个典型的OLTP系统。

OLTP的基本特点是:
·对响应时间要求非常高;
·用户数量非常庞大,主要是操作人员;
·数据库的各种操作基于索引进行。

OLAP(联机分析处理:On-line Analytical Processing)是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。OLAP系统是跨部门、面向主题的,其基本特点是:
·基础数据来源于生产系统中的操作数据(Operational Data);
·响应时间合理;
·用户数量相对较小,其用户主要是业务决策与管理人员;
·数据库的各种操作不能完全基于索引进行。
OLAP工具是整个数据仓库解决方案中不可缺少的一部分,目前市场上有许多这类成熟的产品,如NCR的QueryMan、Andyne软件公司的GQL(Graphic Query Language)、Brio Technology公司的Brio Query等等。这些产品大都运行在Windows环境下,具有友好的用户界面,通过ODBC驱动程序和TCP/IP协议与数据库系统相连,是一种典型的Client/Server结构。

  这些OLAP工具的特点是用户不需要掌握很深的SQL知识就可使用。用户提出问题后,这些工具能自动加以分析,根据系统的数据库模型产生SQL语句,通过ODBC接口向服务器数据库提出交易请求,然后将主机返回的结果以用户指定的方式显示出来。它们一般在本地维护一个多维数据库,把结果保存在本地库中,因此可以离线工作。

数据仓库系统的查询特点

  数据仓库和生产系统不同,它保存的是历史数据,一般不作修改,因此用户针对数据仓库的交易主要是查询数据仓库的查询和生产系统的查询有很大的区别:

  针对生产系统的查询都很简单,一般不会使用表连接操作(Table Join),每次返回的数据量很小,这类问题的特点是"知道自已要找什么",例如根据银行帐号查余额。这类操作都是基于索引进行的,如帐号可以作为储蓄系统的索引。由于这些特点,数据库大小对系统性能影响不大。

  针对数据仓库系统的查询大都非常复杂,主要有两种:一种以报表为主,从数据库中产生各种形式的业务报表。这种查询是预先规划好的(Pre-defined Query);另一种则是随机的、动态的查询(Ad-Hoc Query),对查询的结果也是不能预料的。例如世界上最大的连锁超市集团Wal*Mart曾经发现在周未的时候啤酒与一次性尿布的销售量很大,有关人员通过对数据仓库中的信息进行分析,寻找这两种商品的共同点,结果发现很多父亲在购买啤酒时喜欢顺便捎些尿布,于是他们把这两种商品放在很近的位置,方便父亲们购买,结果这两种商品的销售量都增加了很多。

  数据仓库中的查询由于其复杂性,会经常使用多表的联接、累计、分类、排序等操作,这些大都要对整个表进行搜索。每次查询返回的数据量一般很大,对于Ad-Hoc查询而言,经常需要根据上次查询的结果进行进一步的搜索,这个过程常称为数据挖掘。

  根据这些特点,数据库大小对数据仓库系统的性能影响很大。当数据仓库投入使用后,各业务部门的要求会越来越多,使得数据仓库中数据量的增长速度很快,因此设计数据仓库时,系统的可扩展能力是必须考虑的重要因素之一。

  系统的并行处理能力是另一个要考虑的重要因素。因为查询的复杂性,每个查询将占用很多的系统资源,如果并行处理能力不强,当多个用户同时发出交易请求时,响应时间可能长得不可容忍。

数据仓库与数据集市
  数据集市(Data Mart)也是当前非常热门的一个术语,一种比较常见的误解是认为它与数据仓库的差别只是数据量的大小而已。事实上,数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;而数据集市是部门级的,一般只能为某个局部范围内的管理人员服务。有些供应商也称之为部门级数据仓库(Departmental Data Warehouse)。

  数据集市有两种,即独立的数据集市(Independent Data Mart)和从属的数据集市(Dependent Data Mart)。

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有