BI(商业智能)史话(2) : Bill Inmon VS. Ralph Kimball

标签:
bi数据仓库数据集市inmonkimballit |
分类: BI商业智能 |
Bill Inmon 和Ralph Kimball,当我提起这2个牛人的名字,我内心对他们都是肃然起敬的。过去近十年以来,我逐步养成了在生活和工作中用数据来观察和了解真相的习惯,是由于我经历了从数据库应用的程序开发者,数据库厂商的售后支持,到数据库的售前,BI项目实施者,BI产品销售等岗位,其中数据仓库架构在BI设计和实施中已经变得不可缺少。而Inmon和Kimball两位大师这个近二十年中在数据仓库架构领域的大辩论,促进BI在全球企业应用的蓬勃发展。如果说,Hans Peter Luhn和Howard Dresner,一个为了文本挖掘,一个为了企业管理中的信息民主,而定义了BI的话。那么Bill Inmon 和Ralph Kimball,这2位大师则通过不同理念,设计技术和实施策略使BI从定义落地为真实。
我曾经说过,中国宋儒的理学文化禁锢了中国这一千年的创新思维,那些宋儒羡慕佛家之博大精深,偷偷从禅宗中盗取心法,试图一下子上承孔孟,将汉以后之儒全部打倒。这些宋儒,见地并非不深刻,但是一大毛病是心胸狭窄,他们学佛是不成的,学儒则又歪曲太多,偏偏大多又非常狂妄。然而,总体来说,这样的怪胎思维在我们的技术人员基因特别明显。记得2008年,我在TTNN论坛上质疑这个自称BIDW牛人号称创造了有别于Inmon和Kimball两位大师不同的第三方混合架构,此BIDW牛人提出该混合架构标准的结构层次分别有ODS-EDW-CDW-DM四大组件沟通,其中ODS-EDW结构采用了Inmon派的策略,而CDW-DM采用了 kimball派的策略,提出EDW是近3范式模型,CDW属于多维数据仓库,有统一维度建模策略。看到了没有,此BIDW牛人明显心胸狭窄、狂妄自在、心术不正的宋儒风格,既羡慕Bill Inmon 和Ralph Kimball 2位大师在数据仓库领域的博大精深,于是乎想偷偷盗取心法,试图通过质疑2位大师的架构为自己在BIDW业界扬名立万。
下面我们来看看这2位大师对DW领域的巨大贡献, 先来谈谈Bill Inmon, Inmon被称为数据仓库之父,是他在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。其后在于kimball的论战中提出了CIF(GIF)体系,目前被定义为DW2.0,DW2.0将文本数据和非结构化数据融入其中, Inmon目前在出版和发表了40 多本书籍和600篇多文章。
Ralph Kimball定义了BI中的“数据集市DM”的概念,发展BI应用中的分析工具,利用三维层次,创造性提出星形架构和雪花数据结构的概念,同时他定义了一些DW实施的模型,为很多BI实施者在实施DWBI项目中提供了帮助,虽然Kimball的著作不超过数量Inmon,但Kimball的书是这十多年以来DW书籍中最畅销的书。
Inmon和Kimball为了实现BI系统的目标,提出了两个不同的实施理念上,其中nmon认为,建立一个企业范围内实现全面BI功能的数据仓库(我们称为EDW);而Kimball认为,企业应该首先创建几个较小的数据集市(我们称为DM),为实现部门级的分析和报告。从方法论而言,inmon这种先建设EDW,然后分别来支持各部门数据集市(就是数据集市DM作为数据仓库DW的子集)需求的方法,我们称之为“自上而下”的方法论;而Kimball恰恰相反,他认为先建设的几个数据集市(DM),来满足企业各部门的分析需求,然后通过“虚拟”的一致性(就是我们所说的数据总线),通过整合成一个大的数据集市(这里这个大的数据集市就是EDW),这种方法我们称之为 “自下而上”做法。
为了一个共同的目标,提出了不同的实现理念和方法,争论就开始了,恰恰是这种争论让我们生活在这个时代的BI研究者和实施者们,茅塞顿开,醍醐灌顶,从不同角度均能找到自己在BI实践和理解上共鸣点。
首先的争论是在于数据结构上, Inmon认为,用第三范式(3NF)关系模型建立数据结构,Kimball认为,用多维度模型(星型模式和雪花)建立数据结构。Inmon认为,一旦数据结构是关系模型,它会达到企业范围内数据的一致性,这样更容易地生成多维模型的数据集市;而Kimball认为,从用户理解角度出发,多维模型的数据结构更容易理解,分析,汇总,并展开数据探索,而对企业范围内数据结构,出现的由于多维模型数据导致的企业级数据不一致性,可以采用数据总线来解决,对于数据集市,Kimball把它分为符合DW设计的原子级数据集市和汇总级数据集市,并均采用了多维模型来建设数据集市。值得肯定的是,在数据结构模型差异的争论中,Inmon和Kimball 2位大师都赞同,有必要分离聚合级数据的详细数据。
他们的第二个争论,在于数据的粒度上, Inmon认为,在数据仓库中的内容要尽可能体现最细的粒度级别,必须包括所有可能的范围内企业的历史数据。他的理由很简单,给最终用户最最详细数据,因此未来的数据需求是不可预知的。而Kimball对于数据的粒度把握完全取决于数据集市的实际需求。
尽管2位大师,他们的方法有不同方式,形成了各自的DW哲学,但他们却相互借鉴,Inmon的那个单一数据仓库(EDW)建设,他强调迭代的方法,来阻止“数据大爆炸”的出现;而尽管Kimball的理念是快速创建在几个月的时间成功的数据集市,他强调通过信息总线上集成的一致性。
于是乎,我们简单总结2位大师的实现思路和方法, Bill Inmon主张不同业务系统的数据集中到面向主题、集成的、不易失的和时间变化的结构中,用于以后的分析;且数据可以通过下钻到最细层,或者上钻到汇总层;数据集市应该是数据仓库的子集;每个数据集市是针对独立部门特殊设计的。因此,数据的流向是,业务系统—ETL(部分整合和清洗)—ODS(视业务需求)—DW(3NF设计)—DM—OLAP。而Kimball说“数据仓库仅仅是构成它的数据集市的联合”。他认为“可以通过一系列维数相同的数据集市递增地构建数据仓库”,通过使用“一致的”维,能够共同看到不同数据集市中的信息,这表示它们拥有公共定义的元素。
因此Kimbal的方法将提供集成的数据来解决企业迫切的业务问题是要快于Inmon的方法。Inmon的方法是只有在构建几个单主题区域之后,集中式的数据仓库才创建数据集市,而Kimbal认为该方法缺乏灵活性,并且在现在的商业环境中所花时间太长。实际上,方法的选择取决于项目的主要商业驱动。如果该组织正忍受糟糕的数据管理和不一致的数据,那么Inmon的方法就更好一些;如果该组织迫切需要给用户提供信息,那么Kimbal的方法将满足该需求。数据仓库将使数据集市与遗留系统和业务系统隔离,并且支持更快地创建将来的数据集市。遗憾的是,目前个别企业经常滥用Kimball的方法,并将之作为脱离集中控制而构建他们自己数据集市的借口。当试图跨集市访问数据以获取联合视图时,这将造成严重问题,而集中式信息体系结构将避免这一点。
当我们现在回顾商业智能BI,面对互联网和移动互联网时代SNS、博客、微博等兴起,基本上可以达成一个共识,BI(商业智能)=Inmon的企业数据仓库+ Kimball的数据集市+数据挖掘+非结构化数据(含文本挖掘)。
现在随着互联网时代发展,由于Kimball快速实施BI的哲学与更快的回报,很多中小企业初步实现数据集市,而不是一个企业范围的数据仓库。然而,这些企业由于低估了数据集市之间关系的复杂性,导致他们开始重新采用Inmon的集中式数据仓库来整合数据的一致性。这样才出现了最近Inmon在接受TechTarget网站专访说到:现在Kimball方式是构建企业数据仓库,作为一个集成的数据仓库,其实1990年我就已经开始这种方法的研究了。他们整整落后了我们20年。我现在还在继续加深理解这种架构,而现在最新的进展就是添加了文本非结构化数据。我们现在重点关注如何将文本数据添加到一个数据仓库中去。我预测未来的10年里,Kimball也会意识到这样的趋势,但他们永远会慢我们一步。Kimball的方法应该说是更加封闭,我们则希望更加开放。
这说明,随着互联网和移动互联网的快速发展,BI的数据仓库架构依然仍面临巨大挑战,即便在2005年,也就是Inmon提出数据仓库理论14年后,据统计,数据仓库项目超过50%是失败的。原因正如2005年Gartner公司首席分析师特德弗里德曼写道,“许多企业没有认识到他们有一个数据质量的问题。他们只注重识别,提取和加载数据仓库,但不花时间来评估数据质量。” 企业的数据质量问题,这个企业开始关注的永恒话题,已经成为这个时期数据仓库项目努力的方向。
历史无法假设,如果历史能够穿越回去,我想Inmon或Kimball如果预见到未来是组件或SOA架构的软件时代,他们可能在数据仓库(或数据集市)的概念上将更强调架构。但不管如何,Inmon和Kimball两位大师已经让我们这些BI从业者用不同眼界来观察企业数据,同时他们都认可,方便准确及时地访问企业数据,是成功的关键因素。此外,他们都同意创建(往往Kimball的数据集市歪曲)独立的孤岛,只能解决一些短期的特别的需求,很难以支持长期的企业数据发展。
Inmon作为学术类大师有一定预见性,也提出了企业数据不可忽视的问题。但我以为,Kimball则是一个实践大师,他提出一个切实可行的数据仓库实施办法。就像Inmon的著作通常倾向于概括一个概念,很少注意的技术细节;而Kimball的著作,具有丰富的技术实现例子。
附(2位大师简历):
http://s12/middle/930e3c4cgb3f3d8cf78eb&690:
Bill
Inmon,被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。他是“企业信息工厂(CIF)”的合作创始人与“政府信息工厂(GIF)”的创始人。
Bill Inmon的思想与见识在所有重量级的计算机协会、许多产业会议、技术研讨会上,都博得了无比的敬重。他写过650多篇文章,大多发布在世界最知名的IT刊物里,DMReview杂志每期都有Inmon先生的专栏文章,他写了46本书籍,最著名的要数“Building the Data Warehouse”(《建立数据仓库》),这本数据仓库精典读物倍受读者喜爱,一而再在而三地升级出版发行,到目前已经是第三版本,发行量达50多万册。也正是这本《建立数据仓库》为Inmon赢得“数据仓库之父”的殊荣,国内机械工业出版社也分别将第2第3版本引进翻译,Inmon先生的著作也一直是亚马逊电子商务网站的畅销书,都深受广大数据仓库技术读者喜欢。同时Inmon又是最知名的数据仓库咨询顾问专家,他为许多名列《财富》1000排行榜的公司提供过数据仓库设计和数据库管理方面的咨询服务。恩门这些年还创立过公司办过网上教育,1995创建了现在的Ambeo公司。
Ralph Kimball博士自1982年以来一直是数据仓库行业最主要的开拓者,并且是目前最知名的演讲人、咨询师与培训员之一。他是《智能企业(Intelligent Enterprise)》杂志“数据仓库设计者(Data Warehouse Designer)”专栏的撰稿人,同时也是最畅销的《数据仓库生命周期工具箱(The Data Warehouse Lifecycle Toolkit)》与《数据仓库工具箱(The Data Warehouse Toolkit)》两部著作的作者。同时他被列入数据库名人堂(Database Hall of Fame)。
自1972年获得斯坦福大学电子工程(人机系统方向)博士学位后,Ralph就加入施乐帕洛阿尔托研究中心(PARC)。在PARC,Ralph参加了Xerox Star工作站的开发。这是第一个完整地集成了桌面和应用程序以及图形界面的操作系统。 之后Kimball出任Metaphor Computer Systems公司的应用程序部门副主席,并在1982年开发出了Capsule Facility。Metaphor公司是一家决策支持软件和服务的提供商。Capsule通过在逻辑工作流中连接图标的方式提供了一项基于图形编程的技术。该技术使非编程人员可以以一种可视化的方式进行编程。Capsule被Metaphor用于构建报表和分析方面的应用。1986年,Kimball成立了红砖系统(Red Brick System),并出任CEO,直到1992年公司被Informix收购。Informix如今是IBM旗下的公司。Red Brick以最优化数据仓库的关系型数据库而闻名。他们出名的原因是使用索引来获得比当时其他供应商的数据库高出将近10倍的效率。 1992年成立的Ralph Kimball Associates提供数据仓库的咨询和教育。