敏捷数据分析工具箱:深入解析ADW+OAC
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章
数据仓库的概念、兴起及其构建方法论

1.1 数据仓库的概念与发展历程简述

1991年,William H. Inmon在其出版的书籍Building the Data Warehouse(中文版译为《数据仓库》,目前最新为第四版)中,首次提出了数据仓库的概念:

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

目前,这一定义已经为人们广泛接受,Inmon也因此被称为数据仓库之父。

从数据仓库的概念提出至今,已经过了30个年头。在此期间,整个IT行业发生了翻天覆地的变化。从互联网的兴起,到大数据的出现,再到云计算的兴盛,以及今日的AI与机器学习,计算机行业的技术浪潮前浪未止,后浪便又汹涌而来。

作为2006年开始接触Oracle数据库并由此进入该行业的笔者而言,有幸经历了数据仓库的低潮和再次兴起、大数据与云计算的崛起等关键阶段,也因此对数据仓库这一技术有了些粗浅的认识。因此,笔者在这里与诸位读者一道,从数据仓库的发展历程谈起,以史为鉴,可知未来。

数据仓库这一概念,其实是从数据库演化而来的。众所周知,当一家企业开始建设IT系统来支撑自己的日常运转之后,企业内部的IT系统、数据库就会逐渐多起来。当达到一定阶段时,企业的高层及相关IT管理人员,包括一线的运维及开发人员,就会逐渐意识到,公司内部的系统太多,各系统之间的交互、数据访问等就会变得烦琐。并且,在企业经历了一段信息化建设之后,企业内部的数据也积累起来了。

当然,现在我们已经知道,企业的数据可分为事务型数据和分析型数据。其中,事务型数据用于支撑和保障企业的日常交易、运行,以及管理;而分析型数据侧重于在运营数据的基础之上,经过一定的集成、加工和整理,来生成企业的周报、月报等常规报表,以及更高级的活动,如数据分析、数据挖掘等,进而为企业的发展提供决策参考。简而言之,事务型数据(或者说运营数据)是为当前服务的,分析数据则是为了更好地规划未来。关于这一点,有一个很能说明问题的小故事:一个月以前的报纸,只能按照收废品的价格来衡量其价值;当天的报纸,可以用其定价来衡量其价值。那么,明天的报纸呢?那价值可就高太多了。

因此,数据仓库就是企业的信息化建设到了一定程度,自然而然出现的一种技术和概念。国内的数据仓库技术开始受到广泛关注的时间大约是在2000年以后。2005年前后,众多国内企业开始尝试建立自己的数据仓库。当然,初始阶段,成功的案例不是太多。那时候人们已经意识到了数据是有价值的,但是如何发挥它们的价值,就是一件很难的事情了。因此,当时想建设数据仓库的企业不在少数,但建成的就很少了。并且在这些建成的数据仓库项目中,相当一部分也只不过是将公司的数据都放到了一起(当然,这也是数据湖(Data Lake)这一概念出现的缘由,关于数据湖的概念,可以参考《数据湖架构》,当然,作者也是Inmon),可以生成一些部门级或者是企业级的报表,至于其他的如数据挖掘等高级应用,成功的案例就少之又少了。

因此,虽然从那时起,无论在国内还是国外,数据仓库项目一直都有企业在进行建设,但是对于整体而言,数据仓库是处于一个相对低潮的阶段的,直到大数据和云计算的兴起。