前言
似乎所有人嘴边都挂着“大数据”这个词。围绕大数据这个主题开展的讨论几乎已经完全压倒了传统数据仓库的风头。某些大数据狂热者甚至大胆预测,在不久的将来,所有企业数据都将由一个基于Apache Hadoop的系统托管,企业数据仓库(EDW)终将消亡。无论如何,传统数据仓库架构仍在不断发展演化,这一点不容置疑。一年来,我一直在撰写相关的文章和博客,但它真的会消亡吗?我认为几率很小。实际上,尽管所有人都在讨论某种技术或者架构可能会胜过另一种技术或架构,但IBM有着不同的观点。在IBM,他们更倾向于从“Hadoop与数据仓库密切结合”这个角度来探讨问题,两者可以说是天作之合。
试想一下,对于采用传统数据仓库的企业而言,大数据带来的机会就是能够利用过去无法通过传统仓库架构利用的数据,但传统数据仓库为什么不能承担起这个责任?原因是多方面的。首先,数据仓库的传统架构方式采用业务系统中的结构化数据,用它们来分析有关业务的方方面面,对这些数据进行清理、建模、分布、治理和维护,以便执行历史分析。无论是从结构方面考虑,还是从数据摄取速率方面考虑,我们在数据仓库中存储的数据都是可预测的。相比之下,大数据是不可预测的。大数据的结构多种多样,对于EDW来说数量过于庞大。尤其要考虑的是,我们更习惯于浏览大量数据来查找真正需要的信息。不久之后可能又会决定丢弃这些数据,在某些情况下,这些数据的保存期限可能会更短。如果我们决定保留所有这些数据,则需要使用比EDW更经济的解决方案来存储非结构化数据,以便将来使用这些数据进行历史分析,这也是将Hadoop与数据仓库结合使用的另一个论据。
本书通过简单而完整的示例,论述了在Hadoop平台上设计和实现数据仓库的方法。将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。
本书共13章,主要内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用Hive进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。
本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训学校相关专业的师生教学参考。
最后,感谢清华大学出版社图格事业部的编辑们,他们的辛勤工作使得本书尽早与读者见面。
编者
2017年6月