基于Apache Kylin构建大数据分析平台
上QQ阅读APP看书,第一时间看更新

推荐序

Apache Kylin将传统的数据仓库及商务智能分析能力带入到了大数据时代,作为新兴的技术已经被广大用户所使用。作为创始作者,我非常欣喜能看到关于Apache Kylin相关书籍的出版,这无疑对中国用户更好地使用Kylin,解决实际的大数据分析架构及业务问题有很大帮助。

韩卿

Kyligence联合创始人兼CEO, Apache Kylin项目管理委员会主席(PMC Chair)

伴随着大数据发展的三条主线是大数据技术、大数据思维和大数据实践。

因为RDBMS很难处理单表10亿行数据,所以大数据技术应需而生。大数据技术从最初的解决海量数据的快速存储和读取,到今天的海量数据的OLAP,当中衍生出众多的技术产品,Apache Kylin就是其中的一个优秀产品,目标是解决大数据范畴中的OLAP。

第二条主线是大数据思维。数据处理的最近几十年都被RDBMS的思想所束缚,小表、多表、表的连接、过分注重冗余性的坏处,等等,这些都限制了海量数据上的处理与分析。大数据技术出来之后,随之而来的大数据思路,给我们带来了海量数据处理的新思维。这个新思维的核心就是突破表的概念,而采用面向对象的数据模型在数据层上实现。Apache Kylin的Cube模型就是在逐步体现大数据的思维。

最后一条主线是大数据实践。大数据实践分为数据梳理、数据建模、数据采集、数据管控、数据服务、数据可视化和数据分析。这是一环套一环的步骤,不能跳过。Apache Kylin作为数据分析环节的技术产品,一定要同数据管理的优秀产品相结合,才能充分发挥出分析的功效。

蒋守壮是业界知名的Apache Kylin专家。《基于Apache Kylin构建大数据分析平台》一书浅显易懂、实操性强,是目前Apache Kylin界不可多得的技术资料,值得细读和研究。

杨正洪

武汉市云升科技发展有限公司董事长

Apache Kylin是一个由国人主导开发并在大数据领域真正进入全球主流应用的开源项目。作为国人软件开发的骄傲之作,市面上却缺少一本系统性介绍该项目的书籍。

万达科技集团大数据中心蒋守壮同学在项目诞生之初就一直跟踪Kylin的进展,深入研究项目的技术原理,并将其运用在许多实际项目中。无论您是大数据技术爱好者,抑或您正在考虑引入Kylin这样杰出的大数据处理工具,该书都将是您很好的参考指南!

龚少成

万达网络科技集团大数据中心副总经理,《Spark高级数据分析》中文版译者

Apache Kylin是基于MOLAP的实时大数据引擎,与Hadoop生态系统结合更加紧密,先天的优势注定了其支持更大的数据规模、更好的扩展性,独有的中国血统较其他开源软件更具本地化优势,更符合中国国情。本书包含了守壮多年的实践经验,系统全面地介绍了Apache Kylin技术,值得推荐。

贾传青

数据架构师,IT脱口秀(清风那个吹)创始人

Apache Kylin是基于大数据技术的一类OLAP实现,其根据OLAP原理、利用MapReduce框架构建CUBE,并将预计算结果存储在HBase中,实现多维分析和查询的秒级响应。Apache Kylin虽属于MOLAP范畴,但还是有别于传统的MOLAP,它充分利用了Hadoop分布式计算的精髓,是分布式OLAP(DOLAP:Distributed OLAP)的一个具体实现,在TB、PB级数据集上体现出卓越的性能表现,自开源以来就备受各界关注。

作为一位技术达人,蒋守壮依托自身深厚的技术功底,结合实际工作对Kylin做了许多研究工作。从各种部署环境的搭建、实际工作案例开发测试到各类问题的分析及解决,作者深入分析了Kylin的源代码,也给Kylin社区反馈了很多缺陷,被Kylin社区确认并在新的版本中加以完善。《基于Apache Kylin构建大数据分析平台》这本书即是蒋守壮对自己研究工作的总结和升华,是当前第一本系统介绍Kylin的实用书籍。

项同德

平安科技(深圳)有限公司高级经理

目前在企业级市场上主流的BI产品有Oracle的BIEE、IBM的Cognos、SAP的BO等,这些产品主要是基于传统的关系型数据进行报表开发和数据分析,虽然可以通过提高服务器性能来提升数据处理的能力,但受限于其自身的架构,在处理大数据(TB级及以上)上就显得缓慢,而Kylin是一款专为大数据而生的开源产品。相对于传统大厂商主导的BI产品,Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,其最初由eBay公司开发并贡献至开源社区,它能在亚秒内查询巨大的Hive表,并且在不断地完善和进化。

Kylin作为Apache顶级项目,在社区备受推崇,但一直缺少一本实用、可操作的技术书籍让普通的开发人员将其部署实施,应用于企业的发展,产生经济价值。蒋守壮的这本书系统而全面地介绍了Kylin的架构、搭建及应用,能让有一定技术功底的人员,快速实施部署,对于目前苦于大数据处理的人员来讲,无疑是久旱逢甘霖。

蒋守壮一直专注于大数据的研究和应用,技术出众,尤其是擅长解决各类疑难问题。这本书融合了作者多年的技术积累和实战经验,相信对您,无论是学习还是实战都是大有益处。

万文兵

万达网络科技集团有限公司大数据资深项目经理