前言
前言,大数据的价值在于商业应用
从2006年雅虎等团队开始研发Hadoop技术至今已整整10年。在这10年中技术发展迅速,Hadoop上的生态系统逐渐扩大,各个行业的用户都在基于这一新的技术来开发各种应用,还有很多企业将原先基于传统IT系统的应用逐步向Hadoop上迁移。
根据Interquest Group作的2016年报告,排名第一的技术工种就是Data Scientist(数据科学家)。今天有大数据技术能力的同学们在找工作的时候是炙手可热的,而他们需要掌握的一项关键技能就是Hadoop。
我们相信,Hadoop会成为企业数据中心的核心,而范磊和孙元浩同学的星环科技,其核心产品也逐渐定位成企业核心的Data Hub(数据集散地)。Hadoop经过这10年的发展,在2016年开始进入一个战略转折点。这意味着新的技术开始逐渐取代和超越老的技术,并在各个行业迅速发展。在未来的若干年之内,取代过程还会不断加速。
我们认为,Hadoop技术能成功的最根本原因在于它是把传统的集中式运算有效地转化成分布式计算的一种有效手段。集中计算演变成分布式是一个必然趋势,当然并不是说一定只有Hadoop才是这个演进的唯一手段,不过它至少是可选的一个不错的手段。
本书中有很多说法和内容是由星环科技的CTO孙元浩同学独家赞助的。而在解释一些实际场景中相对棘手的问题时,为了简单起见,直接借用了星环科技之前的一些处理问题的方法和思路。
感谢我的好朋友金官丁同学(网上化名mysqlops)提供的帮助。感谢腾讯的邱跃鹏和赵建春同学,感谢迅雷的刘智聪同学,感谢金山的朱桦同学和杨亮同学,感谢百度的朱观胤同学。我们还要特别感谢蔡可可、胡一刀、张泽澄、唐继瑞、李晶、谭彬同学为本书做的大量资料收集和整理工作以及唐继瑞为本书设计的章徽。
讲述大数据和Hadoop相关概念的书已经有很多了,本书更多想做的不是新闻和概念的堆砌、示例代码的详解,或者是某一项技术的再一次陈述,而是从实际场景出发,为读者们讲述应用中的Hadoop应该是怎样的。
本书主要特点:
(1)全面实用地论述了从实际应用中提取出的数据挖掘和Hadoop相关概念和技术。
(2)用实际案例为用户介绍Hadoop,而不只是停留在理论层面。
(3)详解Hadoop相关领域最新的技术和商业应用大数据应用的动态变化。
按照刘智聪同学的说法,现在的Hadoop系统已经是基建了,几乎所有非实时的系统都可以在Hadoop上实现。而当Hadoop生态系统上出现Spark和Storm之后,就算是实时系统,在很多时候也是可以轻松实现的。
作为在IT和互联网行业沉浮了20年的老兵,我们觉得写这样一本书来讲实战应用是非常有必要的,因为我们一直在思考:
(1)大数据服务应该是怎样的?
(2)大数据究竟能够为我们做什么?
(3)大数据在做实际应用的时候会碰到什么样的问题?
(4)大数据应用的这些问题究竟应该是怎样解决的?
(5)怎样以最好的方式把最新的大数据技术应用到商业系统上去?
(6)大数据应用做到极致的时候应该是怎样的?
Gartner认为,到2020年,信息将被用于重新创造、数字化或消除80%的业务流程和产品。而我们认为,技术终究是为商业来服务的,一项技术的生命力究竟如何,取决于它在真实社会和经济场景中所发挥出的价值。
随着近年来大数据技术的高速演变,我们预计未来3年数据库以及数据仓库技术会发生巨大的变化。正如Gartner所预计的,我们的大部分企业客户会把数据仓库从以前的传统数据仓库转移到逻辑数据仓库中,Hadoop在其中会扮演非常重要的角色,很多企业应用也已经开始把Hadoop作为数据仓库的重要组成部分。
数据平台市场每年创造的价值巨大,但大部分都被Oracle、IBM、Teradata等国外巨头瓜分,星环科技算是唯一的可以与这些国外巨头一争高下的国内大数据厂家,我们希望能够有更多的国内同行投入到基于Hadoop的数据仓库平台的研发之中,打造出大数据时代的杰出数据库和数据仓库产品,摆脱国外巨头们对这个行业的垄断,帮助中国科技在企业服务领域实现质的突破。
本书不是为了讲述教科书式的概念,而是为了告诉大家Hadoop究竟能够为我们的企业做些什么。我们会从一些真实靠谱的案例出发,讲述在各种场景下如何应用Hadoop。
我们尽量把这本书写得浅显易懂,所以并不需要读者有太多大数据的知识或者拥有编程语言的经验。当然,如果读者有过Java或者类似编程语言的经验,对于深入理解本书的一些内容是有帮助的。
因为我们的能力所限,而且本书所覆盖的案例来自各个不同的领域,在陈述或者描述中可能出现一些错误或者遗漏,欢迎读者指出,或者也可以把你想读到的某些场景下的Hadoop应用反馈给我们。
本书中所有的案例均是实际案例,如果读者觉得有虚构成分,纯属偶然。
编者