作者序
星环科技的大数据之路
第一次了解Hadoop技术是2010年在Intel的时候,孙元浩告诉我这种技术的存在。当时就觉得这个技术非常有前途,而元浩卓越的技术判断力和前瞻性预测促成了星环科技的诞生。至今我们已经在Hadoop这个技术平台上工作了近6年。
所以当看到老同学谭先生接连出版了几本前瞻性的书籍(很牛,读者有兴趣可以去看下),包括区块链和大数据的,我就说要不我们联合出本Hadoop的书吧。虽然Hadoop的书早就有,但很多是技术编程方面的,我们可以从应用和行业的角度去谈这个技术,而星环在过去3年中积累的几百个用例也可以提供些“干货”,让读者能从另一个角度去了解Hadoop,或者说更深入地去了解市场本身对这种技术的需求。
谭同学在微软工作十几年,一直处于软件技术的前沿,而回国后交游广阔,时刻走在行业尖端人才之列,信息丰富、知识广阔,相信这本书中深入浅出的技术介绍、囊括各个包括互联网巨头在内的产品和案例介绍,能给我们的读者一个全面的Hadoop体验。
Hadoop作为一个基于分布式文件系统的框架,经过几年的发展,已经占据大数据底层技术的主舞台,或者可以称为事实标准。Hadoop将会成为所有企业的数据池,而数据就是未来的石油,Hadoop和其上的相关技术也在高速迭代中,包括Spark、Stream、Graph Computing, Data Warehousing已经或者会成为未来几年客户最需要的技术。我们也从一开始的创业公司成长为Gartner唯一认可的一家中国的发行商。
从一开始的运营商的详单应用开始,到后来的银行类的用户画像、风险控制、数据仓库、公关安全类的视频卡口系统,一路过来,我们都是坚持以客户的应用为导向。而每成功整合一个应用,也相应带来业务和市场的拓展。所以实战才是检验技术的唯一标准,用例的多少决定了技术的生命力。互联网业务可以在一夜之间爆炸性增长,但在政府和企业领域,业务慎重,环境复杂,如何将Hadoop技术安全高效地落地需要足够的时间,也需要国内厂商和开发商的共同合作,互相促进,使Hadoop技术真正为大数据产业添砖加瓦。我们在2015年成立了Hadoop技术应用推广联盟,也就是寄希望于和产业伙伴合作来解决应用问题。
限于篇幅,本书的案例只是我们过去几年所做项目的一小部分,市场上新的应用和模式也在不断地涌现,如果您是Hadoop的初学者,可以从本书中了解到基本的知识,知道Hadoop是什么,可以干什么。如果您是Hadoop用户,相信您一定深有体会,也希望这些介绍和案例能给您带来些启发。
Hadoop市场正在朝高速成长期迈进,相信我们很有可能在未来的市场中和我们的读者有这样或者那样的相遇,希望这本书能成为一个契机,一起来开拓新的大数据应用。
范磊