Hadoop + Spark生态系统操作与实战指南
上QQ阅读APP看书,第一时间看更新

推荐序

大数据是继石油之后,新兴的一种国家战略资源。大数据研究、开发和应用已经成为全球学术界、产业界的焦点。Hadoop、Spark等开源项目是目前大数据领域应用最广泛的技术和平台。熟练掌握Hadoop、Spark等是从事大数据研发和应用等从业人员必备的基本技能。

《Hadoop+Spark生态系统操作与实战指南》正是在这样的技术背景下应运而生,能极好地满足广大大数据从业者的需求。本书以原理介绍为基础,以实战训练为目标,具体、深入地阐述了Hadoop及Spark的原生态中每一个组件的基本原理和应用方法;选择Apache和CDH两个主流Hadoop版本作为剖析实例,通过Java、Scala、客户端等开发案例,采用主流的离线项目和实时项目进行讲解。

作者根据自己多年在大数据行业的研发经验和个人体会,并结合大数据实际研发中需求和特点,认真整理其多年来编写的有关大数据研发的博文,精心组织和修订,最终编撰此著作,馈食读者。因此,该著作既是在大数据一线研发人员的知识结晶,而且还是有意进军大数据领域的从业人员的“良师益友”,确实是一本难得的大数据研发的参考资料。

黄永峰

清华大学电子工程系教授、博士生导师

随着大数据时代的到来,大数据技术在各行各业的应用越来越多,大数据相关技术的学习和使用者也越来越多。《Hadoop+Spark生态系统操作与实战指南》从大数据爱好者和入门者的角度出发,以原理兼实战为主体思路展现Hadoop及Spark的原生态中每一个组件的操作方法,是一本有效的快速入门教程。

本书首先讲解了Apache和CDH两大Hadoop版本的集群搭建,并以此作为后续的开发平台;其次,讲解了Hadoop+Spark中原生态组件的原理,并使用Java、Scala、客户端对组件进行实例操作,作为案例;最后,通过两个网页日志分析项目将Hadoop和Spark中的原生态组件整合在一起,作为项目架构。

余辉毕业于中国科学院大学,其研究方向为大数据与云计算,目前已拥有多年一线大数据开发经验。本书将理论与实践相结合,可作为相关技术教学和培训的参考资料。

肖俊

中国科学院大学人工智能技术学院教授、副院长

本书系统介绍了大数据相关知识,全书共有12章,论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、基于内存的分布式计算框架Spark、最新的ZooKeeper、Hive、Scala、Flume、Kafka等技术。在Hadoop、HDFS、HBase、MapReduce和Spark等重要章节,都安排了实践操作,让读者更好地学习和掌握大数据关键技术。

本文作者余辉工程师,在大数据领域的实验室及公司工作多年,积累了丰富的实战经验。这本书理论结合实践,手把手教读者一步一步入门,避免了“纸上谈兵”,是大数据研究爱好者及从业人员的入门书籍。

本书可以作为高等院校计算机专业、信息管理等相关专业的大数据课程教材,也可供相关技术人员参考、学习、培训之用。

贺海武

中国科学院计算机网络信息中心(CNIC/CAS)百人计划研究员、

巴黎第13大学客座教授、里昂第1大学客座教授

市面上有许多讲解Hadoop或者Spark的书籍,但很难找到一本能带领大数据爱好者快速入门的书籍。本书作者余辉兼职于Oracle OAEC在线教育集团大数据讲师,他从一个讲师的角度写书,本书通过多维度讲解Hadoop+Spark原生态系统组件,在平台环境方面使用到Apache和CDH版本的Hadoop集群,在开发环境方面使用到Eclipse+Java和IntelliJ IDEA+Scala,在项目环境方面使用到主流的离线日志分析和实时日志分析,让大数据爱好者可以快速认识大数据、熟悉大数据、操作大数据、运用大数据。本书详细讲解了Hadoop+Spark原生态组件的原理,通过Java、Scala、客户端等开发案例并附上图片进行解说,让读者极易上手,本书非常适合作为一本大数据的快速入门教材。

方立勋

传智播客.黑马程序员高级副总裁

我与余辉的认识起源于清华大学,当时他在清华大学电子工程系担任软件工程师一职,通过和他多次交谈感觉此人思维缜密、善于总结且非常热爱技术。此书涵盖了余辉多年的一线开发经验和博文总结。

《Hadoop + Spark生态系统操作与实战指南》总计12章。涵盖Hadoop+Spark原生态系统组件,对每一个组件原理和架构有着清晰的描述。通过两套主流开发环境Eclipse+Java和IntelliJ IDEA+Scala以及客户端分别对每一个组件进行了大量的案例操作,并配上大量案例截图,最后采用主流的离线项目和实时项目进行生态组件的融合。从多维度让读者对大数据快速认知、快速理解、快速上手、快速深入了解大数据行业,是一本非常适合大数据开发爱好者快速入门的书籍。

杨志云

搜狐视频技术总监

大数据在各行各业的应用越来越广,近几年“大数据”一词也非常火热,余辉的书《Hadoop+ Spark生态系统操作与实战指南》生逢其时。虽然现在世面上有不少关于大数据方面的书籍,但我还是想从本书的内容结构,及我与作者交往方面,对此书及此人做一个概要性的介绍。

此书最大的特点是理念、实战与项目的结合,能把各个知识点,以实战操作的方式连成线,再以项目的方式,把各知识模块连成面,点、线、面轮廓清晰、项目实用,能帮助读者快速理解大数据生态技术中的各种技术在实际应用中的作用。Hadoop是大数据平台,它通过一系列的技术组成一个大数据生态技术圈,各种技术在这个生态中是干什么、原理是什么等在书中都有讲解。书中内容包括三大部分,12章,从大数据生态平台起源讲起(第1章),实践环境搭建(第2章)、分布式存储与计算框架介绍(第3章)、平台协作套件(第4章)、Apache原生的分布式计算框架详解(第5章)、分布式数据存储数据库(第6、7章)、利用函数式编程处理数据(第8章)、数据同步(第9、10章)、内存计算引擎架构(第11章)以及综合项目(第12章),内容丰富、案例真实、可操作性强,通过本书,读者能快速地理解Hadoop大数据技术生态中各种技术在实际项目中的应用。

关于此人,余辉是我通过CSDN博客找到他的,最开始我是阅读他的CSDN博文,从他的博文字里行间能感受到他的几种特质:专注、坚持、超强的执行力。因为Oracle OAEC人才产业中心此时正在开设大数据相关的课程,所以通过电话联系到他,经过一段时间的交流,最终成为Oracle OAEC人才产业基地的一名大数据兼职讲师,负责北京Oracle OAEC中心的大数据课程的教授。在教学过程中,得到学员的多次好评,以此基础,我建议他写一本关于这方面的书箱。我的逻辑是让他通过授课的方式,将多年在大数据一线的实际应用与项目,用通俗易懂的方式让学员理解;同时,自己也加深了理解;再通过写书的方式,能系统地将知识、经验、和自己的理解分享给别人。

刘彰

Oracle OAEC人才产业集团大数据学院与认证中心产品总监

ORACLE认证高级讲师