上QQ阅读APP看书，第一时间看更新

内容简介

本书用于Hadoop+Spark快速上手，全面解析Hadoop和Spark生态系统，通过原理解说和实例操作每一个组件，让读者能够轻松跨入大数据分析与开发的大门。

全书共12章，大致分为3个部分，第1部分（第1~7章）讲解Hadoop的原生态组件，包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装，以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作。第2部分（第8~11章）讲解Spark的原生态组件，包括Spark Core、Spark SQL、Spark Streaming、DataFrame，以及介绍Scala、Spark API、Spark SQL、Spark Streaming、DataFrame原理和CDH版本环境下实战操作，其中Flume和Kafka属于Apache顶级开源项目也放在本篇讲解。第3部分（第12章）讲解两个大数据项目，包络网页日志离线项目和实时项目，在CDH版本环境下通过这两个项目将Hadoop和Spark原生态组件进行整合，一步步带领读者学习和实战操作。

本书适合想要快速掌握大数据技术的初学者，也适合作为高等院校和培训机构相关专业师生的教学参考书和实验用书。