大数据技术入门(第2版)
上QQ阅读APP看书,第一时间看更新

本书内容组织

除了阐述大数据的定义和软件框架,除了新增的大数据集群和大数据安全管控的内容之外,同上一个版本类似,本书主要是按照大数据处理的几个步骤来组织内容:

(1)大数据存储:探究HDFS和HBase作为大数据存储方式的优劣,新加了云存储和云数据库作为大数据存储的选项;

(2)大数据访问:探究SQL引擎层中Hive、Phoenix、Spark SQL等组件的功能,并阐述了全文搜索的ElasticSearch,也探究了Spark的高速访问能力;

(3)大数据的采集:探究了Flume、Kafka、Sqoop等技术,也探究了如何使用Storm和Spark Streaming来对数据进行流式计算,来满足部分业务的实时和准实时计算需求。新加了Embulk、Fluentd、AWS Kinesis等内容;

(4)大数据管理:探究数据模型、安全控制、数据生命周期等数据管理内容;

(5)大数据分析:探究了如何利用分布式计算集群来对存储于其内的海量数据进行统计分析,重点探究了机器学习和算法。