Hadoop大数据分析技术

迟殿委陈鹏程主编

更新时间：2023-07-17 19:54:51

最新章节：11.3.5 数据可视化开发

封面

版权信息

内容简介

前言

第1章 Hadoop概述与大数据环境准备

1.1 大数据定义

1.2 Hadoop生态介绍

1.2.1 Hadoop简介

1.2.2 Hadoop版本简介

1.2.3 Hadoop生态系统和组件介绍

1.3 Hadoop 3新特性

1.4 虚拟机安装

1.5 安装Linux操作系统

1.6 SSH工具与使用

1.7 Linux统一设置

1.8 小结

第2章 Hadoop伪分布式集群搭建

2.1 安装独立运行的Hadoop

2.2 Hadoop伪分布式环境准备

2.3 Hadoop伪分布式安装

2.4 HDFS操作命令

2.5 Java项目访问HDFS

2.5.1 创建Maven项目

2.5.2 HDFS操作示例

2.6 winutils

2.7 快速MapReduce程序示例

2.8 小结

第3章 HDFS分布式存储实战

3.1 HDFS的体系结构

3.2 NameNode的工作

3.2.1 查看镜像文件

3.2.2 查看日志文件

3.2.3 日志文件和镜像文件的操作过程

3.3 SecondaryNameNode

3.4 DataNode

3.5 HDFS的命令

3.6 远程过程调用

3.7 小结

第4章 MapReduce实战

4.1 MapReduce的运算过程

4.2 WordCount示例

4.3 自定义Writable

4.4 Partitioner分区编程

4.5 自定义排序

4.6 Combiner编程

4.7 默认Mapper和默认Reducer

4.8 倒排索引

4.9 Shuffle

4.10 小结

第5章 ZooKeeper与高可用集群实战

5.1 ZooKeeper简介

5.1.1 Zxid

5.1.2 版本号

5.2 单一节点安装ZooKeeper

5.3 基本客户端命令

5.4 Java代码操作ZooKeeper

5.5 ZooKeeper集群安装

5.6 znode节点类型

5.7 观察节点

5.8 配置Hadoop高可用集群

5.9 用Java代码操作集群

5.10 小结

第6章 Hive数据仓库实战

6.1 Hive3的安装配置

6.2 Hive的命令

6.3 Hive内部表

6.4 Hive外部表

6.5 Hive表分区

6.5.1 分区技术细节

6.5.2 分区示例

6.6 查询示例汇总

6.7 Hive函数

6.8 Hive自定义函数

6.9 Hive视图

6.10 hiveserver2

6.11 使用JDBC连接hiveserver2

6.12 小结

第7章 HBase数据库实战

7.1 HBase的特点

7.2 HBase安装

7.2.1 HBase的单节点安装

7.2.2 HBase的伪分布式安装

7.2.3 Java客户端代码

7.3 HBase集群安装

7.4 HBase Shell操作

7.4.1 数据模型定义

7.4.2 数据基本操作

7.5 协处理器

7.6 Phoenix

7.7 小结

第8章 Flume数据采集实战

8.1 Flume的安装与配置

8.2 快速示例

8.3 在ZooKeeper中保存Flume的配置文件

8.4 Flume的更多Source

8.4.1 Avro Source

8.4.2 Thrift Source和Thrift Sink

8.4.3 Exec Source

8.4.4 Spool Source

8.4.5 HDFS Sinks