更新时间:2021-01-07 18:48:22
封面
版权信息
前言
大数据存储篇
第1章 概述
1.1 什么是大数据
1.2 大数据的技术转型
1.3 数据分片
1.4 数据一致性
1.5 主流大数据技术
1.6 大数据职业方向
1.7 大数据实践平台的搭建
1.8 小结
第2章 HDFS文件系统
2.1 HDFS概述
2.2 HDFS的运行机制
2.3 HDFS的数据存储
2.4 HDFS的安装和配置
2.5 小结
第3章 HDFS操作实践
3.1 HDFS接口与编程
3.2 操作实践
3.3 小结
大数据计算篇
第4章 YARN
4.1 YARN概述
4.2 YARN的主要组成模块
4.3 YARN的整体设计
4.4 容量调度器
4.5 公平调度器(Fair Scheduler)
4.6 资源管理者(RM)重启机制
4.7 资源管理器的高可用性(RM HA)
4.8 节点标签
4.9 YARN编程
4.10 YARN服务注册
4.11 小结
第5章 MapReduce
5.1 MapReduce概述
5.2 Key-Value结构的特点
5.3 MapReduce的部署
5.4 MapReduce的程序结构
5.5 MapReduce的编程接口
5.6 MapReduce的命令行
5.7 WordCount的实现
5.8 小结
非关系型数据库篇
第6章 使用HBase
6.1 HBase基础
6.2 HBase的架构原理
6.3 HBase的命令实践
6.4 HBase的数据管理
6.5 HBase的集群管理
6.6 小结
第7章 HBase编程开发
7.1 HBase的编程接口
7.2 表与命名空间的编程
7.3 数据编程
7.4 集群与优化编程
7.5 小结
大数据仓库篇
第8章 数据仓库概论
8.1 初识数据仓库
8.2 数据仓库的核心概念
8.3 数据仓库中的数据内容划分
8.4 OLAP
8.5 ETL
8.6 调度和运行
8.7 数据仓库的架构
8.8 数据仓库的展望
8.9 小结
第9章 Hive
9.1 初识Hive
9.2 Hive命令行接口
9.3 Hive数据类型与常见的结构
9.4 HiveSQL
9.5 Hive的自定义函数
9.6 Hive的高级使用
9.7 使用Hive构建数据仓库
9.8 小结
大数据实时计算篇
第10章 Storm实时系统
10.1 大数据实时系统概述
10.2 Kafka分布式消息系统
10.3 Storm实时处理系统
10.4 小结
参考文献