更新时间:2020-11-23 16:48:20
封面
版权页
内容简介
前言
本书内容组织
作者与技术支持邮箱
第1章 大数据时代
1.1 什么是大数据
1.2 大数据与云计算的关系
1.3 Hadoop和云平台的应用实例
1.4 数据湖(Data Lake)
1.5 企业如何走向大数据
第2章 大数据软件框架
2.1 Hadoop框架
2.2 Spark(内存计算框架)
2.3 实时流处理框架
2.4 云端消息队列
2.5 框架的选择
2.6 Hadoop发行版
2.7 Mac上安装Hadoop
2.8 Linux上安装Hadoop
2.9 AWS云平台上安装Hadoop
第3章 大数据集群
3.1 集群实例分析
3.2 YARN
3.3 资源的调度器
3.4 深入研究Resource Manager
3.5 集群配置文件总览
3.6 自动伸缩(Auto Scaling)集群
3.7 迁移Hadoop集群
3.8 增加Instance
第4章 大数据存储:文件系统和云存储
4.1 HDFS shell命令
4.2 配置HDFS
4.3 HDFS API编程
4.4 HDFS API总结
4.5 HDFS文件格式
4.6 云存储S3
第5章 大数据存储:数据库
5.1 NoSQL
5.2 HBase概述
5.3 HBase编程
5.4 其他NoSQL数据库
5.5 云数据库
第6章 大数据访问:SQL引擎层
6.1 Phoenix
6.2 Hive
6.3 Pig
6.4 ElasticSearch(全文搜索引擎)
6.5 Presto
第7章 大数据采集和导入
7.1 Flume
7.2 Kafka
7.3 Sqoop
7.4 Storm
7.5 Amazon Kinesis
7.6 其他工具
第8章 大数据安全管控
8.1 数据主权和合规性
8.2 云端安全
8.3 云端监控
8.4 云端备份和恢复
8.5 大数据安全
第9章 大数据快速处理平台:Spark
9.1 Spark框架
9.2 Spark Shell
9.3 Spark编程
9.4 RDD
9.5 Spark SQL
9.6 Spark Streaming
第10章 大数据分析
10.1 数据科学
10.2 预测分析
10.3 机器学习
10.4 算法
10.5 大数据分析总体架构
10.6 微服务
第11章 大数据环境自动化部署:Docker和Kubernetes
11.1 什么是Docker?
11.2 镜像文件
11.3 Docker安装
11.4 Dockerfile文件
11.5 Service(服务)
11.6 Swarm
11.7 Stack
11.8 Kubernetes
第12章 大数据开发管理
12.1 CI/CD(持续集成/持续发布)
12.2 代码管理工具GitHub
12.3 项目管理JIRA
12.4 项目构建工具Maven
12.5 大数据软件测试
附录1 数据量的单位级别
附录2 AWS EC2创建步骤
附录3 分布式监控系统Ganglia
附录4 auth-ssh脚本