Spark海量数据处理：技术详解与平台实战

更新时间：2020-02-14 17:56:05

最新章节：Spark海量数据处理技术详解与平台实战

封面

版权信息

序

前言

本书特点

面向读者

阅读方法

勘误和支持

致谢

资源与支持

配套资源

提交勘误

与我们联系

关于异步社区和异步图书

第一部分基础篇

第1章序篇

1.1 Spark与BDAS

1.2 Databricks

1.3 如何通过GitHub向Spark贡献代码

1.4 如何选择Spark编程语言

1.5 函数式编程思想

1.6 小结

第2章 Spark编程

2.1 Spark架构

2.2 Spark 2.x与Spark 3.x

2.3 部署Spark

2.4 RDD与算子

2.5 Spark Shuffle

2.6 共享变量

2.7 Spark的多语言支持

2.8 Spark性能调优

2.9 使用Jupyter Notebook基于Spark探索数据：蒙特卡罗方法预测股票价格

2.10 小结

第3章 Spark统一编程接口：DataFrame、Dataset和Spark SQL

3.1 Catalyst优化器

3.2 DataFrame API

3.3 Dataset API

3.4 Spark SQL

3.5 Google Dremel与列式存储

3.6 使用Spark SQL进行数据探索

3.7 小结

第4章 Spark流处理：Spark Streaming与Structured Streaming

4.1 一个Spark Streaming流处理的例子

4.2 消息送达保证

4.3 Google MillWheel系统和Google Dataflow模型

4.4 Spark Streaming

4.5 Structured Streaming

4.6 流处理技术对比

4.7 小结

第5章 Spark图计算：GraphX

5.1 图模式

5.2 生成图

5.3 图算子

5.4 Pregel API

5.5 SQL on Graph

5.6 n度邻居顶点算法

5.7 小结

第6章 Spark机器学习：MLlib

6.1 机器学习

6.2 Spark MLlib与Spark ML

6.3 数据预处理

6.4 分类算法应用

6.5 聚类算法应用

6.6 推荐系统应用

6.7 训练之后

6.8 流式机器学习

6.9 小结

第7章 Spark深度学习：Deeplearning4j

7.1 常见的深度学习框架

7.2 Deeplearning4j

7.3 卷积神经网络

7.4 循环神经网络

7.5 自动编码器

7.6 使用GPU

7.7 小结

第8章分布式存储：Alluxio

8.1 Alluxio架构

8.2 快速上手Alluxio

8.3 与上层框架集成

8.4 与底层存储系统集成

8.5 如何访问Alluxio

8.6 Alluxio应用案例

8.7 小结

第二部分应用篇

第9章企业数据湖与Lambda架构

9.1 数据湖

9.2 Lambda架构

9.3 基于Lambda架构的数据湖分层设计

9.4 Lambda架构的应用

9.5 构建Lambda架构的技术

9.6 小结

第10章大数据企业动态背景调查平台

10.1 企业背景调查

10.2 基于大数据的企业动态背景调查

10.3 数据采集与数据字典

10.4 企业背景调查平台需求

10.5 企业关联图谱的模式

10.6 传统数据仓库架构

10.7 小结

第11章平台设计