更新时间:2021-03-23 18:10:03
封面
版权信息
作者简介
前言
第1章 Spark与大数据
1.1 大数据开发基础
1.2 初识Spark
1.3 Spark技术栈
1.4 Spark重要组件
1.5 Spark和Scala
1.6 如何快速掌握Spark
1.7 练习
第2章 构建Spark运行环境
2.1 Spark程序运行时架构
2.2 构建Spark大数据运行环境
2.3 运行Spark程序(Local方式)
2.4 运行Spark程序(分布式方式)
2.5 Spark程序在spark-shell上运行
2.6 使用Web UI监控Spark程序运行
2.7 扩展集群节点
2.8 练习
第3章 开发第一个Spark程序
3.1 在命令行模式下开发Spark程序
3.2 使用IDEA开发Spark程序
3.3 练习
第4章 深入理解Spark程序代码
4.1 Spark程序代码结构
4.2 Spark程序代码的核心概念
4.3 Spark程序代码执行过程
4.4 练习
第5章 RDD编程
5.1 RDD核心概念
5.2 创建RDD
5.3 RDD Partition
5.4 Transformation操作
5.5 Action操作
5.6 RDD的cache/persist和checkpoint操作
5.7 练习
第6章 Spark SQL结构化数据处理
6.1 Spark SQL的核心概念
6.2 Spark SQL数据处理概述
6.3 构建Spark SQL运行环境
6.4 DataFrame/Dataset快速上手
6.5 DataFrame/Dataset与数据源的转换
6.6 DataFrame/Dataset常用API
6.7 SQL操作
6.8 练习
第7章 Spark Streaming
7.1 Spark Streaming基础
7.2 编写一个Spark Streaming程序
7.3 Spark Streaming Web UI的使用
7.4 多路流数据合并处理示例
7.5 DStream Transformation操作
7.6 DStream Output 操作
7.7 练习
第8章 Structured Streaming
8.1 Structured Streaming基础
8.2 Structured Streaming接入Text File数据源
8.3 Structured Streaming接入Rate数据源
8.4 使用Schema解析JSON格式数据源
8.5 使用DataFrame/Dataset处理流数据
8.6 Structured Streaming Window操作
8.7 Structured Streaming Watermarking操作
8.8 Structured Streaming JOIN操作
8.9 练习
第9章 SparkR
9.1 SparkR基础
9.2 构建SparkR程序开发和运行环境
9.3 SparkR代码的执行方式
9.4 SparkR的基本使用
9.5 SparkR机器学习算子
9.6 利用SparkR实现单词统计和图形输出
9.7 练习
第10章 GraphX
10.1 GraphX基础
10.2 GraphX的基本数据结构
10.3 GraphX实现最短路径算法——SGDSP
10.4 GraphX Pregel的原理及使用
10.5 GraphX Pregel实现最短路径算法——SGPSP
10.6 练习
参考文献