更新时间:2025-01-07 16:59:24
封面
版权信息
内容提要
大数据技术精品系列教材专家委员会
序
前言
第1章 PySpark大数据分析概述
1.1 大数据分析概述
1.2 Spark大数据技术框架
1.3 PySpark大数据分析
小结
课后习题
第2章 PySpark安装配置
2.1 搭建单机模式的PySpark开发环境
2.2 搭建分布式模式的PySpark开发环境
2.3 Python函数式编程
第3章 基于PySpark的DataFrame操作
3.1 Spark SQL概述
3.2 pyspark.sql模块
3.3 DataFrame基础操作
实训
第4章 基于PySpark的流式数据处理
4.1 Spark Streaming概述
4.2 pyspark.streaming模块
4.3 Structured Streaming结构化流处理
第5章 基于PySpark的机器学习库
5.1 MLlib算法
5.2 使用pyspark.ml模块的转换器处理和转换数据
5.3 pyspark.ml模块的评估器和模型评估
第6章 案例分析:基于PySpark的网络招聘信息的职业类型划分
6.1 需求与架构分析
6.2 数据探索
6.3 数据预处理
6.4 模型构建与评估
6.5 制作词云图
第7章 案例分析:基于PySpark的信用贷款风险分析
7.1 需求与架构分析
7.2 数据探索
7.3 数据预处理
7.4 模型构建与评估
7.5 部署和提交PySpark应用程序
参考文献