前言
FOREWORD
随着大数据时代的到来,数据已成为重要的生产要素,渗透到各行各业,也逐渐成了企业核心竞争力的一部分。因此,对企业而言,不仅需要知道如何管理数据,更需要知道如何构建分析系统,挖掘数据规律,解读数据价值。企业如果要通过对数据的有效管控和分析,做出科学、合理的决策,就需要大量的大数据分析人员发现企业所需的数据与信息,运用数据分析方法的思想,科学地建立数据挖掘模型,挖掘其规律和价值,为企业的战略决策和运营管理提供强有力的支撑。此外,随着大数据与人工智能已上升为国家战略,国内诸多高校都开设了大数据相关专业,大数据应用型人才的培养迫在眉睫。大数据应用型人才不仅需要掌握理论知识,还需要具备理论联系实际的分析与决策能力,才能满足企业对数据分析人才的需求。
PySpark作为Spark的Python编程接口,继承了Python语言表达力强、开发效率高的特点,成为越来越多的数据分析团队、数据分析师进行数据分析时选择的工具。目前市面上关于 PySpark 在大数据应用方面的图书不多,同时能够结合实际案例,从提出问题到需求分析,再到设计分析和编程实践,完整展示 PySpark 大数据分析的相关图书更少。本书全面贯彻党的二十大精神,以社会主义核心价值观为引领,传承中华优秀传统文化,将团结就是力量、去伪存真的科学探索精神、实事求是的科学态度融到PySpark大数据分析技术的学习中,并通过理论结合实践,运用该技术解决实际场景中的大数据分析问题,培养学生大数据思维,为加快发展新质生产力,建设网络强国、数字中国而服务。
本书特色
1.理论叙述由浅入深、循序渐进,表达通俗易懂。本书从基本概念入手,介绍相关的基础理论,再通过应用示例介绍如何运用具体方法解决实际问题。
2.强化基础,突出知识的应用性。结合高校教学特点和学生的情况,突出PySpark大数据分析的重点内容,强调 PySpark 在实际问题中的应用性,充分体现理论知识与应用的紧密结合。
3.从实践出发,重点突出可操作性。本书从构建 PySpark 的开发环境入手,详细介绍单机模式的PySpark开发环境搭建(基于Windows系统搭建,搭建过程简单、易于操作)和分布式模式的PySpark开发环境搭建(基于Linux系统搭建,贴近实际应用场景,处理高效),帮助学生构建可操作的实践环境,实践本书的内容。本书大部分章附有实训和课后习题,便于学生进行上机实验,巩固所学知识,真正理解并应用所学知识。
4.通过典型案例完整展示PySpark大数据分析的过程,强化知识的实际应用。本书最后两章介绍两个案例,以应用为导向,从需求分析入手,再设计解决方案,最终帮助学生运用所学知识实现PySpark大数据分析过程。
5.体现思想育人。本书不仅注重培养学生分析和处理数据的能力,以及运用数据分析理论与方法解决实际问题的实践能力;同时注重课程内容与思想教育的有机融合,在潜移默化中引领学生树立正确的三观和践行社会主义核心价值观,成为坚持正确政治方向的“四有青年”。
本书适用对象
● 开设大数据分析课程的高校师生。
● 大数据开发技术人员。
● 学习PySpark大数据分析的爱好者。
代码下载及问题反馈
为了帮助读者更好地使用本书,本书提供配套的原始数据文件、程序代码,以及PPT 课件、教学大纲、教学进度表和教案等教学资源,读者可以从泰迪云教材网站上免费下载,也可登录人邮教育社区(www.ryjiaoyu.com)下载。同时欢迎读者加入“人邮大数据教师服务群”(QQ群:669819871)进行交流探讨。
由于编者水平有限,书中难免出现一些疏漏和不足之处。如果读者有更多的宝贵意见和建议,欢迎在“泰迪学社”微信公众号(TipDataMining)回复“图书反馈”进行反馈。更多本系列教材的信息可以在泰迪云教材网站上查阅。
编者
2023年11月
泰迪云教材