上QQ阅读APP看书,第一时间看更新
第1章 PySpark大数据分析概述
在当今时代,随着计算机、互联网、物联网等技术的迅速发展,数据的产生与获取均呈几何级数、爆炸式增长,大数据概念应运而生。大数据是继云计算、物联网之后信息技术产业领域的又一重大技术革新,被誉为“第三次浪潮的华彩乐章”,现已被广泛应用至各行各业和人们生活的方方面面。如何对大数据进行分析、挖掘并获取有价值的信息,同时推进数字中国建设,越来越受到各行各业的高度重视。
本章首先介绍大数据分析概述,从大数据的概念引入对大数据分析的学习,包括大数据分析的概念、流程、应用场景,并介绍大数据技术体系;然后重点介绍Spark大数据技术框架相关知识,包括Spark简介、Spark特点、Spark运行架构与流程、Spark RDD和Spark生态圈;最后介绍PySpark大数据分析。
学习目标
(1)了解大数据分析的概念与流程。
(2)了解大数据技术体系。
(3)了解Spark大数据技术框架。
(4)熟悉Spark RDD的概念与常见算子。
(5)了解PySpark的由来、优势及主要模块。
素质目标
(1)通过学习大数据分析,培养数据分析思维。
(2)通过学习大数据技术技能,培养终身学习的素质。
(3)通过理解RDD的基本设计思想,培养团结协作的精神。