Spark大数据编程实用教程
上QQ阅读APP看书,第一时间看更新

第2章 构建Spark运行环境

到目前为止,对Spark程序的认识可能有这么几点:

●它是一个运行在JVM上的程序,可以使用Scala、Java和Python等语言编写;

●它是一个分布式程序,在很多节点上并行运行。

上述认识暂时还停留在理论的阶段,本章的目的就是要带领大家搞清楚这些细节,并且还能动手操作。

具体来说,本章将着重解决以下问题。

●Spark程序运行时架构是怎样的?有哪些角色?

●如果要构建一个Spark程序的运行环境,需要哪些组件?

●HDFS是什么?它的架构和构建步骤是怎样的?和Spark的关系是怎样的?

●Yarn的作用以及构建步骤是怎样的?

●如何在本地运行Spark程序?

●如何以client或cluster模式,实现Spark on Yarn的程序运行?

●如何以client或cluster模式,实现Spark on Standalone的程序运行?

●如何扩展HDFS、Yarn,以及Spark Standalone集群的节点?

上述内容非常重要,不管Spark程序有多复杂,使用了多么高深的技术,其运行的原理和基本步骤都不会脱离本章内容的范畴。此外,本章还将引入 Spark 相关的重要概念和术语,例如Spark程序的运行方式、运行模式和部署模式等,这些都将为后续进一步学习Spark程序开发打下基础。