上QQ阅读APP看书,第一时间看更新
第2章 构建Spark运行环境
到目前为止,对Spark程序的认识可能有这么几点:
●它是一个运行在JVM上的程序,可以使用Scala、Java和Python等语言编写;
●它是一个分布式程序,在很多节点上并行运行。
上述认识暂时还停留在理论的阶段,本章的目的就是要带领大家搞清楚这些细节,并且还能动手操作。
具体来说,本章将着重解决以下问题。
●Spark程序运行时架构是怎样的?有哪些角色?
●如果要构建一个Spark程序的运行环境,需要哪些组件?
●HDFS是什么?它的架构和构建步骤是怎样的?和Spark的关系是怎样的?
●Yarn的作用以及构建步骤是怎样的?
●如何在本地运行Spark程序?
●如何以client或cluster模式,实现Spark on Yarn的程序运行?
●如何以client或cluster模式,实现Spark on Standalone的程序运行?
●如何扩展HDFS、Yarn,以及Spark Standalone集群的节点?
上述内容非常重要,不管Spark程序有多复杂,使用了多么高深的技术,其运行的原理和基本步骤都不会脱离本章内容的范畴。此外,本章还将引入 Spark 相关的重要概念和术语,例如Spark程序的运行方式、运行模式和部署模式等,这些都将为后续进一步学习Spark程序开发打下基础。