大数据技术入门(第2版)
上QQ阅读APP看书,第一时间看更新

2.9 AWS云平台上安装Hadoop

安装Hadoop的最简单的方法就是使用云平台(例如AWS)的Hadoop服务。EMR是AWS的Hadoop服务。下面阐述安装和配置EMR的步骤。从服务菜单中选择EMR,点击“create cluster”,如图2-27所示,填入集群名字,选择要安装的Hadoop的各个组件。我们选择了Hadoop和Spark。

图2-27 创建Hadoop集群

如图2-28所示,指定Hadoop集群的硬件设置。

图2-28 硬件配置

设置Hadoop集群的网络和安全设置。单击如图2-29所示的安全组的配置,就出现如图2-30所示的设置。然后,使用SSH登录到AWS的Master节点,就会出现如图2-31所示的界面,而后就可以输入Spark命令。

图2-29 网络和安全设置

图2-30 安全组设置

图2-31 Spark界面

除了使用SSH来操作Hadoop集群和Spark之外,还可以在如图2-32所示的界面中启动Zeppelin,随后就会出现如图2-33所示的界面。

图2-32 集群

图2-33 Zeppelin

之后,就可以输入Spark语句来操作集群上的数据(见图2-34,),查看日志信息(见图2-35)。

图2-34 Spark操作

图2-35 查看日志