大数据技术入门(第2版)
上QQ阅读APP看书,第一时间看更新

1.3 Hadoop和云平台的应用实例

除了使用AWS管理界面(见图1-6)操作EC2、S3等组件之外,我们可以在个人计算机(例如苹果Mac)上安装AWS CLI(命令行接口),然后使用脚本来创建和管理EC2实例、S3存储等。其实,脚本模式是最常见的模式。下面我们以在AWS上部署Hadoop为例来说明。

在实际工作中,我使用了Chef工具和CodeDeploy工具(与Debian Package结合使用)。Chef是大数据环境下的自动化运维工具和IT自动化平台,可创建、部署、变更和管理基础设施运行时环境和应用。Chef是平台无关的,可以部署到云端或本地。Chef也被称为部署自动化工具和DevOps使能者。我们把在AWS上安装和部署Hadoop的配置参数做成了Chef脚本(.yml文件),并把Chef脚本放在GitHub上进行管理。图1-18显示了两类脚本,一类是在云平台上设置好虚拟机等,另一类是在大数据平台(Hadoop)层面上设置好集群。

图1-18 部署层次图

1.3.1 云平台层面配置

下面是一个实际的Hadoop上的Master节点在云平台层面的配置信息。从中可以看到EC2实例类型、EBS卷、Auto Scaling和安全组的设置等:

下面是一个实际的Hadoop集群上的Slave节点在云平台层面的配置信息:

1.3.2 大数据平台层面配置

下面是一个实际的Hadoop集群的配置信息。从中可以看到vcore个数设置、资源调度等: