大数据技术入门(第2版)
上QQ阅读APP看书,第一时间看更新

2.6 Hadoop发行版

Hadoop正式诞生于2006年1月28日,是多个开源项目的生态系统,它从根本上改变了企业存储、处理和分析数据的方式。Hadoop以一种开源的方式创建,开源的强大力量可以创造标准,人人共享,这样才有更多的人参与进来并不断完善。十多年前谁也没有料想到Hadoop能取得今天这样的成就。Hadoop之父Doug Cutting认为Hadoop正处于蓬勃的发展期,而且这样的蓬勃至少还需要几十年。由于Hadoop深受客户欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop开发产品。我们首先介绍那些提供Hadoop发行版的主流厂商,读者可以选取其中一个厂商的产品来安装和配置大数据软件。

Hadoop包含了很多子项目,它们一起构成了Hadoop生态圈。在这十年间,新技术(如Spark)和新版本不断推出,日新月异。这给我们带来2个痛点:①我们很难及时地跟踪所有这些新技术和新版本;②怎么确保这些新旧版本的不同软件组件之间没有冲突。国外出现了这样的一些公司来解决这些痛点:他们将所有这些版本兼容的技术产品打成一个包,并提供了简单的安装程序和集成管理系统。虽然这些公司采用不同的方式方法,但是都基本解决了上述的痛点。这些公司就是“推出了各自版本的Hadoop”的公司。

不收费的Hadoop版本主要有三个(均是国外厂商),分别是Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera's Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称HDP),下面就简单介绍一下它们。

1.Cloudera

Cloudera公司于2008年在美国硅谷创建,是企业级Hadoop技术服务提供商,已经获得了几亿美元的投资。Cloudera提供了第一个基于开源Hadoop的商业发行版,第一个添加NoSQL(HBase)到Hadoop平台,第一个在HDFS上提供SQL查询能力的平台(Impala),第一个将流数据处理能力(Spark)添加到Hadoop发行版的厂商。

用户真正在乎基于Hadoop的平台和能达到的业务结果,而不是Hadoop本身。Hadoop之初的定位就是一个经济型的深度存储和数据处理平台,我们陆续看到如今大大小小的企业都在用这个平台进行部署,涉及的创新应用也越发广泛。而Cloudera提供的Cloudera Hadoop发行版(简称CDH)就是一个稳定的Hadoop版本,它简化了Hadoop本身的安装和管理,让Hadoop使用者省心省力(当然,如果你的技术能力强,可以用原生Hadoop,自己定制,这也会更灵活)。

CDH的下载地址为:http://www.cloudera.com/downloads.html。推荐的安装方法是使用cloudera-manager-installer.bin安装。我们只要从官网下载cloudera-manager-installer.bin,然后执行这个bin文件,剩下的就是等待下载和安装。

2.HortonWorks

HortonWorks公司于2011年在美国硅谷创建,已经在NASDAQ上市。HortonWorks提供的Hadoop发行版为Hortonworks Data Platform(HDP) 。HDP包含了Apache Hadoop的必要的组件,这包括:YARN、HDFS、Pig、Hive、HBase、ZooKeeper和Ambari。HDP还包含了Apache Spark、Solr和Storm等新兴技术。HDFS为大数据提供可扩展、容错、具有成本效益的存储。YARN提供资源管理和可插拔架构,以支持广泛的数据访问方法。YARN为各种处理引擎提供基础,能够同时以多种方式与相同数据交互(从批量到交互式SQL或使用NoSQL的低延迟访问)。HDP能够根据策略加载和管理数据、进行身份验证、授权和数据保护。HDP支持大规模配置、管理、监控和运营Hadoop群集。HDP提供了一整套运营功能,不仅提供群集运行状况的可见性,还提供工具来管理配置。Apache Ambari提供API与现有管理系统集成。HDP能够与其他的数据分析工具集成。HDP支持Windows系统的安装和配置,并支持多个版本的Linux。

3.MapR

MapR也是位于美国硅谷的一家软件公司,开发和销售Apache Hadoop的衍生软件,对Apache Hadoop主要贡献有:HBase、Pig、Apache Hive以及Apache ZooKeeper。MapR的Apache Hadoop发行版提供了完整的数据保护和无单点故障,提高了性能与易用性。MapR被选择为Amazon公司的Elastic Map Reduce(EMR)的升级版本。

MapR的MapR Converged Data Platform提供了2个版本:免费的社区版(Converged Community Edition)和收费的企业版(Converged Enterprise Edition)。