1.2 Hadoop发展——各路英雄集结
Hadoop诞生之后,其发展可谓一呼百应,各路IT界公司相继直接或间接地加入了Hadoop阵营,纷纷表示愿意为Hadoop的发展“添砖加瓦”(当然也可以从Hadoop带来的好处中分得一杯羹)。笔者认为造成蒸蒸日上的局面的主要原因有两点:其一是大数据处理的迫切需求,各大公司都看到了数据市场的重要性,在IT日新月异的高速列车上,谁不能正确地预测发展形势,谁必将被时代所淘汰;其二要感谢雅虎大无畏的“开源精神”,当然开源之举的背后有一个很重要的原因,就是和Google的激烈竞争。所以,笔者认为,从某种程度上来说,在IT界,开源是后来者居上的最有效的办法。直到2008年,Hadoop相对稳定的版本面世了,并在同年1月成为Apache顶级项目。
接下来,我们看看各路英雄对Hadoop的支持和应用。
百度从2007年开始使用Hadoop进行离线处理,目前将Hadoop集群用作日志处理。
中国移动也从2007年开始将Hadoop应用于“大云”中,规模超过1000台。
阿里巴巴从2008年开始在“云梯”中应用Hadoop,初级规模就达到1100台。其用于处理电子商务相关数据,每天处理约18 000道作业,扫描500TB数据。
Cloudera于2009年推出CDH(Cloudera's Distribution including Apache Hadoop)平台,完全由开放源码软件组成。
IBM于2010年提供了基于Hadoop的大数据分析软件——InfoSphere BigInsights,包括基础版和企业版。Platform Computing(现在为IBM Platform Computing)于2011年宣布在它的Symphony软件中支持Hadoop MapReduce API。
MapR Technologies公司于2011年5月推出分布式文件系统和MapReduce引擎——MapR Distribution for Apache Hadoop。
EMC于2011年5月为客户推出一种新的基于开源Hadoop解决方案的数据中心设备——Greenplum HD,以助其满足客户日益增长的数据分析需求并加快利用开源数据分析软件。Greenplum是EMC于2010年7月收购的一家开源数据仓库公司。
Calxeda公司(之前名为Smooth-Stone)于2011年6月发起了“开拓者行动”,一支由10家软件公司组成的团队将为基于Calxeda推出的ARM系统上芯片设计的服务器提供支持,并为Hadoop提供低功耗服务器技术。
Cloudera于2011年8月公布了一项有益于合作伙伴生态系统的计划——创建一个生态系统,以便硬件供应商、软件供应商及系统集成商可以一起探索如何使用Hadoop更好地洞察数据。
Dell与Cloudera于2011年8月联合推出Hadoop解决方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器及Dell PowerConnect 6248以太网交换机。
各大IT厂商直接或间接地接触、加入Hadoop的阵营,一时间,Hadoop成为“程序猿”们茶余饭后的重要谈论话题。Hadoop从一个开源的Apache基金会项目,随着越来越多的用户加入,不断地使用、贡献和完善,形成一个强大的生态系统。从2009年开始,随着云计算和大数据的发展,Hadoop作为海量数据分析的最佳解决方案,开始受到众多IT厂商的关注,从而出现了许多Hadoop的商业版及支持Hadoop的产品,包括软件和硬件。
到现在为止,Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,将第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x、0.21.x和0.22.x。其中,0.20.x最后演化成1.0.x,变成了稳定版;而0.21.x和0.22.x则增加了NameNode HA等新的重大特性。第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统。相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility两个重大特性。