上QQ阅读APP看书,第一时间看更新
第2章
大数据软件框架
这是一个大数据时代,Hadoop就是为了大数据才应运而生的。Hadoop是Apache的子项目,是一个分布式系统基础架构,它主要是用于大数据的处理。例如,如果你要在一个50TB的巨型文件中查找内容,会出现什么情况?在传统的系统上,这将需要很长的时间,但是Hadoop在设计时就考虑到这些问题,采用分布式存储和并行执行机制。Hadoop所提供的分布式文件系统(HDFS)实现了大规模的存储(在所有计算节点上分布式存储50TB数据),这为整个集群带来了非常高的带宽,因此能大大提高效率。Hadoop可以让用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。