上QQ阅读APP看书,第一时间看更新
3.1 Hadoop简介
当今互联网发展迅速,大型网站系统的日志量呈指数级增长,而日志对于互联网公司是非常重要的,可以通过分析用户操作日志来获取用户行为,从而有针对性地对用户进行推荐,提高产品的价值。假如一天产生的日志量为300GB,则一年产生的日志量为300GB×365=107TB,这么大的数据量如何进行备份和容错?又如何进行分析呢?
Apache Hadoop是大数据开发所使用的一个核心框架,是一个允许使用简单编程模型跨计算机集群分布式处理大型数据集的系统。使用Hadoop可以方便地管理分布式集群,将海量数据分布式地存储在集群中,并使用分布式并行程序来处理这些数据。它被设计成由单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储功能。Hadoop本身的设计目的不是依靠硬件来提供高可用性,而是在应用层检测和处理故障。