前言
近年来,“大数据”已然成为IT界如火如荼的词,与“云计算”并驾齐驱,成为带动IT行业发展的两列高速火车。尤其是在物联网快速发展的时代,数据已经被称为新的资源,是支撑物联网发展的基石。
那么,如何把“死”的数据变成真正有效的“资源”,成为近年来IT界人士共同思考的问题。一时间,各种大数据处理技术如井喷一般涌现。Hadoop、Spark、Storm、Dremel、Drill等大数据解决方案争先恐后地展现出来。需要说明的是,这里所有的方案并不是一种技术,而是数种甚至数十种技术的组合。就拿Hadoop来说,Hadoop只是“领头羊”,关键成员还有MapReduce、HDFS、Hive、HBase、Pig、ZooKeeper等,大有“八仙过海,各显神通”的气势和场面。
本书首先横向总结性地阐述了各种大数据处理技术,重点从缘起缘落、设计思想、架构原理等角度剖析了各种技术,分析了各种技术的优缺点和适用场景。本书并不涉及软件的安装等,因为如何安装和使用,在网络上搜索即可,着实没有必要浪费读者的时间和金钱。在这一部分,第1篇为Hadoop军营;第2篇为Spark星火燎原;第3篇讲述了其他大数据处理技术,如Storm、Dremel、Drill等。
其次阐述了大数据下的日志分析技术。在大数据时代,日志分析方案呈现出遍地开花的景象。如果将大数据处理系统比作一个可能得病的人,那么日志分析就是负责看病的医生,要想让大数据处理系统健康、平稳地运行,日志分析和监控非常重要。这一部分重点阐述了日志分析技术中如日中天的方案ELK。
最后展望了大数据处理技术的发展趋势。大数据处理技术发展迅猛,数据量越来越大,技术的革新在所难免。
作为大数据研发人员,只有时刻学习新技术,方能立于技术前沿。
由于时间仓促,书中难免出现不足之处,恳请读者指正。本书编写过程中得到了团队其他成员的支持,贡献力量的有张帅、王占伟、李峰、欧立奇等,在此衷心感谢朋友和家人的鼎力支持。
闲言少叙,直接上干货吧!亲爱的读者朋友,请吧……