1.5 不包含在本书中的内容
数据挖掘算法本身是很复杂的概念,而Hadoop系统上层出不穷的各种组件也都需要花费大量的篇幅来解释。
与其他介绍Hadoop技术和系统的书不同,本书的目的不是用来作大数据的教科书,因而重点不在数据挖掘算法和Hadoop技术本身,而是Hadoop在各种行业中的实际应用。
如果要把Hadoop系统的原理、上面各种部件的特性以及如何基于Hadoop作系统开发解释清楚,需要的篇幅不是一本书能够覆盖的,而且除了Hadoop核心系统之外,HBase、Pig、Hive、Sqoop、Yarn、Flume、Parquet、Crunch等子系统也都需要将其一一解释清楚,而其中有些概念甚至需要使用很大的篇幅,乃至一本完整的书,比如Spark系统就有多本关于它的著作。
我们来看一下在本书中没有包含的,不过又值得不同类型的用户花时间去阅读的内容。针对不同的读者,需要选读的内容也是不一样的。比如工作偏向于运维的,那么就需要去阅读Hadoop以及各个组件的操作指南。
本书中不包含的内容:
(1)大数据概念和相关的宏伟蓝图;
(2)数据挖掘的具体算法和实现;
(3)Hadoop的操作指南和手册;
(4)Hadoop上核心组件HDFS、HBase、MapReduce的详解和操作指南;
(5)Hadoop上其他组件Pig、Hive、Sqoop、Yarn、Flume、Parquet和Crunch等的详解和操作指南;
(6)Hadoop各种相关系统的源代码详解;
(7)Hadoop编程指南;
(8)Hadoop各种相关系统的部署指南。
对上述内容有兴趣的同学,可参见我们在附录中列出的文献和网站信息。
其实在中国的互联网领域,更多需要的是原创和真正能为读者带来价值的内容。互联网产品是这样,书也是这样,读者们并不需要读到一本又一本依样画葫芦的书。