上QQ阅读APP看书,第一时间看更新
第1章 大数据概念的老调重弹
在本章中,我们为您解答下面这些大家关心的问题:
❖大数据究竟是什么?
❖数据能为我们做些什么?
❖大家都在说的“用户画像”究竟是什么?
❖大数据的3V指的是什么?
❖数据分析和数据挖掘的差别在哪里?
❖我们在实际的应用场景中会用到哪些数据挖掘算法?
❖数据仓库的概念是什么?
❖国内和国外的数据仓库应用有哪些区别?
❖本书究竟包含哪些内容?
各位高手已经写了很多关于“大数据”的书了,不过为了和后面我们要介绍的Hadoop作呼应,我们还是需要在这里简单描述一下我们眼中的大数据。
当我们看到Hadoop这个词的时候,经常会伴随着“大数据”的概念。确实如此,如果数据量不够大,不够复杂,使用Hadoop系统是不能为用户带来高价值的。
从2011年开始,大数据作为一项技术进入人们的视野,至今已经超过5年,而Hadoop的诞生是10年前的事情了。Hadoop发展最快的就是过去的这5年,和大数据技术的快速发展是同步的。在过去的5年中,大数据技术被各个行业所使用,而出现在各个不同应用场景上实际应用的系统就是Hadoop。
那么究竟什么是大数据呢?虽然我们这本书的重点是Hadoop的应用,而不是大数据或者数据挖掘本身,但我们在后面的篇幅中会看到的实际情况是,一半以上的实际应用案例都是和大数据或者数据挖掘相关的。
在第1章中我们用尽量精简的篇幅为大家介绍大数据和数据挖掘的概念。对于想要了解更多大数据概念的同学,如果对笔者的文笔还看得过眼的话,欢迎阅读拙作《New Internet:大数据挖掘》。虽然这本书是早在2012年写的,但是书中的观点和概念即使在今天依然是不过时的。