Hadoop与大数据挖掘(第2版)
上QQ阅读APP看书,第一时间看更新

1.1 大数据产生的背景

伴随着人类信息文明的跨越式发展,以及一波又一波的信息化建设浪潮,时至今日,大数据时代真的来临了。人类社会信息科技的发展为大数据时代的到来提供了技术支撑,而数据产生方式的变革是促进大数据时代到来的至关重要的因素。

1.1.1 信息化浪潮

根据IBM公司前首席执行官郭士纳的观点,IT领域每隔15年就会迎来一次重大变革(见表1-1)。1980年前后,个人微型计算机(Microcomputer)开始普及,尤其是随着制造技术的完善带来的计算机销售价格的大幅降低,计算机逐步进入企业和千家万户,大大提高了整个社会的生产力,同时丰富了家庭的生活方式,使人类迎来了第一次信息化浪潮。Intel、AMD、IBM、Apple、Microsoft、联想等信息企业成为第一次信息浪潮的“弄潮儿”。

表1-1 3次信息化浪潮

014-01

15年后的1995年,人类开始全面进入互联网时代,实现了世界五大洲数字资源的共享,并正式进入“地球村”时代,也从此宣布了第二次信息化浪潮的到来。这次信息化的“弄潮儿”是人们所熟知的Yahoo、谷歌、阿里巴巴、百度、腾讯等IT行业的互联网巨头。

又过了15年,在2010年前后,云计算、大数据、物联网、人工智能逐步进入人们的视野,从此拉开了第三次信息化浪潮的大幕。目前不少互联网企业如谷歌、亚马逊等已经创建了自己的“互联网大脑”,这些“互联网大脑”往往都以物联网作为触角,以云计算作为支撑平台,以大数据作为决策基础,实现对海量数据的处理。

事物的发展不是一蹴而就的,大数据时代的来临一样经历了多方面的技术积累和更替,而人类信息文明的充分发展是大数据时代到来的主要推手。可以说,信息技术的发展和不断的快速革新造就了信息量的指数级增长,而信息量的不断堆积直接造就了大数据概念的出现。随着相关技术的不断成熟,人们终于迎来了大数据时代。

1.1.2 信息技术变革

大数据时代的到来得益于信息科技的跨越式持久发展,而信息技术主要解决的是信息采集、信息存储、信息处理和信息显示4个核心问题。这4个核心问题的不断成熟的相关技术真正支撑着整个大数据时代的全面到来。

1. 信息采集技术的不断完善和实时程度的不断提升

大数据时代的到来离不开信息的大量采集。数据采集技术随着人类信息文明的发展已经有了质的飞跃。数据的采集越来越实时化,如随处可见的实时音频直播和实时视频传播。可以说信息的采集环节已经基本实现实时化,而信息延迟主要在信息传输和信息处理阶段。

2. 信息存储技术的不断提升

早期存储设备的信息存储量十分有限,而且体积庞大、价格高昂。闪存技术的进步使小型快速存储芯片得到了长足发展,而闪存芯片的发展也带来了移动通信设备尤其是个人移动手机的快速发展,为信息存储和应用直接开辟了移动端市场,不断地改变着人们的生活和生产方式。

3. 信息处理速度和处理能力的急速提升

信息处理速度主要依靠计算机处理核心(CPU)的运算能力。CPU单核心处理能力的演变长期遵循摩尔定律。如今提高CPU单核心主频带来的商业成本的成倍增加,直接促使技术模式由简单的提高单核心主频向多核心多线程发展。CPU的实际运算核心数量的增加,同样实现了运算速度的高速提升。

4. 信息显示技术的完备和日臻成熟

信息显示技术尤其是可视化技术近些年有了突破性进展,特别是随着图形像素技术的不断提升,图形显示越来越细腻、逼真和生动。图形显示技术的发展突破了简单文字显示和图表显示的技术界限,使得信息显示由一维、二维显示拓展到了三维乃至更多维度显示,给整个信息技术带来了从量到质的跨越式发展,也更加深远地影响着整个大数据时代的发展。

1.1.3 数据生产方式变革

大数据时代的到来依托于信息技术的不断革新和发展,而信息技术的发展又为大数据时代的到来提供了技术支持。信息技术的发展促进了数据生产方式的变革,而反过来数据生产方式的革新也倒逼着信息技术的不断发展和完善,两者相辅相成,互相促进。总体而言,人类社会的数据生产方式大致经历了3个阶段:运行式系统阶段、用户原创内容阶段和感知式系统阶段。

1. 运营式系统阶段

人类最早大规模管理和使用数据是从数据库的诞生开始的。大型零售超市销售系统、银行交易系统、股票交易系统、医院医疗系统、企业客户管理系统等大量运营式系统都是建立在数据库基础之上的,数据库中保存了大量结构化的企业关键信息,用来满足企业的各种业务需求。在这个阶段,数据的生产方式是被动的,即只有当实际的企业业务发生时,新的数据才会产生并存入数据库。比如,对于股票交易市场而言,只有当发生一笔股票交易时,股票交易系统才会有相关数据生成。

2. 用户原创内容阶段

互联网的出现使得数据传播更加快捷,例如数据不需要借助磁盘、磁带等物理存储介质进行传播。网页的出现进一步加速了大量网络内容的产生,使得人类社会数据量开始呈现“井喷式”增长趋势。但是,真正的互联网数据爆发产生于以“用户原创内容”为特征的Web 2.0时代。Web 1.0时代主要以门户网站为代表,强调内容的组织与提供,但大量用户本身并不参与内容的产生。而Web 2.0时代以微博、微信、抖音等应用所采用的自服务模式为主,强调自服务,大量用户本身就是内容的生成者。尤其是随着移动互联网和智能手机终端的普及,人们更是可以随时随地使用手机发微博、传照片等,使得数据量开始急剧增长。这些数据不断地被存储和加工,使得互联网世界里的“公开数据”不断被丰富,大大加速了大数据时代的到来。

3. 感知式系统阶段

物联网的发展带来人类社会数据量的第三次跃升。物联网中包含大量传感器,如温度传感器、湿度传感器、压力传感器、位移传感器、光电传感器等,每个传感器都是一个信息源,不同类别的传感器所捕获的数据是不同的,且传感器获得的数据具有实时性,按一定频率周期性地采集环境信息,不断更新数据。此外,视频监控摄像头也属于物联网中产生数据的主要设备。物联网中的这些设备,每时每刻都会自动产生大量数据,与Web 2.0时代的人工数据生产方式相比,物联网中的自动数据生产方式,将在短时间内生成更集中、更大量的数据,使人类社会迅速步入“大数据时代”。

1.1.4 大数据的发展历程

从发展历程来看,大数据的发展历程总体上可以划分为3个重要阶段:萌芽阶段、成熟阶段和兴盛阶段,如表1-2所示。

表1-2 大数据发展的3个重要阶段

017-01

大数据的主要发展历程如下。

1980年,著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中将大数据热情地赞颂为“第三次浪潮的华彩乐章”。

1997年10月,迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师学会(IEEE)关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的文章,这是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。

1999年10月,美国电气和电子工程师学会关于数据可视化的年会设置了名为“自动化或者交互:什么更适合大数据?”的专题讨论小组,探讨大数据问题。

2001年2月,梅塔集团分析师道格·莱尼发布题为《3D数据管理:控制数据容量、处理速度及数据种类》的研究报告。10年后,“3V”(Volume、Variety和Velocity)作为定义大数据的3个维度而被广泛接受。

2005年9月,蒂姆·奥莱利发表了《什么是Web 2.0》一文,并在文中指出“数据将是下一项技术核心”。

2008年,《自然》杂志推出大数据专刊;计算社区联盟(Computing Community Consortium)发表了报告《大数据计算:在商业、科学和社会领域的革命性突破》,阐述了大数据技术及其面临的一些挑战。

2010年2月,肯尼斯·库克尔在《经济学人》上发表了一篇关于管理信息的特别报告《数据,无所不在的数据》。

2011年,维克托·迈尔·舍恩伯格出版著作《大数据时代:生活、工作与思维的大变革》,引起轰动。

2011年5月,麦肯锡全球研究院发布《大数据:下一个具有创新力、竞争力与生产力的前沿领域》,提出“大数据”时代到来。

2012年3月,美国政府发布了《大数据研究和发展倡议》,正式启动“大数据发展计划”,将大数据上升为美国国家发展战略,被视为美国政府继信息高速公路计划之后在信息科学领域的又一重大举措。

2014年5月,美国政府发布2014年全球“大数据”白皮书——《大数据:抓住机遇、守护价值》,鼓励使用数据来推动社会进步。

2015年8月,国务院印发《促进大数据发展行动纲要》,全面推进我国大数据发展和应用,加快建设数据强国。

2017年1月,为加快实施国家大数据战略,推动大数据产业健康快速发展,工业和信息化部印发了《大数据产业发展规划(2016—2020年)》。

2017年4月,《大数据安全标准化白皮书(2017)》正式发布,从法规、政策、标准和应用等角度,勾画了我国大数据安全的整体轮廓。

2017年10月,十九大报告提出“推动大数据与实体经济深度融合”。

1.1.5 大数据时代的挑战

大数据时代下的信息技术日渐成熟,但是在高科技发展的今天,将大数据与现代生活融合仍面临诸多挑战。

1. 业务部门无清晰的大数据需求

很多企业的业务部门不了解大数据,也不了解大数据的应用场景和价值,因此难以了解大数据的需求。由于业务部门需求不清晰,导致企业决策层因担心投入产出比在搭建大数据部门时犹豫不决,甚至由于暂时没有应用场景,删除了很多有价值的历史数据。

2. 企业内部数据“孤岛”严重

企业开展大数据建设面临的最大的挑战之一就是数据的碎片化。在大型企业中,不同类型的数据常常散落在不同部门,使得同一企业内部数据无法共享,无法发挥大数据的价值。

3. 数据可用性低,质量差

很多企业对大数据的预处理阶段很不重视,导致数据处理很不规范。大数据预处理阶段需要抽取数据,将数据转化为方便处理的数据类型,对数据进行清洗和去噪,以提取有效的数据等。

4. 数据相关管理技术和架构

传统数据库部署处理TB级别的数据时十分复杂;传统数据库不能很好地考虑数据的多样性,尤其是在处理结构化数据、半结构化数据和非结构化数据的兼容问题时;传统数据库对数据的处理时间要求并不高。大数据数据库则需要实时地处理海量数据,还需要保证数据稳定,使服务器能够在支持高并发的同时减少服务器负载。

5. 数据安全

互联网的迅猛发展和数字经济的快速推进,使得全球数据呈现爆发增长、海量聚集的特点,对经济发展、社会治理、人民生活都产生了重大影响。数据作为前沿技术开发、隐私安全保护的重要内容,让数据安全的重要性提到了前所未有的高度。此外,在日常生产和生活中,每个个体、每台机器都在源源不断地产生海量数据,这就意味着对数据存储的物理安全性要求会越来越高,对数据的多副本与容灾机制的要求也越来越高。

6. 大数据人才缺乏

大数据建设的每一个组件的搭建与维护都需要依靠专业人员完成,因此必须培养一支掌握大数据、懂管理、有大数据应用经验的大数据建设专业队伍。

1.1.6 大数据时代面临的机遇

基于大数据潜在的巨大影响,很多国家都将大数据视作战略资源。大数据的发展也已上升至我国的国家战略层面,国内大数据产业发展非常迅速,行业应用得到快速推广,市场规模增速明显。总体来看,大数据技术和应用呈现纵深发展趋势和以下几个技术趋势。

1. 数据分析成为大数据技术的核心

数据分析在数据处理过程中占据十分重要的位置。通过对大规模数据集合的智能处理,我们可以从数据中获取有用的信息,因此必须对数据进行分析和挖掘,而数据的采集、存储和管理都是数据分析的基础步骤。数据分析得到的结果将会被应用于大数据相关的各个领域。

2. 广泛采用实时性的数据处理方式

信息具有时效性,一般来说,越新颖、越及时的信息,其价值越高,过时的消息的价值则会迅速降低。大数据强调数据的实时性,因而对数据处理也要体现实时性,如在线实时推荐、股票交易信息、各类购票信息、实时路况信息等数据的处理时间都要求在分钟级甚至秒级。

3. 基于云的数据分析平台将更加完善

云计算技术的发展为大数据技术的发展提供了数据处理平台和技术支持。云计算技术为大数据提供了分布式的计算方法以及可以弹性扩展且相对便宜的存储空间和计算资源。这些都是大数据技术发展的重要因素。