1.2 大数据与大数据技术发展历程
1.大数据发展历程
在全球范围内,以电子方式存储的数据(简称为电子数据)总量空前巨大。2011年,电子数据总量达到1.8ZB(ZettaByte,泽字节,代表的是十万亿亿字节),相比2010年同期增加了1ZB,统计结果表明,每经过两年就可以增加一倍。
回顾大数据的发展历程,大数据总体上可以划分为以下4个阶段:萌芽期、成长期、爆发期和稳步发展期。
(1)萌芽期(1980—2008年):大数据术语被提出,相关技术概念得到一定程度的传播,但没有得到实质性发展。同一时期,随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用。1980年,未来学家托夫勒在其所著的《第三次浪潮》一书中首次提出“大数据”一词,将大数据称赞为“第三次浪潮的华彩乐章”。2008年9月,《自然》杂志推出了“大数据”封面专栏。
(2)成长期(2009—2012年):大数据市场迅速成长,互联网数据呈爆发式增长,大数据技术逐渐被大众熟悉和使用。2010年2月,肯尼斯·库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据,无所不在的数据》。2012年,牛津大学教授维克托·迈尔·舍恩伯格的著作《大数据时代》开始在我国风靡,推动了大数据在我国的发展。
(3)爆发期(2013—2015年):大数据迎来了发展的高潮,世界各个国家纷纷布局大数据战略。2013年,以百度、阿里、腾讯为代表的国内互联网公司各显身手,纷纷推出创新性的大数据应用。2015年9月,国务院发布《促进大数据发展行动纲要》,全面推进国大数据发展和应用,进一步提升创业创新活力和社会治理水平。
(4)稳步发展期(2016年至今):大数据应用渗透到各行各业,大数据价值不断凸显,数据驱动决策和社会智能化程度大幅提高,大数据产业迎来快速发展和大规模应用实施。2019年5月,《2018年全球大数据发展分析报告》显示,中国大数据产业发展和技术创新能力有了显著提升。这一时期学术界在大数据技术与应用方面的研究创新也不断取得突破,截至2020年,全球以“big data”为关键词的论文发表量达到64,739篇,全球共申请大数据领域的相关专利136,694项。
随着我国大数据战略谋篇布局的不断展开,国家高度重视并不断完善大数据政策支撑,大数据产业迅速发展,大致经历了4个阶段,如图1-2所示,正逐步从数据大国向数据强国迈进。
图1-2 大数据发展历程
2.大数据技术发展历程
大数据技术是指从数据采集、清洗、集成、存储、展示到分析,进而从各种各样的巨量数据中快速获得有价值信息的全部技术。目前所说的大数据有双重含义,它不仅指数据本身的特点,也包括采集数据的工具、平台和数据分析系统等技术。
在大数据时代,传统的软件已经无法处理和挖掘大量数据中的信息。谷歌在2004年前后相继发布了分布式文件系统(GFS)、大数据分布式计算框架——MapReduce、大数据NoSQL数据库——Big Table。受到谷歌的启发,2004年7月,Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能,也就是HDFS的前身。2005年2月,Mike Cafarella在Nutch中实现了MapReduce的最初版本。图1-3所示为大数据技术发展的全过程。
图1-3 大数据技术发展
在大数据的生命周期中,数据采集处于第一个环节。根据MapReduce产生数据的应用系统分类,大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。对于不同的数据集,可能存在不同的结构和模式,如文件、XML树、关系表等,表现为数据的异构性。对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成一个新的数据集,为后续查询和分析处理提供统一的数据视图。针对管理信息系统中异构数据库集成技术、Web信息系统中的实体识别技术和Deep Web(又称不可见网、隐藏网,是指互联网上那些不能被标准搜索引擎索引的非表面网络内容)集成技术、传感器网络数据融合技术等,业界人员已经做了很多研发工作,并取得了较大的进展,也推出了多种数据清洗和质量控制工具。这些工具包括美国SAS公司的Data Flux、美国IBM公司的Data Stage、美国Informatica公司的Informatica Power Center等。
3.大数据处理流程
一般来说,大数据处理流程包括数据采集、数据预处理、数据存储、数据分析、数据可视化,如图1-4所示。
(1)数据采集。数据采集又称数据获取,通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。
(2)数据预处理。要分辨清楚哪些数据采用批处理就可以了、哪些数据是有实时处理价值的。实时处理对技术要求高,毕竟集群资源是有限的,需要合理利用计算资源。
(3)数据存储。数据存储是一个使用存储库持久地存储和管理数据的集合,其中不仅包括数据仓库,还包括简单的存储类型,如简单的文件、电子邮件等。
(4)数据分析。将多份数据查询出来,互相关联合并,生成一张新的表单,然后可以在新表单的基础上进行查询或者再与其他数据关联合并。
图1-4 大数据处理流程
(5)数据可视化。数据可视化即数据的图形表示,旨在以更易于掌握和理解的有效方式传达大量海量数据。从某种意义上说,数据可视化是原始数据和图形元素之间的映射,它决定了这些元素的属性如何变化。可视化通常是通过使用图表、折线、点、条形图和地图来进行的。