大数据技术与应用基础项目教程
上QQ阅读APP看书,第一时间看更新

任务1 概述大数据的内涵

【任务概述】

大数据已成为社会各界研究及关注的焦点。本任务着重介绍大数据的内在含义,其中包括大数据的多种定义表述、大数据产生的原因、大数据特性的演进以及在大数据时代才出现的一些数据计量单位。

【支撑知识】

近几年,大数据迅速发展成为科技界和企业界甚至世界各国政府关注的热点。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来。美国政府认为大数据是“未来的钻石矿和新石油”,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制将成为国家间和企业间新的争夺焦点。全球著名管理咨询公司麦肯锡(McKinsey&Company)首先提出了“大数据时代”的到来并声称:“数据已经渗透到当今各行各业的职能领域,成为重要的生产因素。”

数据的产生方式由“人机”“机物”的二元世界向着融合社会资源信息系统及物理资源的三元世界转变,数据规模呈膨胀式发展,例如,互联网领域中,谷歌搜索引擎的每秒使用用户量达到200万;科研领域中,仅某大型强子对撞机在一年内积累的新数据量就达到15PB左右;电子商务领域中,eBay的分析平台每天处理的数据量高达100PB,超过了纳斯达克交易所每天的数据处理量;“双十一”大型商业活动中,淘宝商城屡创神话,销售额由2010年的9亿元一路攀升到现今的1200多亿元,支付宝平台平均每秒成功交易12万笔,交易覆盖235个国家和地区;航空航天领域中,仅一架双引擎波音737飞机在横贯大陆飞行的过程中,传感器网络便会产生近240TB的数据。综合各个领域,目前积累的数据量已经从TB量级上升至PB、EB甚至已经达到ZB量级,其数据规模已经远远超出了现有通用计算机所能够处理的量级。

根据全球著名咨询机构互联网数据中心(Internet Data Center, IDC)做出的估测,人类社会产生的数据一直都在以每年50%的速度增长,也就是说,每两年数据量就会增加一倍,即已形成了“大数据摩尔定律”,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量之和。据IDC统计,2011年全球被创建和复制的数据总量为1.8ZB,到2020年这一数据将攀升到40ZB,是2012年的12倍。而我国的数据量到2020年将超过8ZB,是2012年的22倍。其中80%以上来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB)。目前,全球的数据量正以每18个月翻一番的速度呈膨胀式增长,数据量的飞速增长同时也带来了大数据技术和服务市场的繁荣发展。

一、大数据的定义

“大数据”一词由英文“Big Data”翻译而来,是近几年兴起的概念。往前追溯却发现由来已久,早在1980年就已由美国著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中,将大数据赞颂为“第三次浪潮的华彩乐章”。

“大数据”并不等同于“大规模数据”,那么何谓“大数据”呢?迄今并没有公认的定义,由于大数据是相对概念,因此,目前的定义都是对大数据的定性描述,并未明确定量指标。维基(Wiki)百科从处理方法角度给出的大数据定义,即大数据是指利用常用软件工具捕获管理和处理数据所耗时间超过可容忍时间限制的数据集。麦肯锡公司认为将数据规模超出传统数据库管理软件的获取存储管理,以及分析能力的数据集称为大数据;高德纳咨询公司(Gartner)则将大数据归纳为需要新处理模式才能增强决策力、洞察发现力和流程优化能力的海量高增长率和多样化的信息资产;徐宗本院士在第462次香山科学会议上的报告中,将大数据定义为不能够集中存储并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集。虽说这些关于大数据定义的定义方式角度及侧重点不同,但是所传递的信息基本一致,即大数据归根结底是一种数据集,其特性是通过与传统的数据管理及处理技术对比来凸显,并且在不同需求下,其要求的时间处理范围具有差异性,最重要的一点是大数据的价值并非来自数据本身,而是来自由大数据所反映的“大决策”“大知识”“大问题”等。

从宏观世界角度来看,大数据则是融合物理世界、信息空间和人类社会三元世界的纽带,因为物理世界通过互联网、物联网等技术有了在信息空间中的大数据反映,而人类社会则借助人机界面、脑机界面、移动互联等手段在信息空间中产生自己的大数据映像。从信息产业角度来讲,大数据还是新一代信息技术产业的强劲推动力。所谓新一代信息技术产业,本质上是构建在第三代平台上的信息产业,主要是指云计算、大数据、物联网、移动互联网(社交网络)等。

二、大数据产生的原因

“大数据”并不是一个凭空出现的概念,其出现对应了数据产生方式的变革,生产力决定生产关系的道理对于技术领域仍然是有效的,正是由于技术发展到了一定的阶段才导致海量数据被源源不断地生产出来,并使当前的技术面临重大挑战。归纳起来大数据出现的原因有以下几点。

(1)数据生产方式变得自动化

数据的生产方式经历了从结绳计数到现在的完全自动化,人类的数据生产能力已不可同日而语。物联网技术、智能城市、工业控制技术的广泛应用使数据的生产完全实现了自动化,自动数据生产必然会产生大量的数据。甚至当前人们所使用的绝大多数数字设备都可以被认为是一个自动化的数据生产设备:我们的手机会不断与数据中心进行联系,通话记录、位置记录、费用记录都会被服务器记录下来;我们用计算机访问网页时访问历史、访问习惯也会被服务器记录并分析;我们生活的城市、小区遍布的传感器、摄像头会不断产生数据并保证我们的安全;天上的卫星、地面的雷达、空中的飞机也都在不断地自动产生着数据。

(2)数据生产融入每个人的日常生活

在计算机出现的早期,数据的生产往往只是由专业的人员来完成的,能够有机会使用计算机的人员通常都是因为工作的需要,物理学家、数学家是最早一批使用计算机的人员。随着计算机技术的高速发展,计算机得到迅速普及,特别是手机和移动互联网的出现使数据的生产和每个人的日常生活结合起来,每个人都成为数据的生产者:当你发出一条微博时,你在生产数据;当你拍出一张照片时,你在生产数据;当你使用手中的市民卡和银行卡时,你在生产数据;当你在QQ上聊天时,你在生产数据;当你在用微信发朋友圈或聊天时,你在生产数据;当你在玩游戏时,你在生产数据。数据的生产已完全融入人们的生活:在地铁上,你在生产数据;在工作单位,你在生产数据;在家里,你也在生产数据。个人数据的生产呈现出随时、随地、移动化的趋势,我们的生活已经是数字化的生活,如图1-1所示。

图1-1 数据生产融入人们的生活

(3)图像和音视频数据所占比例越来越大

人类在过去几千年主要靠文字记录信息,而随着技术的发展,人类越来越多地采用视频、图像和音频这类占用空间更大、更形象的手段来记录和传播信息。从前聊天我们用文字,现在用微信和视频,人们越来越习惯利用多媒体方式进行交流,城市中的摄像头每天都会产生大量视频数据,而且由于技术的进步,图像和视频的分辨率变得越来越高,数据变得越来越大。

(4)网络技术的发展为数据的生产提供了极大的方便

前面说到的几个大数据产生原因中还缺乏一个重要的引子:网络。网络技术的高速发展是大数据出现的重要催化剂:没有网络的发展就没有移动互联网,我们就不能随时随地实现数据生产;没有网络的发展就不可能实现大数据视频数据的传输和存储;没有网络的发展就不会有现在大量数据的自动化生产和传输。网络的发展催生了云计算等网络化应用的出现,使数据的生产触角延伸到网络的各个终端,使任何终端所产生的数据能快速有效地被传输并存储。很难想象在一个网络条件很差的环境下能出现大数据,所以,可以这么认为:大数据的出现依赖于集成电路技术和网络技术的发展,集成电路为大数据的生产和处理提供了计算能力的基础,网络技术为大数据的传输提供了可能。

(5)云计算概念的出现进一步促进了大数据的发展

云计算这一概念是在2008年左右进入我国的,而最早可以追溯到1960年人工智能之父麦卡锡所预言的“今后计算机将会作为公共设施提供给公众”。2012年3月在国务院政府工作报告中云计算被作为附录给出了一个政府官方的解释,表达了政府对云计算产业的重视,在政府工作报告中云计算的定义是这样的:“云计算:是基于互联网的服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。是传统计算机和网络技术发展融合的产物,它意味着计算能力也可作为一种商品通过互联网进行流通。”云计算的出现使计算和服务都可以通过网络向用户交付,而用户的数据也可以方便地利用网络传递,云计算这一模式网络的作用被进一步凸显出来,数据的生产、处理和传输可以利用网络快速地进行,改变传统的数据生产模式,这一变化大大加快了数据的产生速度,对大数据的出现起到了至关重要的作用。

三、大数据特性

在大数据的定义中,已经包含了大数据的特性,即数据量大、处理速度要求快、价值密度低等,目前对于大数据的特性认可度较高的是3V特性:数据的规模性(Volume)、高速性(Velocity)及数据结构多样性(Variety),而在此基础上已经有不同的公司及研究机构对其进行了扩展,大数据特性描述的演化如表1-1所示。

表1-1 大数据特性描述的演化情况

由表1-1可以看出,随着时间的演化,业界对于大数据的认识也更深入、全面。除以上对大数据特性的通用性描述之外,不同应用领域的大数据的具体特性也存在差异性。如互联网领域需要实时处理和分析用户购买行为,以便及时制定推送方案,返回推荐结果来迎合和激发用户的消费行为,精度及可靠性要求较高;医疗领域需要根据用户病例及影像等信息判断病人的病情,由于其与人们的健康息息相关,所以,其精度及可靠性要求非常高。表1-2列举了不同领域大数据的具体特点及应用案例。

表1-2 不同领域大数据的具体特点及应用案例

由表1-2可以看出,不同应用领域的数据规模、用户数目及精度要求等均存在较大的差异,例如,互联网领域与人的正常活动息息相关,其数据量达PB级别,用户数目非常大,而且以用户实时性请求为主。与此不同,在科研领域中,其用户数目相对较少,产生的数据量级别在TB级。因此,对大数据后续的分析及处理必须因地制宜,才能实现大数据价值的最大化。

四、数据的计量

大数据出现后人们对数据的计量单位也逐步变化,常用的KB、MB和GB已不能有效地描述大数据。在大数据研究和应用时我们经常会接触到数据存储的计量单位。下面对数据存储的计量单位进行介绍。

计算机学科中一般采用0、1这样的二进制数来表示数据信息,信息的最小单位是bit(比特),一个0或1就是一个比特,而8bit就是一字节(Byte),如10010111就是一Byte。习惯上人们用大写的B表示Byte。信息的计量一般以210为一个进制,如1024Byte=1KB(KiloByte,千字节),更多常用的数据单位换算关系如表1-3所示。

表1-3 数据存储单位之间的换算关系

目前市面上主流的硬盘容量大都为TB级,典型的大数据一般都会用到PB、EB和ZB这3种单位。