2.1 大数据的种类、特点和应用
2.1.1 大数据的种类
互联网、物联网、云计算和社交网络等技术的兴起和快速发展已导致全球范围内的数据量呈爆炸式增长,数据在计算机中的存储单位已上升至PB,甚至EB、ZB级,而且正在向YB级别扩大,我们日常工作和生活的每个角落已经被海量的结构化和非结构化的数据所充斥,并且每天还在以惊人的速度增长。据美国互联网数据中心(IDC)2013年3月发布的报告统计,互联网上的数据在2012年和2013年翻了一番,达到了2.8ZB,预计到2020年,全球的数据量将会达到40ZB。图2-1是对全球数据量的分析和预测,可以明显地看到,未来几年全球的数据量会以更快的速度增长,我们正在步入一个大数据时代。
图2-1 全球数据量分析
Fig.2-1 The Analysis of Global Data
信息和通信技术的发展导致各行各业乃至个人每天都会生成和积累大量的数据信息,不论这些数据来源于何处,大致可以分成三个类别。
(1)人工生成的结构化数据:政府、企业、银行、电信运营商等部门在日常工作中每天会产生大量的联机交易和分析数据,这些数据由于价值和保密程度较高,一般是人工干预和组织的,它们一般都是结构化数据,是大数据的一小部分,因此应用通常的关系型数据库即可进行有效组织和管理。
(2)自动化监测系统生成的数据:物联网技术的发展导致大量的设施设备被纳入网络,在提高工作效率和给人们带来更多便利的同时,用于生产监测、交通监测等领域的传感器以及方便人们工作和生活的自助终端(POS机、银行的ATM机、ETC等),每时每刻都在自动生成大量的数据。这些数据非常多,其噪声和冗余也较多,利用价值不是很高,但在某些特定的场合,其中的部分数据是很有价值的,这就需要从海量数据中挖掘有用的信息。
(3)社交网络通信生成的数据。近几年来,社交网络的盛行导致网络上的用户自制信息日益剧增。微信、微博、图片、视频等交互式通信生成了大量的非结构化数据,这些数据的数据量非常大,种类繁多,动态更新,其中包含大量重要的信息,如果对其加以有效处理和应用,会产生巨大的实用价值。
2.1.2 大数据的特点
对于大数据,现在尚无一个准确、统一的定义。维基百科将大数据定义为:大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集[90]。这是一个对大数据粗略的描述。Gartner研究机构给出一个较为准确的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[91]。这个定义涵盖了大数据的一些基本特征,目前,一般认为大数据具备四个基本特征:数据量大(Volume)、种类多(Variety)、要求处理速度快(Velocity)、价值密度低(Value)。
2.1.2.1 数据量大
数据量大是大数据最基本的特征。各种智能设备每天会产生大量的数据,现在已达到ZB的数量级,数据量正在以几何级数增长。据不完全统计,一些中小型企业每天处理的数据量在几十G、几百G左右,而国内一些大型的互联网企业每天处理的数据量已达到TB级别。
2.1.2.2 数据种类多
进入大数据时代,不仅数据量呈爆炸式增长,而且数据种类日益变得繁多,复杂多变。目前大数据的种类主要包括关系型数据库事务处理产生的结构化数据,以网页为代表的半结构化数据和以音频和视频信息为主的非结构化数据等。非结构化数据是当前大数据的主流,包含大量的细节信息,蕴含巨大的实用价值,因此,大数据重点关注非结构化数据的处理。
2.1.2.3 数据要求处理速度快
全球数据量的迅速增长要求数据的处理速度也得到相应的提升,这样才能使数据得到有效的利用,否则,大数据不但不能为我们处理问题带来优势,反而会变成快速处理问题的负担。例如,商家的市场营销数据如果得不到及时的分析和处理,商家就无法及时准确地做出营销决策,从而会降低营销利润;另外,这些数据如果没有及时分析处理,也就失去了分析的意义,保留这些数据也几乎是毫无用处的,反而会因保留大量的几乎没有价值的数据而占用设施设备。因此,大数据的处理是有时效性的,如果得不到及时有效处理,大数据就会失去价值,变得没有意义。
2.1.2.4 数据价值密度低
这个特点主要针对的是非结构化数据。数据价值密度的高低与数据量的大小呈反比,随着海量数据的涌现,大数据的价值具有稀缺性、不确定性和多样性。以常见的监控视频为例,在刑侦领域,每天大量的监控视频数据被记录下来,但也许在长达几小时的视频中,只有几秒对于刑侦工作人员是有用的,价值密度很低。如何使用机器算法迅速地挖掘大数据的价值是目前需要解决的难题之一。
2.1.3 大数据的应用
大数据的“大”,不仅体现在数据量大,更体现在通过对大数据的分析和挖掘,创造更大的价值。美国麦肯锡咨询公司评估大数据可为各个部门创造重大的价值:①美国医疗服务业,每年价值3000亿美元,大约以0.7%的年生产率增长;②欧洲公共部门管理,每年价值2500亿欧元,大约以0.5%的年生产率增长;③全球个人位置数据,服务提供商收入1000亿美元或以上,最终用户价值达7000亿美元;④美国零售业,可能的净利润增长水平为60%或以上,以0.5%~1.0%的年生产率增长;⑤制造业,产品开发、组装成本降低达50%,运营资本降低达7%。表2-1[92]列出了典型大数据的应用比较。
综合来看,未来几年大数据将在商业智能、公共服务和市场营销三个领域具有巨大应用潜力。
2.1.3.1 商业智能
在过去的几十年里,人们都依赖来自Hyperion、Microstrategy和Cognos的BI(Business Intelligent)产品分析海量的数据并生成报告,但如果涉及决策和规划方面的问题,由于不能快速处理非结构化数据,传统的BI会非常困难。大数据技术最主要的功能是ETL(Extract、Transform、Load),现在计算和存储硬件价格非常便宜,而且配合许多开源大数据工具,人们可以非常方便地先抓取大量数据再考虑分析问题;另外,处理性能的大幅度提高使得实时互动分析更容易实现,而“实时”和“预测”将传统的BI带到了一个大数据预测的新境界。
2.1.3.2 公共服务
大数据的另外一个主要应用领域是社会和政府。随着全球各国政务的数字化进程的推进以及政务数据的公开化、透明化,人们将能准确了解政府的运作效率。这是不可逆转的历史潮流,同时也是大数据最具潜力的应用领域之一。
2.1.3.3 市场营销
大数据的另一大应用领域是市场营销,也就是提升消费者与企业之间的关系。当今企业与客户之间的接触点发生了根本的变化,从过去使用的电话、邮件地址,发展到现在广泛使用的网页、社交媒体、博客、微信等,在这些种类繁多的数据里跟踪客户,将他们的每一次点击、收藏、“顶”、分享、加好友、转发等行为纳入企业的销售记录中,并将其转化为商家的收入是大数据在市场营销领域的重要价值体现。
总之,大数据在各行各业都有巨大的应用潜能,将会为社会创造更多的经济效益,大数据的挖掘和有效分析具有重大的研究意义和很高的实用价值。近年来,全球对大数据问题都非常管关注,图2-2[93]是统计的截至2013年9月Scopus数据库中全球关于大数据的学术研究论文数量的比例分布,世界各国都轰轰烈烈地展开了对大数据的研究。