社会远观:人文社科的大数据视野
上QQ阅读APP看书,第一时间看更新

第一节 大数据概述

想象一下,你现在在一家超市的饮料货柜面前,打算购买一瓶矿泉水,你可能会综合价格、产品质量选择农夫山泉、娃哈哈、怡宝等品牌。但你可能并未注意到,实际上,这些品牌矿泉水的摆放和包装策略,可能会提高你驻足抉择的概率。比如,若某一品牌的摆放位置可以让你轻松获取,你可能会在时间有限的情况下率先选择它;若某一品牌矿泉水的包装十分抢眼,你可能也会更青睐于它。

这时候,你可能会好奇:商家如何“准确”地把握了你的这些隐藏喜好?以“有点甜”的农夫山泉为例,早在2008年,农夫山泉就开始收集“消费行为图片”。在上海城乡接合部九亭镇的新华都超市,农夫山泉矿泉水静静地堆放在一个角落里。业务员每天都会来这里拍摄10张照片,记录水怎么摆放、位置有什么变化、高度如何……这样的点,每个业务员一天要跑15个,下班之前将150张照片共10M的数据量传回杭州总部。

在全国各地,农夫山泉有10,000个这样的业务员在拍照、上传。这样,每天将有100G的数据进入农夫山泉在杭州的机房。如果这些数据能够被进一步分析,或许就可以形成集摆放位置喜好、消费年龄、包装喜好甚至气温变化影响于一体的个体购买矿泉水的消费画卷。

农夫山泉不是大数据的首先使用者。早在20世纪90年代,沃尔玛就通过分析消费数据发现了啤酒与尿布的关联性,即负责买尿布的美国年轻父亲会顺便买啤酒。沃尔玛据此将尿布与啤酒摆放在一起,这一细节让其获得了满意的商品销售收入。2004年,美国著名计算机专家埃齐奥尼利用乘客飞行记录的价格信息,创立了一个预测机票价格走势和增降幅度的系统。2009年,谷歌公司的工程师通过对人们检索的流感词条的分析,预测了流感的出现范围。

从农夫山泉到沃尔玛,从埃齐奥尼到谷歌公司的工程师,聪明的企业家与技术人员们已经敏锐地捕捉并利用起了这种海量、多样性数据的巨大潜力:只要你留心,数据便可以经由分析这一链条,量化起我们生产、生活和工作的方方面面。

正如著名未来学家约翰·奈斯比特在《大趋势》中所预言的,近半个世纪以来,在传感网、物联网、社交网络等技术的迅猛发展下,人类在日常学习、生活、工作中产生的数据量正在以难以想象的速度增长。铺天盖地而来的多样性数据使我们在分析某一问题时,不再像最初的社会调查一样,只能遵循科学的抽样步骤抽取有限的样本量,根据自己的需求设计每一条想要获得的精确数据信息,在计量模型的辅助下探求难以捉摸的因果关系。

今天的我们可以尽情地使用跨越时空的全体数据样本,放下对结构化传统数据的执念——毕竟它只占人类社会数据总量的5%,转而以开放的心态拥抱剩下的95%——或许并不十分精确但更全面的、与我们关心的问题相关的图片、视频、文本等非结构化或半结构化数据。对这些数据进行描述和绘制图表,可以发现、展示一定的规律,开阔、启发我们的思维。

20世纪80年代,美国著名的未来学家、社会思想家阿尔文·托夫勒在其所著的《第三次浪潮》中首次提出“大数据”这一概念,并热情地将其称为“第三次浪潮的华彩乐章”1。1997年,美国国家航空航天局研究员迈克尔·考克斯和戴维·埃尔斯沃思在电气与电子工程师学会举办的第八届可视化会议上,首次界定了“大数据”的内涵:“通常情况下数据集相当大,耗尽了主存储器、本地磁盘,甚至是远程磁盘的存储容量,我们将这个东西称为大数据。”在这个阶段,大数据在气象、天文等科学领域被赋予了“大量的数据或数据集”的含义。

进入21世纪,这一“大量数据”的处理需求催生了新的处理技术,例如谷歌的MapReduce和开源Hadoop平台。这些技术不仅使我们可以处理的数据量大大增加,更重要的是可以帮助我们处理图片、文字、视频等“并不整齐排列”的非结构化数据。2004年起,脸书、推特、新浪微博等社交媒体相继问世,人们借助互联网实时互动、交流协同,每时每刻、随时随地创造着大量的非结构化数据,引发了真正意义上的数据爆炸增长。

2007年,计算机图灵奖得主詹姆士·格雷提出了科学研究的“第四范式”,即以数据为中心,以网络化、协同化和数据驱动为特征的数据密集型科学研究,标志着大数据正式登上科学研究的舞台。第二年,美国学术杂志《自然》(Nature)就设立了大数据研究专刊,大数据开始在学术界引起广泛关注。

2012年1月,瑞士达沃斯世界经济论坛提出,大数据如同货币或黄金一样,是一种新的经济资产类别。同年,时任美国总统奥巴马运用大数据进行募款、策划选举活动、宣传及选票预测成功竞选并连任的案例,引发对政治大数据的广泛讨论。许多国家纷纷将大数据的建设和发展上升为国家战略,如美国政府将大数据视为“未来的新石油”,率先提出 《大数据研究和发展倡议》,联合国发布了关于如何利用大数据更好地服务和保护人民的政务白皮书。在这个阶段,大数据已经有了信息资产的含义。

在国内,2012年,阿里巴巴率先提出企业数据化运营,在管理层设立“首席数据官”职位,负责全面推进“数据分享平台”战略,并推出“聚石塔”这一数据分享平台,为天猫、淘宝平台上的电商及服务商等提供数据云服务。2015年,《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号)发布,标志着大数据正式上升为国家战略。

维克托·迈尔-舍恩伯格及肯尼斯·库克耶在《大数据时代》中指出,大数据是人们在大规模数据的基础上发现和理解信息内容及信息与信息之间的关系,是人们获得新的认知、创造新的价值的源泉,也是改变市场、组织机构、政府与公民关系的方法,通常这一过程无法在小规模数据基础上完成。在社会科学学者的眼中,大数据不仅包含技术层面,而且是一个在合理时间内采集大规模资料并进行处理,帮助使用者更有效决策的社会过程。

目前关于大数据的认识形成了“5V”理论。第一,数据量大(volume),即采集、存储和计算的数据量都非常大。人类社会的数据量呈现爆发性增长,大数据中的数据不再以几个GB或几个TB为单位来衡量,而是以PB、EB或ZB为起始计量单位。第二,多样性(variety),主要体现为数据种类和来源的多样化。数据种类可分为结构化、半结构化和非结构化,其中又以非结构化数据为主。第三,高速性(velocity),表现为数据增长速度快,处理速度也快,时效性要求高。第四,价值性(value),表现为数据价值密度相对较低,但背后潜藏的价值巨大。第五,真实性(veracity),表现为大数据的准确性和可信赖度。

在我们介绍大数据的内涵和特征时,你或许已经有些疑惑:人类社会一直在面对和解决大量数据的问题,不断增长的数据并不是这个时代特有的产物,那么“大数据”的“大”究竟是指什么呢?其与“海量数据”“大规模数据”有什么区别?

要回答这一问题,我们可以从分析大数据的英文名称big data入手。英语世界里常用来表示“大”这一含义的有两个单词:large和big。在大数据的概念被提出之前,许多关于大量数据方面的研究都是使用large或vast,比如著名的数据库国际会议VLDB(Very Large Data Bases)就采用large形容“大”。large与vast的区别主要在程度上,vast可以看成very large的意思。big和large、vast的区别在于:big强调的是一种相对的大,是抽象意义上的大;而large和vast一般用于形容体量的大小。

或许这意味着,大数据的“大”不仅仅说明数据量更大、来源更多,而且有着内蕴更多和动态变化越来越大的趋势。

大数据之“大”,首先表现为数据量大,包括采集、存储和计算的量都非常大;其次表现为来源广泛和类型多样,包括互联网数据、科研数据、传感数据、商业数据等多个方面。

互联网数据是大数据来源的主力军。亚马逊、淘宝等互联网购物平台也在为数据生产创造价值,如亚马逊每天可以产生6,300万条订单数据,淘宝网站单日数据产生量超过5万GB,谷歌、百度、微博、脸书产生的数据更是巨大。

科研数据主要来自生物工程、天文、物理等领域的科学研究机构,这些机构往往具有计算高速、性能优越的机器,例如欧洲的国际核子研究中心装备的大型强子对撞机每秒可以发送4,000万次的数据,规模达到PB级别,即便过滤掉99.999%的无用数据,每年仍可产生25PB的数据。

传感数据是指由感知设备或传感设备感受、测量及传输的数据,包括各种传感器、红外感应器、射频识别系统、条码与二维码、全球定位系统等产生的数据。

商业数据主要是指企业生产、经营活动中产生的服务于决策的数据,比如公司的生产、库存、订单及供应链数据,销售系统数据,客户关系管理(CRM)数据,企业资源规划(ERP)数据等。

由此,人们在使用社交平台时产生的文本、图片、视频等数据,无数自动化传感器、自动记录设施、生产检测、环境检测、交通检测等产生的数据,来自各种自动化流程记录的数据,刷卡机、收款机、电子不停车收费系统、互联网点击、电话拨号等设施以及各种办事流程登记等产生的数据,通过互联网聚集到电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等处,汇成大数据的海洋。物与物、人与物、人与人连接在一起,形成物物相连的互联网,实时产生着形式多样的大规模数据。

最后,大数据的规模是一个相对概念,衡量大数据体量的标准会随着技术的进步和分析效率的提高而不断变化。字节(Byte,简写为B)是计量存储容量和传输容量的单位,1个字节等于8位(bit,简写为b)二进制,KB是千字节,MB是兆字节,GB是千兆字节,TB是千千兆字节。按顺序给出所有单位,B、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,它们之间的关系是:

1 KB = 1,024 B (KB-kilobajt) 千

1 MB = 1,024 KB (MB-megabajt) 兆

1 GB = 1,024 MB (GB-gigabajt) 吉

1 TB = 1,024 GB (TB-terabajt) 太

1 PB = 1,024 TB (PB-petabajt) 拍

1 EB = 1,024 PB (EB-eksabajt) 艾

1 ZB = 1,024 EB (ZB-zettabajt) 泽

1 YB = 1,024 ZB (YB-jottabajt) 尧

我们现在家用电脑的硬盘容量一般是1TB,而有专家认为,工业级的大数据要达到EB级。那么1EB数据到底有多大?它的数据规模是1,024×1,024TB,也即约100万个电脑硬盘的容量。当然,对于实际的数据分析特别是人文社科研究而言,数据规模一般没有这么大。