3.2 思维转变之一:样本=总体
很长以来,因为记录、储存和分析数据的工具不够好,为了让分析变得简单,当面临大量数据时,社会都依赖于采样分析。但是采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物。如今信息技术的条件已经有了非常大的提高,虽然人类可以处理的数据依然是有限的,但是可以处理的数据量已经大大地增加,而且未来会越来越多。
大数据时代的第一个转变,是要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
在某些方面,人们依然还没有意识到自己拥有了能够收集和处理更大规模数据的能力,还是在信息匮乏的假设下做很多事情。人们甚至发展了一些使用尽可能少的信息的技术,例如统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。
3.2.1 小数据时代的随机采样
数千年来,政府一直都试图通过收集信息来管理国民,只是到最近,小企业和个人才有可能拥有大规模收集和分类数据的能力,而此前,大规模的计数则只是政府的事情。
以人口普查为例,据说古代埃及就曾进行过人口普查,那次由罗马帝国的开国君主恺撒主导实施的人口普查,提出了“每个人都必须纳税”。1086年的《末日审判书》对当时英国的人口、土地和财产做了一个前所未有的全面记载。皇家委员穿越整个国家对每个人、每件事都做了记载,后来这本书用《圣经》中的《末日审判书》命名,因为每个人的生活都被赤裸裸地记载下来的过程就像接受“最后的审判”一样。
然而,人口普查是一项耗资且费时的事情,尽管如此,当时收集的信息也只是一个大概情况,实施人口普查的人也知道他们不可能准确记录下每个人的信息。实际上,“人口普查”这个词来源于拉丁语的“censere”,本意就是推测、估算。
三百多年前,一个名叫约翰·格朗特的英国缝纫用品商提出了一个很有新意的方法,用来推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学。这个方法不需要一个人一个人地计算。虽然这个方法比较粗糙,但采用这个方法,人们可以利用少量有用的样本信息来获取人口的整体情况。样本分析法一直都有较大的漏洞,因此,无论是进行人口普查还是其他大数据类的任务,人们还是一直使用清点这种“野蛮”的方法。
美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的很多数据都是过时的。1890年进行的人口普查,预计要花费13年的时间来汇总数据。然而,因为税收分摊和国会代表人数确定都是建立在人口的基础上的,必须获得正确且及时的数据,所以就需要有新技术。后来,美国发明家赫尔曼·霍尔瑞斯(被称为现代自动计算之父)用他的穿孔卡片制表机(见图3-4)成功地在一年时间内完成了人口普查的数据汇总工作。这简直就是一个奇迹,它标志着自动处理数据的开端,也为后来IBM公司的成立奠定了基础。
这就是问题所在,是利用所有的数据还是仅仅采用一部分呢?有人提出有目的地选择最具代表性的样本是最恰当的方法,后来统计学家们证明,问题的关键是选择样本时的随机性,采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。
图3-4 霍尔瑞斯普查机
在商业领域,随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得更容易,花费也更少。本质上来说,随机采样让大数据问题变得更加切实可行。同理,它将客户调查引进了零售行业,将焦点讨论引进了政治界,也将许多人文问题变成了社会科学问题。
随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见,分析结果就会相去甚远。
3.2.2 大数据与乔布斯的癌症治疗
我们来看一下DNA分析。由于技术成本大幅下跌以及在医学方面的广阔前景,个人基因排序成为一门新兴产业。
从2007年起,硅谷的新兴科技公司23andMe就开始分析人类基因,这可以揭示出人类遗传密码中一些会导致其对某些疾病抵抗力差的特征,如乳腺癌和心脏病。23andMe希望能通过整合顾客的DNA和健康信息,了解到用其他方式不能获取的新信息。公司对某人的一小部分DNA进行排序,标注出几十个特定的基因缺陷。这只是该人整个基因密码的样本,还有几十亿个基因碱基对未排序。最后,23andMe只能回答其标注过的基因组表现出来的问题。发现新标注时,该人的DNA必须重新排序,更准确地说,是相关的部分必须重新排列。这样只研究样本而不是整体,有利有弊:能更快、更容易地发现问题,但不能回答事先未考虑到的问题。
苹果公司的传奇总裁史蒂夫·乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。他得到的不是一个标记的样本,而是包括整个基因密码的数据文档。
对于一个普通的癌症患者,医生只能期望她的DNA排列同试验中使用的样本足够相似。但是,史蒂夫·乔布斯的医生们能够基于乔布斯的特定基因组成,按所需效果用药。如果癌症病变导致药物失效,医生可以及时更换另一种药。乔布斯曾经开玩笑地说:“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人。”虽然他的愿望没有实现,但是这种获得所有数据而不仅是样本的方法还是将他的生命延长了好几年。
3.2.3 全数据模式:样本=总体
采样的目的是用最少的数据得到更多的信息,而当可以处理海量数据的时候,采样就没有什么意义了。如今,计算和制表已经不再困难,感应器、手机导航、网站点击和微信等被动地收集了大量数据,而计算机可以轻易地对这些数据进行处理。但是,数据处理技术已经发生了翻天覆地的改变,而我们的方法和思维却没有跟上这种改变。
在很多领域,从收集部分数据到收集尽可能多的数据的转变已经发生。如果可能的话,我们会收集所有的数据,即“样本=总体”,这是指能对数据进行深度探讨。
在上面提到的例子中,用采样的方法分析情况正确率可达97%。对于某些事物来说,3%的错误率是可以接受的,但是你可能会失去对某些特定子类别进行进一步研究的能力。
谷歌流感趋势预测不是依赖于随机样本,而是分析了全美国几十亿条互联网检索记录。分析整个数据库,而不是对一个小样本进行分析,能够提高微观层面分析的准确性,甚至能够推测出某个特定城市的流感状况。
通过使用所有的数据,可以发现如若不然则会出现在大量数据中淹没掉的情况。例如,信用卡诈骗是通过观察异常情况来识别的,只有掌握了所有的数据才能做到这一点。在这种情况下,异常值是最有用的信息,你可以把它与正常交易情况进行对比。而且,因为交易是即时的,所以你的数据分析也应该是即时的。
因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,所以就可以正确地考察细节并进行新的分析。在任何细微的层面,都可以用大数据去论证新的假设。当然,有些时候还是可以使用样本分析法,毕竟我们仍然活在一个资源有限的时代。但是更多时候,利用手中掌握的所有数据成为最好也是可行的选择。于是,慢慢地,我们会完全抛弃样本分析。