第二节 人文社科视野
大数据的产生可能是自然的或随机的,但却能为我们理解世界提供坚实的基础。按照数据的产生方式,我们大体可以把大数据分为两类:一类是来自物理世界的自然科学大数据,另一类是来自人类社会活动的人文社科大数据。
想要更好地理解人文社科大数据,我们不妨先来了解一下大数据的第一种形式:自然科学大数据。
自然科学大数据来自客观物理世界,可以是天然形成的自然环境系统或生物的信息,也可以是通过科学实验所获得的海量数据,但往往需要借助专业的甚至非常昂贵的设备来获取。例如,位于贵州省黔南州喀斯特凹坑中的“中国天眼”,通过500米口径球面射电望远镜(FAST),以每日5TB左右的速度产生观测数据,开展对宇宙的探索;跨国跨学科的“人类基因组计划”,通过测定组成人类染色体的30亿个碱基对组成的核苷酸序列,绘制人类基因组图谱,并且辨识其载有的基因及序列,达到破译人类遗传信息的最终目的。这些横跨微观、宏观世界的观测和传感器设备,正在开启着数据密集型科学发现的新研究范式。
但自然科学大数据并不是本书所关心和讨论的对象。本书想讨论的,是产生于人类行为或认知,能够反映人类社会文化进程和状态的人文社科大数据。相比于自然科学大数据,人文社科大数据的产生则更多地体现了人的能动性。譬如,互联网上的信息是人文社科大数据的重要来源,而这些信息是由人的情感与意识的主观表达随机产生的、基于亿万人实践的行为痕迹,即人与人、人与物、人与工具、人与群体、人与环境等互动过程中被记录下的时空信息指标。从事人文社科大数据研究的学者,则要从这些看似杂乱无章的数据中寻找有价值的蛛丝马迹。
在谈到人文社科大数据的特点之前,我们先回顾一下传统人文社科研究使用的数据形式。传统的社科数据收集方式或遵循严格的抽样方法,并按照事先设定好的问题来获取;或是在某一个有限的空间和时间限度内对某小部分人群或社会活动进行观察和调研。这种基于问卷、个案、田野或实验的调查方法,能在某种程度上反映社会或文化的某个侧面,助力人文社科研究,但可能受到样本代表性、数据收集成本等因素的影响。
一个关于样本代表性和成本的经典案例就是1936年美国大选民意调查。当时,富兰克林·罗斯福是民主党候选人,阿尔弗雷德·兰登则是共和党候选人。《文学文摘》(The Literary Digest)杂志花费了巨大的成本进行问卷调查:从电话簿和车牌登记号中选出了1,000万人寄送调查问卷,最终收回了220万份。220万份调查问卷,即使在今天也是非常巨大的规模。这220万份调查问卷结果显示,兰登的支持率为57%,优势明显。但在两周之后的选举中,罗斯福的支持率达到了61%,大获全胜。与此同时,刚刚创业的乔治·盖洛普博士,通过在街头随机发放的3,000多份调查问卷,却预言罗斯福将击败兰登,并由此一战成名,从此“盖洛普调查”家喻户晓。
在这个案例中,何以220万人的调查结果不如3,000人的准确?原因很简单:《文学文摘》的调查样本,都出自家庭电话用户和汽车拥有者。而在20世纪30年代的“大萧条”中,这个群体中显然富人居多,他们大多支持共和党也就可以理解了。换句话说,非随机的、有偏差的、不具代表性的样本,即使规模再大,也没有参考价值。盖洛普的3,000人样本虽然规模很小,但通过街头随机访问,反而具有更好的代表性。
人文社科大数据较之传统调查问卷数据的优势在于更大、更全、更具代表性,这为更全面、更可信、更宏观地解读社会提供了全新的可能。
总的来说,人文社科大数据主要有以下几个特点。
第一,大规模与广覆盖。
人类行为每天大约能产生多少数据?泰晤士集团和Raconteur合作的“数据中的一日”(A Day in Data),汇总和预测了各大网络平台中留下的人类部分行为痕迹数据(图1.2.1)。仅在2018年,脸书上每天就会产生100亿条消息、3.5亿张图片和时长达1亿小时的视频;互联网搜索引擎每天要承载超过50亿次的搜索。到2021年,人类每天发出3,200亿封电子邮件。到2025年,人类每天产生的数据将高达463EB,这相当于每天需要4.63亿块1TB容量的家用电脑硬盘来储存。这么多的数据,一年下来会达到175ZB。按照我们家庭平均网速为10MB/秒计算,如果你要下载完这175ZB的数据,需要7.2亿年。
图1.2.1 数据中的一日
图片来源:https://www.raconteur.net/infographics/a-day-in-data/.
我们进一步举例说明人文社科大数据的海量。图1.2.2中展示的内容,看起来非常类似一个管道密布的工厂车间。其实,它是位于美国佐治亚州道格拉斯县的谷歌数据中心的服务器冷却系统。彩色管道旁的那辆G-Bike自行车,是谷歌员工在数据中心周边活动时的首选交通工具。从冷却系统的空间规模尺度上,你就能感知到,谷歌数据服务器的数量、容量和所散发的热量有多巨大。
图1.2.2 谷歌数据中心的服务器冷却系统
图片来源:https://www.google.com/about/datacenters/gallery/.
这些海量和多来源的数据为我们窥探和理解社会提供了更加全面的研究素材。事实上,尽管存在着大量记录人类行为和社会运行的数据资料,但人文社会科学研究者如何将其运用起来,从这些大数据中挖掘出有效信息,并从中归纳社会规律仍然是一个难题。事实上,人文社科大数据研究对数据的大小限制并不那么严格,由于数据获取途径和计算效率等原因,研究者也不可能将如此庞大的数据资料全部应用起来。他们往往是从某个研究角度出发,获取部分能够反映人文社科议题的数据:这些数据可以是推特用户在某段时间里关于美国大选的讨论,抑或是人们在搜索引擎中针对抑郁症的搜索次数,又或者是涉及战争的电影百年来的上映情况和主要情节。相比传统几十份至多上万份的全国社会问卷调查来说,这些数据收集的广度和维度会大得多。
第二,实时性与历时性。
从纵向的视角来考量社会进程和现状,是我们观察和分析人类社会运行的重要方式。在这一点上,人文社科大数据的优势,较之通过调查问卷获得的传统数据,特别是所谓横截面的切片数据,要大得多。所谓横截面数据,反映的是某个或某类社会现象在具体一个时间点上或一小段时间内的具体和平均状态,但难以展示事物发展的内在逻辑和演变机制。比如,调查问卷提问2020年你的幸福感、安全感和获得感如何,获得的其实只是你当下的感觉或者对过去一年的总体评估。如果要长期跟踪调查这样的问题,就必须进行历时调查。但是我们可以想象,对一个人进行10年跟踪调查需要极大成本,更不用说对成千上万的大规模样本进行长时空跨度的跟踪了。
幸运的是,人文社科大数据无论是在横截面还是在历时方面,都有更为强大的功能。这是因为,这类数据在产生和被记录的过程中往往都会标记上时间标签。因此,理论上,如果要截面观察,人文社科大数据可以实现以秒、分、时、日等多种瞬时单位来进行事件定义,或者随时进行数据的截取。同时,这类数据的产生往往是持续的,因此可以从10年、20年、100年甚至数百年的尺度上对这类数据进行不间断的收集和观察。
例如,2020年初新冠肺炎疫情突至时,社会学研究者通过各类社交平台,可以在足不出户的情况下分析网民每天的互联网行为和言论数据,实时把握疫情下的社会心态,而不需要花费大量人力、物力在事后收集相关的回忆数据。再如,如果你想了解10年以来人们对房价的关注度变化与房价的涨幅之间是否存在某种连带关系,通常需要研究者每年进行相关的问卷设计和调研,逐渐累积分析数据。但可惜的是,你已经不可能回到过去进行研究。但借助人文社科大数据,你可以通过百度搜索指数中“房价”的热度来衡量人们对房价的关注度——这种方式可追溯到2006年甚至更早的数据,极大拓宽了你观察和记录社会的视野,同时大大降低了数据的收集成本。
第三,群体层次与宏观视野。
传统的社会研究总是习惯从个体层次来收集数据——问卷的信息来自针对个体的问卷调查,但这会使得利用数据观察社会的学术或者思考行为过度聚焦于微观层面。实际上,很多社会科学定量研究,都使用了几千几万个个体样本,学者称此为“微观旨趣”。以社会学为例,我们把样本是人或法人等的研究,作为代表微观旨趣的典型性传统社会学定量分析,并简称其为“个体研究”;类似的,我们把以行政区划单位(如县、郡、市、州或国家)等为样本的区域层面研究简称为“群体研究”。接下来,我们以中美两国社会学专业的顶级期刊30年来发表的学术论文为例进行一个展示分析。
《社会学研究》1986—2020年发表的定量论文为586篇,而其中的分析样本层次为县、市、省等群体的仅17篇(历年变化趋势见图1.2.3上图)。类似的,《美国社会学杂志》(American Journal of Sociology)和《美国社会学评论》(American Sociological Review)1992—2019年发表的定量论文为1,282篇,其中群体层次研究仅157篇(历年变化趋势见图1.2.3下图)。总体上,我们认为当代社会学定量研究具有两个关系密切的特征:第一,分析对象维度呈现高度的个体锚定,这种锚定进一步导致研究者在理论维度上过度聚焦微观社会机制而不是宏观社会理论。第二,恰恰因为研究对象是个体,其研究时空跨度往往非常有限,大多数研究都聚焦于一年或数年内某个国家或地区。能够以较大时间跨度(如50年甚至100年以上)对宏观理论进行实证检验或对宏观系统进行定量剖析的研究少之又少。实际上,不止于定量研究,在整个社会学学科中,微观研究特别是微观理论从20世纪70年代起就大行其道。通过对百万数字化书籍大数据的研究发现,当前的全球社会学似乎进入了某种“后大理论”时代。
图1.2.3 《社会学研究》(上)、《美国社会学杂志》和《美国社会学评论》(下)发表论文的类型和样本层次
但为何我们观察社会、分析社会出现了这样的问题呢?除了方法论、本体论的差异之外,可能的原因有二。
其一,对区群谬误的矫枉过正。社会科学研究关注的变量间关系,在宏观群体层次和个体微观层次并不一定相同。例如,我们观察从墨西哥到美国的移民,就会发现:在州的层面,文盲率越高的州,移民比例越低,也即文盲率和移民率负相关;而在墨西哥移民的个体层面,是否移民和是否文盲正相关。因此,1958年社会学家塞尔文正式提出“区群谬误”(ecological fallacy)的概念。从20世纪50年代开始,个体问卷调查方法进一步成熟,社会学家纷纷转向基于个体或家庭数据的微观研究。随着时间的推移,20世纪末以来的整个定量社会学研究的空间粒度,被小心翼翼地框定在个体微观层次。
其二,宏观指标的稀缺。如果我们把观察社会发展陷入微观旨趣的现象仅归因于区群谬误,就无法解释在经济学领域特别是宏观计量经济学领域,基于县、市、省、国家等层面的宏观研究何以大行其道。问题在于:经济学家拥有从乡镇到国家等各级行政区划的宏观统计指标(诸如GDP、居民可支配收入、通货膨胀率、失业率、城镇化率等),而对于社会学家最关心的社会分层、社会流动、社会网络乃至幸福感、信任度等客观和主观的关键社会指标,绝大多数国家的统计部门均缺乏系统和长期的收集。这在相当程度上导致我们巧妇难为无米之炊,只能依托现有个体数据进行微观旨趣的研究。
相形之下,相当多的人文社科大数据,其产生过程有着非常清晰的宏观地域标签。因此,利用这一数据,你可以便捷地以县、市、省、国家为单位样本,进行宏观层面的观察和研究。这是一种社会科学研究的宏观转向:随着大数据越来越具有可及性,我们可以构建宏观社会指标并运用成熟的计量模型来识别宏观变量之间的相关关系和因果关系,这为重启宏观定量社会研究提供了很好的实践模式。
第四,独立性与隐私性。
人文社科大数据的独立性,也可以称作不反应性。众所周知,人文社科的研究对象是人及人类行为,相比于客观的物理世界,人类行为会根据实际情况进行实时调整。比如,当一个被研究者得知自己在被实验观察或采集信息时,往往会刻意或无意地控制自己的行为或隐藏真实情况,呈现给研究者一个被雕琢过的形象。这一点非常类似量子力学中对测不准原理的一种通俗化描述:当你用一个光子去照亮一个粒子以发现它的位置和速度时,你已经通过扰动改变了粒子的状态。
但大数据和传统数据的收集与研究逻辑是相反的。传统数据往往根据研究目的和研究设计,有针对性和目的性地收集相关数据,相当于在人们的日常生活中施加了某种外力;而大数据则是对人们日常行为痕迹的自然记录,研究者从已有可获得的数据中抽丝剥茧,整理并挖掘出研究分析所需要的素材,研究者和被研究者有意识的自我操控也自然被剥离在这种真实记录之外。或者说,恰恰因为大数据的产生往往不是单纯为了数据目的,所以数据来源者(社会大众)并不会在数据产生过程中加入表演的成分。
同时,也恰恰因为大数据是如此产生的,所以就具有了一种隐私性。作为社会分析者和观察者,我们只需要从宏观层面(县、市等)了解社会规律,而不用追溯到具体的个人,除非有法律的原因和动力导致我们要在大数据中追踪个体的具体行为。当个体的行为在县、市等宏观层面汇总时,即便是敏感的、人们不愿意透露的数据,此时也能在不侵犯隐私的情况下轻松获得。当然,代价就是不去获取个体的具体信息。
凡事都有一体两面,我们不是人文社科大数据的狂热信徒,自然也要站在客观的立场上直面大数据应用于社会观察的先天不足。
首先,即便是大数据也会有不完整性。例如,如果研究者从推特上获取数据,那收集到的不外乎那些喜欢用该软件并且乐于在推特上发表意见的用户的行为数据。可这些数据又如何反映那些不使用该软件或只习惯于在推特上获取信息而不发表言论的用户特点呢?再比如,一些大型电子数据库试图尽可能地收录人类社会的文化成果,如著名的互联网电影资料库IMDb,截至2020年6月已经收录6,534,894个作品条目,涉及电影552,366部,但仍存在对早期电影或部分小国电影挂一漏万的问题。当然,这些问题随着互联网的普及和资料库的不断完善正在不断得到改善。
其次,人文社科大数据难以用于分析个体微观行为的机制。倘若你想通过大数据去研究什么因素可以影响一个人的淘宝购物行为,就可能会因为无法获取微观个体的信息而大伤脑筋。显然,我们有途径获取海量ID的购物次数和关注内容,却因为隐私问题无法获知其性别、职业和家庭背景信息;即使能获知,也难以保证数据是真实可靠的还是个人拟定的虚拟形象。因此,人文社科大数据往往更适用于描述社会的总体面貌,而非解释微观的影响机制。例如,如果你把研究聚焦于宏观层面,把研究问题变更为“什么因素能够影响全国各个地区网民的购物力度”,则可以把地域的网络数据和地域的经济发展水平、城镇化水平、政治环境等宏观指标联系在一起进行有效的研究分析。
最后,数据的噪声和敏感问题也应得到关注。由于人文社科大数据往往不是专门为研究而收集的结构化数据,且表现为文本、图片、视频等形态多样、风格多变、主题分散的信息集合,因此如何从庞大冗余的信息中找到合适的“支点”来撬动数据,消除不必要的噪音和干扰,是人文社科大数据研究者需要解决的问题,否则只能导致数据灾难和信息灾难。例如,“网络水军”在微博上的痕迹,可能被当作网络民意而记录和分析,导致信息出现偏差,甚至有的购物网站下的顾客评论或许就是厂商雇佣“水军”写的。如何去除这些噪音,在什么观察主题或分析内容下需要去除,抑或判断它是否造成影响,都需要认真地梳理和研究。因此,要透过人文社科大数据分析、观察社会,聚焦的研究主题、合适的数据来源、精巧的处理方法都是必不可少的。当然,数据的获取、处理和分析仍要以尊重个人隐私为基础,避免产生相关的伦理道德问题。
人类社会的文化积累和人们的日常生活行为,在当今时代正在越来越多地转化为可记录的数据资料,为我们了解社会、透视社会和进行人文社会科学研究提供了前所未有的丰富材料。我们已经对人文社科大数据的产生和相关特点有了直观的感受:在我们惊叹于数据的数量、丰富性和及时性的同时,也要顾及数据的完整性和真实性,以及数据冗余带来的分析灾难;在我们享受大数据纵贯分析所带来的宏观震撼视角时,也应该考量微观解释的困境;在我们强调大数据的独立性和客观性时,也不得不面对大数据这一角冰山后面“沉默的螺旋”。
作为一个社会观察者或者人文社科研究者,在对大数据有了基本的认知后,自然会开始思考:在现实的研究工作中,我们可以具体从哪些平台收集到哪些数据?这些收集到的数据如何应用到具体的社会观察和研究中,度量我们的社会和文化呢?本章第三节将向你展示具有实操性的数据采集平台,以及具有借鉴意义的既往研究案例。