二、大数据和社会学研究有关系吗?
接下来讨论大数据和社会学研究有没有关系?我的观点是:有关系,目前还没那么紧迫。
咱们都是社会学的老师和学生,却常常“只缘身在此山中”,忘记了社会学基本范式的差别。为理解大数据与社会学研究的关系,需要简要回顾社会学的基本范式,然后再说明,如果大数据与社会学研究有关系,那么,与什么范式、有怎样的关系。
在社会学的想象力下,我把社会学的基本范式分成三大类,与传统区分的实证、诠释、批判,不大相同,纯粹是为了叙述的方便。第一类,我叫做思辨的社会学,比如说帕森斯(T.Parsons)的宏大社会系统,甚至福柯(M.Foucault)的多种理论,甚至吉登斯(A.Giddens)的社会结构理论等。这些社会学大家,都是从概念到概念的思辨,基本上可以完全隔绝数据。再譬如布迪厄(P. Bourdieu),早年做教育社会学研究时用数据,后来也不怎么用数据了,抽象了,思辨了。
第二类,我称之为诠释的社会学,从胡塞尔(E.G.A.Husserl)以降,舒茨(A.Schutz),甚至到格拉霍夫(R.Grathoff),这些人都围绕意义在做研究。对他们来讲,一个现象本身的代表性是没有意义的,他们观察的是一个现象本身,要阐释这个现象的意义,他们认为的意义。他们也可以不用数据。不过,我认为对意义的挖掘也会面对意义社会性的挑战。
第三类,我叫做实证的社会学,源于法国年鉴学派和美国社会学对帕森斯的反动。在第二次世界大战以后,获得了空前的发展。如果要在实证社会学与前两类之间进行区分,很简单,有没有假设检验是一个关键特征。实证社会学强调假设检验,强调用经验事实检验理论假设。由于在检验中要使用数据和统计方法,也因此被贴上了“定性”或“定量”的标签。
大数据与社会学关系最密切的是最后一类。实证社会学离不开数据,不管是什么类型的数据,什么形态的数据。刚才说,实证社会学在二战以后有一个大发展,大家可以看一个趋势。我用了两份文献,一份是普莱特的一部著作,她对美国社会学三份主流期刊(ASR, AJS, Social Force)的研究显示,1915—1924年期间,35%的研究用个案,53%的用统计;1955—1964年期间,用个案的下降至18%,用统计的上升到76%,其中ASR和AJS基本上排除了纯粹的社会理论文章,只要涉及社会事实的,都要有数据,不管是什么形态的数据。一份是中国的文献,北大社会学系的林彬教授和他硕士研究生王文韬的研究显示,2000年,实证化的趋势在迅速加强。现在的《社会学研究》没有证据的文章基本上发不出来。
对经验事实的刻画需要测量,对理论假设的检验需要测量数据,实证和数据密切地关联在一起,实证研究需要数据。可是,当我们对数据本身进行系统考察时却发现,数据并非因研究需要而产生。我的观察和探讨显示,数据最早源于管理活动的需要,后来慢慢地渗透到了社会科学的研究,直接影响了实证社会学的研究。
实证社会学过去的研究数据主要来自调查活动。二战以后,密歇根大学建立了社会研究院(ISR),调查数据开始逐步成为社会学研究的基础设施。在运用调查数据进行社会学研究的发展中,还有过一场辩论。基什(L.Kish)认为,与其花很多的钱进行人口普查,不如花少量的经费进行抽样调查。基什把自己对抽样调查的思考和想象,在世界各地传播,他也到过北京大学,我记得是20世纪90年代中期,专门在北京大学讲了一周的抽样调查,我学了整整一周。
调查数据还是社会学家手里的一类资源、一种权力。在大数据之前的数据,主要有三个来源,分别代表了三种资源和三个群体中手中的权力。第一是行政数据,各个政府掌握了身份数据、流动数据、登记数据、家庭数据,等等。第二是商业数据,譬如过去几百年的金融数据,都在商业公司手里。社会科学家到20世纪30年代才认识到数据的重要性,开始找数据、调查数据、运用数据,在搜集和运用数据的经历中,也认识到数据是研究者手中的资源,是让社会学声音具有独立性的支持力量。进而,与行政数据和商业数据一起,形成了三足鼎立之势。
大数据是痕迹数据的一种,与实证社会学研究有非常密切的关系。哥德尔和梅西2014年的文章认为,数据脚印是社会学研究的挑战,同时也是机会。有兴趣的可以找来读一读。我则认为,总体来讲,大数据的确给社会学研究带来了挑战,不过,现在还没有直接构成威胁。到底带来了什么样的挑战呢?接下来,我们做一些讨论。