3 社会科学研究的三个基本原理
我认为,只有对社会科学研究的方法有深刻的理解,我们才能具体地运用统计的方法。如果没有这种基础知识支持的话,统计方法是没有太大用途的。很多人认为社会科学方法就是怎么样搞统计。懂统计固然重要,因为我们如果不懂统计、不会使用电脑的话就很难有成果,但是搞电脑、搞统计必须基于你对社会科学方法有很好的理解。今天的讲座中很重要的一个内容就是社会科学研究的三个基本原理。
我认为在社会学一百多年的历史中,最重要、最伟大的人物就是Otis Dudley Duncan。Duncan以前是我们学校的一位社会学家。我和他的想法很接近,所以说在很大程度上我的“三个基本原理”是在他的基础上发展出来的。他说:“社会学不像物理学。世上惟有物理学像物理学,因为对世界上的任何物理学的理解都已成了物理学的一部分。”把社会学当作物理学的一个延伸是完全错误的。社会学不像物理学,也不能像物理学。如果社会学是像物理学的东西,那么,既然已经有物理学了,还要社会学做什么?喜欢物理学的人可能不赞同这个观点,但是假如你理解社会学和物理学的差异,就会知道其中的道理。
我先介绍一下术语的定义。我讲的“社会科学研究”是指定量的社会科学研究;“基本原理”是指可以普遍适用于实际研究的方法,而不是由实际研究(即使是经典的研究)提供的结果。
我以前是研究科学史的。这一领域被自然科学史所主宰,大概80%~90%的科学史都是关于自然科学史的研究。你要是读自然科学史,就能体会到柏拉图对西方科学和哲学有极大的影响。Alfred Whitehead,一位哲学家、数学家曾这样说:“欧洲哲学传统最可靠的特征是,它是由关于柏拉图的一系列注释所组成的。”所有欧洲传统的东西甚至包括牛顿的东西,都是对柏拉图的注解,他就把柏拉图上升到一个这么重要的位置。
为什么柏拉图在西方科学史上有如此重要的地位呢?柏拉图的一个很重要的贡献就是区分了本质的世界(world of being)和形成的世界(world of becoming)。这两个世界对柏拉图来说是很重要的。柏拉图为什么要做这样的区分呢?柏拉图说,你想做一个好的哲学家(也就是科学家),就要有很好的理解能力。你必须超越你能够观察到的世界,即当前面对的这个形成的世界,这样你才能对本质的世界有很好的理解。你不能看表面而要看实质,实质就是你看不到的东西,也是永恒的东西。对柏拉图来讲,真实的知识存在于普遍而且永恒的法则之中。对柏拉图来说,这就是真理。真理是普遍的、永恒的。真理不是存在于一个具体的事物之中。他把本质的世界分出来,就是说看世界不能看具体的东西,研究具体的东西你就不能看到实质。我们中学时候都学过几何,研究过圆。圆是什么?在欧氏几何里,圆是一个平面上离一个点距离相同的点的集合。谁见过圆?比如说我们看见那个钟是圆的。但是对于柏拉图来说那不是圆,因为它不可能是理想的圆,它不是由到定点等距离的点组成的。圆是抽象的,对柏拉图来讲,要研究圆的特性,你就不能研究那个圆(钟),即不能研究任何一个能够看得到的东西。圆的特征是永恒的、不变的、稳定的。这个特征只有在哲学家的脑袋里才有,具有这个特征的只能是抽象出来的东西。所以说,柏拉图让我们做的是透过现象看本质,要把形成的世界忽略,而把本质的世界看透。
为什么这样好?因为你一旦看透了本质的东西,就可以把它应用到生活中的任何方面。比如说,圆的特性你已经知道了,那么尽管有无穷无尽的具体的圆,但它们都遵循着同样的规律,就是你已经知道的圆的特性。这就是科学的一个很大的用途。为什么科学那么神圣?为什么大家都在讲科学这个、科学那个?历史上,科学在中国文化里面并不是占据很高的地位。在西方的哲学里,从柏拉图开始,科学就从哲学中分离出来,这是因为科学是永恒的,它的永恒性和普遍性是放之四海而皆准的东西。柏拉图认为法则是存在的,它有一个创造者。他这里的创造者不是宗教意义上的创造者。因为有了这些法则的存在,我们才可以发现。大家可以理解“科学发现”这个词实际上有需要推敲的地方。什么叫发现?发现意味着本来就有东西存在于那里。假如没有东西在那里,就应该叫做发明。发现是指以前就有一个人很聪明、很伟大,很早就把东西藏在那里,然后等我们去发现、去整理。那些被藏起来的东西是很好的、很有规律的东西,也就是普遍的、永恒的真理,是关于圆、关于三角形、关于世界的所有的科学的东西。牛顿也好,爱因斯坦也好,把原有的美满、永恒的真理发现出来,这就是科学的发现。
在柏拉图的哲学思想中,真理是永恒的而不是变异(variation)的。但是在实际生活中,就是柏拉图自己也知道变异是存在的。所有的圆都是不一样的,所有的东西都是不一样的。任何事情要是做比较的话,你都会发现变异和差异。柏拉图对变异的理解是什么呢?变异是对本质的世界的拙劣复制。比如说我们有个蓝图,要做一个零件,你不可能每个都做得一模一样。虽然蓝图上说是5公分,但是做出来的零件不可能刚好是5公分。根据柏拉图的观点,这就是形成的世界和本质的世界的关系。本质的世界是一个真理,它排除了差异,但是你复制的时候总会出现变异。比如说你做这个钟,圆的直径是多少,你按照这个把它做出来。一旦你先做出一个模子,这个模子必然不是标准的,这就发生了变异。模子造出来之后再去造具体的钟的时候,还是会发生变异,最终导致现实的差异,也就是每个钟的直径都不一样,每个钟的快慢也不一样。
在柏拉图看来,这些变异都不好,也都是不重要的。在他看来,世界的本质是不连续的、抽象的、单一形式的,而具体的东西总是连续的,也就是说,各个具体的东西之间总有各种差异相衔接。物理学中的伟大成就就是遵循柏拉图的类型逻辑思维的结果。类型逻辑思维(typological thinking)就是说类型是最重要的,真理存在于物与物之间类型的差别上,而不是存在于量化的差别上,也不是存在于具体的物的差异上。柏拉图的哲学也同样解决了科学和宗教的潜在矛盾。举个例子来简单地说明一下。有人说哥白尼的天文学是对宗教提出的一个很大的挑战。实际上,哥白尼的天文学是受到宗教影响的。哥白尼为什么要提出日心说?因为日心说比地心说更加简化、更加理性化、更加漂亮。漂亮的世界一定是上帝创造的。而地心说的数学模型非常复杂,哥白尼认为这不可能是上帝创造出来的。他对科学的解释不像我们以前所说的“实践是检验真理的唯一标准”那么简单。科学的可信性在于简化。科学的东西、美妙的东西一定是简化的。伽利略、牛顿对科学的解释与哥白尼是很相似的。
偏差(deviation)是什么?按照类型逻辑思维,偏差是不好的东西,是我们不希望得到的结果。通过抽象思维把这些偏差忽略掉之后才能得到真正的知识。比如说你研究具体的圆,因为它不是标准的圆,所以得不到真理,但是如果把偏差忽略了,就可以得到真正的知识。你想想,中学的时候,老师画的每一个圆其实都是不圆的,但是我们把那些不圆的表象都忽略了。
在统计学方面,有两个很伟大的统计学家:一个是Jacob Bernoulli,他最大的贡献是大数定律(Law of Large Numbers);另一个是Pierre-Simon Laplace,他的最大贡献是中心极限定理(Central Limit Theorem)。他们提供了测量不确定性的数学方法。比如说刚才那个做零件的例子,现在假设有一个零件实际上是5公分,让20个学生用很精确的仪器来测量。每个人测出来的一定不是5公分,有的多一点而有的少一点。这就奇怪了:为什么对同一个东西会测量出不同的常数呢?这里就存在一个误差(error),这个误差是人为的。怎么办呢?把所有的误差加起来平均一下,平均数的基数越大,平均数就越可靠,与真实值也就越接近。这就是大数定律的内容。现在假设每次都随机地找n个人来测量,从而每次都能得到一个基数为n的平均数。如果n比较大,但是相对于总数来说又很小(这个例子中总数是无穷大,因为你可以让无穷多的人来测量),那么做了无数次的平均数之后,就会形成正态分布,它们的平均值就是真实值。这就是中心极限定理的意义。实际上这个例子中的误差是真实的误差。为什么这样说呢?真实的常数只有一个,因为很多人在不同时候、不同温度下测量,所以结果不一样,这种误差可以通过统计补偿(statistical compensation)来抵消。
Quételet说,我们知道社会数据存在很大的不确定性,但是我们可以通过测量理论来解决。任何一个现象的量数都有差异。比如人的高度,每个人的高矮是不一样的。但我们把所有人的高度放在一起,就会形成一个分布,而且是一个正态分布。可能在今天和明天做的抽样中,你和他的身高不一样,但是所有人身高的平均值始终是一样的。于是他提出一个普通人(average man)的理论。柏拉图说真理是永恒的、不变的,那么社会科学里什么是永恒的、不变的东西呢?Quételet的办法就是取平均值(mean/average),他认为平均值就是社会科学追求的那个不变的、永恒的真理。为什么可以这么讲?这是因为测量理论可以应用到社会现象。任何一个社会现象的量数都是有差异的,但是这些量数的平均数是永恒的,这些量数都遵守正态分布。Quételet说:“偶然原因法则是可以应用到个体和群体的一般法则,它支配着我们的道德、智力素质,正如它支配我们的身体素质一样。”他关注的内容包括不同国家、不同地区、不同组织、不同年龄间平均数值的差异。平均数是不变的,那是因为存在一个法则,它是不变的原因。他甚至把这个普通人上升到伦理学的角度,普通人应该具有善良、崇高、美好的品质,最好的人是普通人。我们一般都讲最好的人是在金字塔最高处的人,先是最高领导人,然后慢慢下来,是院长、所长、组长。对Quételet来讲,最好的就是平均的,既不高也不矮,既不胖也不瘦,既不富也不穷。
从柏拉图的类型逻辑思维到Quételet的普通人理论,在很长一段时间里它们是西方科学的主流,但是这个主流思想受到达尔文的总体逻辑思维(population thinking)的挑战和修正。我现在要讲的就是达尔文的总体逻辑思维。大家都知道达尔文提出的自然选择理论对生物学做出了很大的贡献。实际上,达尔文的贡献对社会科学也非常重要。对达尔文来讲,变异是真实的,不是令人不悦的失误部分。达尔文的《物种起源》第一章就是“自然状况下的变异”(Variation under Nature),第二章就是“家养状况下的变异”(Variation under Domestication)。达尔文的思想中最重要的一个观念就是变异。虽然父母都一样,环境也一样,但是每个个体的后代都是不一样的。假如他们都一样的话,就不可能有变异,更不可能有自然选择。为什么有自然选择?比如说鱼,生下来的时候有成千上万条,这些鱼都是不一样的,如果这些鱼都长得一样就不可能有选择,也不可能选择出与自然环境更匹配的。变异特征还可以从上一代传到下一代。比如说在寒冷的海域,抗寒的鱼活下来了,接着通过繁殖,它们下一代中有一部分就更抗寒。也就是说,下一代可能是很不一样的,要不然的话就没有自然选择了。这个很重要,因为它说明了自然选择的基础——每个个体之间的差异性。而个体的差异来自每一代在繁殖过程中产生的丰富的变异。每一代的变异很多,但是只有少部分的变异能够存活下来并通过繁殖复制自身。
这就是总体逻辑思维,它和统计有什么关系呢?在类型逻辑中平均数是主要的内容。在总体逻辑中重要的是差异,平均数只是总体的一个特征值,是探讨真实原因的手段,而不是原因本身。这是两者之间很重要的一个区别。总体逻辑认为平均数只是总体的一个特征值,而在类型逻辑看来平均数代表着真理。William Jevons说其实mean和average是不一样的。比如说长度,同一个人的身高测量50次得到的数据是不一样的,50个人的身高分别测量一次得到的数据也是不一样的。前者是mean,后者是average。做这种区分是因为这两组数据出现差异的原因不同。前者实际上是一个测量的误差,它真实的东西只有一个;而后者则是50个人之间的真正的差别,这个差别并不是误差,而是实际上的差异。社会科学的重要性在于研究为什么个体和个体有差异,而不只是比较平均数。当然,平均数也是很重要的,比如说男性的平均工资比女性高,但是谁都知道有的女人的工资比男人高。我们也知道女性的平均寿命比较长,但也有女性早死。所以说平均的差异不能代表所有的个体和个体之间的差异,这是个很重要的概念。Francis Edgeworth也做过类似的区分。
达尔文是生物学家,他没有做过具体的社会科学的研究,那么社会科学的研究是谁开拓的呢?是他的表弟Galton,也是英国人。他把总体逻辑思维引入社会科学。对他来讲,平均数的价值是有限的,他认为个体差异是真正重要的东西,所以Quételet的社会物理学看上去很漂亮,但是在社会科学中几乎没有什么用途。对社会科学不了解的人就会和Quételet想的一样,重视平均数,他不知道平均数后面掩盖了多少重要的东西。平均数并不代表一切。Quételet在社会科学里的影响相对来讲是很小的。那么社会科学的侧重点在哪里呢?应该看差异在哪里,应该把重点集中在变异(variation)和共变(covariation)上。Galton是现代统计学的始祖,我们先讲他的共变。假如不注意个体和个体之间的关系,你不可能讨论这些东西。正因为考虑到了个体和个体之间的差异,他才提出了对变异和共变的测量。有这样一个比较有名的例子,是关于父亲高矮与儿子高矮关系的。如果父亲高,儿子的身高也偏高。但是父亲高有可能是因为运气的原因,儿子可能没有父亲运气那么好,只是偏高,但是没有父亲高,这就是回归(regression)。假如父亲很矮,有矮的基因,那么儿子就会偏矮,但是不一定比父亲还矮。在每一个阶段都存在重新再分布。也就是说,你的身高取决于你父亲的身高,但你究竟有多高是不能决定的,只能是随机的。
现在讲社会科学中变异性的独特之处。我认为社会科学的变异性比生物学的变异性更复杂,也更重要。这可能是一个新的观点。许多变异,特别是达尔文说的变异实际上是指当个体生下来的时候就已经完成了的变异。就拿刚才说的鱼来讲,一条鱼是否通过变异产生了抗寒的性质是在出生之前通过遗传和环境的相互作用就决定了的。而我们所说的变异,不仅是指个体间的变异,也包括同一个体在成长过程中的变异。我们说的这个变异是指你不但和你的父母不一样,而且你今天和明天也会不一样。比如说你今天听了我的课,虽然明天你人没有变,你的基因没有变,环境也没有变,但是你的行为变化了。我们说的变异性除了指个体与生俱来的变异性外,还有个体在发展中产生的变异性。后面这种变异是受不确定因素影响的。达尔文讲的变异性是指可以从上一代遗传下来的变异性。实际上我们说的人类行为的变异性不一定是可以遗传的,也不一定是有物质性载体的。比如说你到这里来听我的课,你学到的东西是遗传不下去的,除非你教给你的子女,但这并不能说你可以通过基因的形式遗传下去。还有一个很重要的,就是马克思主义理论强调的一点,即人类能够改变影响他们自身的环境,这就是我们讲的社会运动和政治、经济制度的改造等等。下面一条,经济学家很重视,就是说人的行为是理性的,人能以可以预期的结果作为行动的基础。比如说上学,你认为上学对你有利,你才来上学。1992年诺贝尔经济学奖得主Gary Becker,就是以理性行为的理论获奖的。他说婚姻就是理性的,结婚会有好处,如果不好的话,比如男性没有钱、没有经济依靠等就不会结婚。结婚不结婚就以理性因素做基础,上不上大学,来不来听课,你和领导的关系,请客吃饭等等,都有理性基础。也就是说,所有的行为不是随机的而是经过理性计算的。还有一个就是我们所说的历史性路径依赖(historical path dependence),也就是说以前发生的事对现在还有影响。我们不可能把以前的东西取消重来。以前发生的事情影响将来,这是社会科学中变异性的一个独特之处,即使是偶然发生的事情对将来也可能会有很重要的作用。结过婚的人可能知道,你当时认识你的爱人可能是通过非常偶然的机会,认识之后就发生了很多事情,以后就是你想改变也改变不了。发生了就是发生了,以后的事都是以已经发生了的事为基础,这是不可能改变的事实。你听了这门课,或者做错了什么事,也是不可能去掉重来的。这就是一个路径依赖的问题。路径依赖是很重要的,等一下我要讲它会造成怎样的影响。
以上讲的是社会科学研究中与哲学、与历史有关的部分,下面我开始讲社会科学研究的三个基本原理。
第一个原理叫变异性原理(Variability Principle)。变异性是社会科学研究的真正本质。我们不是研究类型的,而是研究变异和差异的。当然,差异也有可能是组与组之间的差异。比如说我刚才讲了,男女之间的收入不一样,假如说男女收入是一样的话,那么我们就不会认为性别在研究收入这个现象中是一个有趣的、重要的东西。我们之所以要研究性别收入差,就是因为有差别的存在。虽然这是一个组间差别,但是我们的重点还是在差异上,比如说种族之间的差异、家庭背景之间的差异、教育的差异、家庭婚姻的差异等等。你仔细想一想,我们研究的东西是差异,而不是共性。类型之间的差异也是差异,只不过是一个特例而已。下面我就会讲到,类型之间的、组与组之间的差异是随着研究对象的变化而变化的。
下面讲第二个原理:社会分组原理(Social Grouping Principle)。为什么要分组?因为社会分组可减少组内差异。个体之间是很不一样的,但是个体可以分成组,比如分成年龄组、性别组、家庭背景境况组等等。分组显示了组与组之间的差异,这意味着每个组里面有相对组外来说更高的共同性。如果一个组当中没有共同性的话,那么组和组之间就没有差异性。如果女人没有共同性的话,那么就不可能有男和女的差异。同样的道理,每一个组当中有相对来说比较相似的特点。我们分组是基于组员之间有一定的共同性,分组以后组与组之间就有差异性。
什么是社会分组(social grouping)?我并不想在分组是唯名的还是唯实的之间有所选择。组有可能是实在的,也有可能是唯名的。这和马克思主义的阶级观念不一样,马克思主义认为社会关系建立在所有权上。我认为到底用名称还是真正的物质基础来划分不是很重要,社会分组只有根据社会结果(social outcomes)来分才会是有意义的。我不是看你分组的原则是什么,是真的还是假的,是符合这个理论还是那个理论。从统计的观点来讲,分组的意义在于它有利于研究社会结果的差异。我刚才讲的收入,假如男女之间没有收入差异的话,那么对于收入而言,根据性别分组就不重要。我是研究人口的,比如我们要研究人的死亡率,这就要考虑性别,因为不同性别之间的死亡率差很多。反过来说,假如性别之间没有死亡率的差异,那我们就不要考虑以性别来分组。分组的意义在于它是否能解释差异,所以社会分组应用于不同的社会结果或许会有不同的意义。比如说种族、民族、社会阶层、家庭背景、党派、政治面貌等很多分组,这些分组在不同的社会结果下的意义是不一样的。比如说你的政治态度和你的死亡没有关系,有关系的可能是政治态度与社会经济地位的关系,政治态度对你行为的影响。比如说,政治运动来了,你到底是参与还是不参与?这时你的政治倾向就和分组很有关系。而政治倾向和死亡率根本没有关系,至少没有直接的关系,而只是伪相关(spurious correlation)。假如说我要研究你的政治行为,那么你的政治态度和分组就很重要。
社会分组能减少社会结果的差异性,减少得越多,社会分组就越有意义。下面我会讲为什么会这样。我刚才说了,社会科学所要理解和解释的就是差异性。实际上社会科学最想做到的和柏拉图提出的并没有什么两样,我们想提供的也是很简单的、永恒不变的东西。我们能做到的话,很好,但是我们却做不到。那做不到怎么办呢?我们只能做一个妥协,也就是说,我们不可能把所有的信息都告诉人们,那么就告诉人们大量信息中很少的一部分。比如说有10亿个人,有10亿个信息,这么多信息我根本不能告诉你,连我自己都不能够消化。我只能把很大的总体中的一部分信息告诉你,用的参数越少,信息就越简单,就越容易理解和讨论。比如说平均数,它也是大的总体里面的一个信息,这个信息可以理解,可以在相互之间传播。当然,平均数是一个比较粗的信息,也可以不用平均数。我只用两三个数值就可以告诉你男女之间有什么不一样,如受教育程度不一样,死亡率不一样,收入也不一样。或者我就告诉你教育的增加和收入的增加有什么关系,这只是一个参数。我想概括的总体的参数越少越好,与柏拉图讲的科学是一样的。也就是说,告诉你的信息里参数数据越少越好,越精越好,这和自然科学是一样的。但是你应该知道,这只是一种妥协而已。我们没有办法把大批量的、整体的信息告诉他人,就只好作妥协告诉他一部分。当然,告诉他的这一部分是有意义的一部分。在这种条件下,既想刻画整个总体,又要用简化的方法告诉对方很少的信息,在这两个要求下作妥协,也就是说,我虽然只告诉你一部分信息,但是这一部分概括了总体。比如说平均值和方差,这两个参数不能告诉你整个群体的情况,但是已经告诉你很多的情况。比如说性别社会分组能够解释的东西越多,它的分组就越好。如果世界上只有10种人,所有的人之间的差异都归于10组中组与组之间的差异,而每组内部没有差异,那么我告诉你每个组的平均值,就能代表所有的人。可惜这是不可能的。社会分组能够解释的社会变异越多越好,但是组内差异永远是存在的,你永远不能把组内差异解释穷尽,这是社会分组所不能解释的差异性。
社会科学的复杂性就在这里。我们想刻画总体,但是我们不能把所有的总体的东西都刻画出来,只能告诉你一部分参数。告诉你一部分参数就能告诉你很多关于总体的东西,但是还是有很多东西没有解释,这就是我们遇到的矛盾。分组以后,你知道组之间的差异,但组当中还有差别,怎么处理?这就是下面我要讲到的,由于没有控制其他的变量,这样做可能是粗糙的甚至是错误的。比如说,死亡率和政治倾向在表面上好像有关系,但是结果你会发现你解释的也许并不是政治倾向,而是经济地位,因为经济地位与死亡率有关系,与政治倾向也有关系。这里,简化(parsimony)是一个很重要的词。中世纪有一个神学家,他认为上帝是理性的,他创造的世界一定是简化的,假如搞不清的话,你就用一把剃刀把多余的部分从知识中剔除出去。我们社会分组的原则也是简化。我刚才说了,一个总体有千千万万的信息,而我要告诉你的是一些简化的东西。简化会有代价,在社会科学当中就体现为误差。这种误差并不是自然科学中测量的误差,不可以忽略不计。社会科学中的这个误差是一个真实性的、理解性的误差,是知识上的一个缺陷,是真实的而不是可以忽略不计的。这就是和自然科学或者说物理学不一样的地方。比如说,物理学的误差经过测量许多次取平均数就可以忽略掉,而在社会科学中误差就是知识上的缺陷。
第三个原理是社会情境原理(Social Context Principle)。群体变异性的模式会随着社会情境(social context)的变化而变化,这种社会情境常常是由时间和空间来界定的。也就是说,社会情境不一样,变异性就不一样。比如说,教育对收入的影响是每个社会都有的,教育高,收入高,但是并不是所有的人教育高收入一定就高。大街上,有些小学、中学没有毕业的人也有可能比你还有钱,这就是差异,但教育对收入的影响可能随着社会的变化而不一样。比如说社会制度,改革之前和改革之后就不一样,中国和英国不一样,美国和日本也不一样,中世纪的英国和现在的英国也不一样。比如说有的经济学家认为,经济发展快的话,教育的回报率高,为什么?因为机会多。教育高,知识多,容易接受新的事物。而社会经济停滞不前,就会有饱和的现象,回报率就会降低。我想讲的是,随着社会情境的变化,变异性的规律和模式也会变化,我下面讲的一些统计模型会用到这些。
社会情境不同于社会分组。因为社会情境是有边界的,是一个独立的社会系统,比如说社会主义制度、资本主义制度、美国和英国、以前的中世纪和现在,而社会分组是没有边界的。男女生活在同一个家庭,在一起工作,是没有界限的,只是因为社会研究的统计和调查的需要把他们分出来。那么,社会情境的边界是怎么来的呢?边界有两个:一个是时间,一个是空间。社会科学经常要用到时空的概念。时空很重要,达尔文讲进化论的时候也用到了时空。他不可能找到物种以前的状态,也就是说,历史已经发生了,他可能找到一些诸如化石的东西,但是他不能证明。他不能找到时间的差异,那还有一种办法就是找到空间的差异。南美可能有些东西还没有进化,与欧洲、非洲的不一样。再比如,想看看以前经济不发达的中国是怎么样的,可是在中国的发达地区已经找不到这样的地方了,那就到落后的地方去找。这就是说时和空有很重要的意义。因为你要知道社会情境对社会关系的影响可能是不一样的,就是因为时和空是不一样的。我会讲一些具体的、实际的方法,但是今天只是给你们一个关于时和空的杠杆,使你们得到一些你们本来不能得到的东西。比如,你们只有中国计划经济时期的总体数据,不知道成熟的市场经济制度对收入的影响,怎么办?那就去找一些不同的点、不同的地区。如果你认为深圳更市场化一些,有些地方保留更多的计划经济特征,你不可能接触到将来,但是假设其他地区以后会像深圳这样,那你就做一下地区之间的差异的比较。这个差异可能会帮助你预测将来其他地区会怎么样,当然,这样做你还必须做很多假设。
个体变异的模式可以被个体之间的关系所支配,这也是社会分组无法解释的。社会分组只是讲把一部分人摆在一起,把另外一部分人摆在一起。而社会关系可能随环境而变,有些关系不是个人的,而是一个系统的属性,比如说社会制度,这是社会这个系统的属性而不是个人的属性。人们居住在一起可能采用不同的制度、不同的法律,拥有不同的文化,这都是环境的属性而不是个人的属性。所以,个体变异的模式也可以被宏观的条件所支配,比如社会结构、政治结构和文化结构。这些条件也许是间断的,即在某段时期内是确定的,但在时期之间是跳跃的。比如通过一项关于婚姻的或是关于社会制度的法律,再比如中华人民共和国1949年成立,都是一下子发生的条件变化。而这些条件作用的结果是连续的、不断变异的。说结果是连续的有两层意思:第一,任何一个确定的条件下的结果都是一个连续体,也就是说结果是各种各样的,不可能是单一的;第二,在条件突然发生变化时,结果的变化并不都是一下子显现的,而是可能和条件变化在时间上相分离的。有一些社会条件是突然变化的,不是确定会发生的。人的行为可以导致宏观条件的变化和人们关系间的变化,这就是社会变迁的主要来源。这是生物学没有的。我们是理性的,我们在一起可能会做一些或者理性或者看起来是不理性的事情。我们生活在一个社会系统之中,有统治阶层和被统治阶层,人们之间总是会有矛盾的,在这个时候,人们的行为会引发法律、政治和文化的变化,这些变化会造成社会变迁。
下面看一些具体的统计例子。比如说在社会科学中,至少在量化的社会科学研究中,最重要的方法就是回归分析(regression analysis)。通过调查来的数据进行回归分析,比如说对最典型的教育对收入的影响即可以做一个回归分析。我现在就举这个例子,看一些具体的问题。在这个问题当中,我们假设一个由N个个体组成的总体,其中N可能趋向于无穷大。有一个被关注的结果或社会现象作为因变量Y,比如说是收入,并以实线来度量。我们感兴趣的自变量是D,它有两个数值:要么是 D =1,表示干预(treatment);要么是 D =0,表示控制(control),即不干预。比如说读大学,Y就是收入,D=1就是读大学,D=0就是没有读大学。假定每个人都读完高中,一个总体中,任何个体要么是读大学的,要么是没有读大学的。我现在要看的就是最简化的典型案例。在这种情况下,干预作为原因会引起怎样的因果关系(causal relation)。对某一个个体i来说,我现在不讲抽样的问题,相对每一个人的观测数据,存在着一个反事实的结果(counterfactual effect)。我想知道读大学对收入的影响,我就应该考虑对某一个人来说,有了大学教育和没有大学教育的收入差距。这一差距必须是大学教育的影响。对每一个人,我都想得到两个数据:一个是读大学之后的,另一个是不读大学的情况下的。但是实际上,我们只能看到其中一个:要么是某一个人读了大学之后的收入,要么是他没有读大学的收入。要想知道读大学对一个人的影响,必须同时知道这两个收入数据。但是实际上,数据只能告诉你一种情况。所以说,如果没有假设,社会科学的量化是做不成的。在个体层面上你根本不可能得到因果关系,因为你无法找到反事实情况下的同一个个体作为对照组。如果你已经读了大学,我就没有办法知道如果你不读大学的收入情况会是怎样的。
我给大家举一个极端的例子,一个自然科学的例子,自然科学怎么办?比如说我想知道温度对电灯泡的寿命的影响。如果说一个房间室温很高,而另一个房间室温很低,我们可以观察电灯泡的寿命在这两个房间是否一样。在这个例子中,我可以简单地假设这个房间的电灯泡和那个房间的电灯泡是一样的,事实上这个假设也经常是成立的。假如是一样的话,它们之间的差异在什么地方?就在于室内的温度不一样。如果说任何读了大学的人和任何没有读大学的人没有本质上的差异,他们的差异只是反映在有没有读大学上,并且任何读大学的人之间也没有本质上的差异,这就是个体同质性(homogeneity)假设。假如这个假设是成立的话,我们根本没有必要去抽样和做大型的调查,我们只要研究两个人就可以了,即一个读了大学的和另一个没有读大学的,因为所有读大学的人都是一样的,所有没有读大学的人也都是一样的。所有的人都一样,那么我们就没有必要做调查。对自然科学家来说,一个分子就是一个分子,元素就是元素,而不管它们是今天的还是明天的,是这个房间的还是那个房间的。这就是同质性的问题。如果具有了同质性,我们只需要两个个体就可以了。所以我们说笑话,任何人都能研究社会学,只要把两个人的差异看成是社会性的差异就行了。但是这样了解的只有两个个案。这里的逻辑是,所有的这样的人都是差不多的。比如说,一些人说门当户对的婚姻都不好,因为某某是门当户对的婚姻,结果不好;另外一些人说,门当户对的婚姻好,因为某某是门当户对的婚姻,结果很好。这些都是依据非常不现实的假设做的非常不现实的评价。为什么这样说呢?因为所有门当户对的婚姻是不一样的,所有不门当户对的婚姻也是不一样的。假如有很大的异质性(heterogeneity)的话,结果可能就不一样了。
一般的人研究社会科学看到的是局部的、片面的东西,所以他们的结论是笼统的,没有代表性。我讲的要义在于,正因为存在总体变异性(population variability),科学抽样(scientific sampling)才成为必要。这个是搞农学的人最早提出来的,因为每一棵植物是不一样的,假如说你只取一棵植物,你怎么知道另一棵植物有同样的结果?人也一样,人也有变异性。假如你接受第一个原理(变异性原理),你就能接受这个道理。正因为总体的变异,我们要做科学抽样,取得一个样本,而样本具有代表性。个体和个体之间是有差异的,没有差异就不需要代表性了。换句话说,我们强调定量分析研究方法是因为定性分析归根结底在描述变异的现象时是不可靠的,原因在于你不知道你的个案是不是有代表性。从个案中你当然可以看得很深,但是你做定性研究,始终不知道你的研究对象是不是具有代表性。你选择的个案可能没有代表性,可能是错的。因为总体大,一定有各种各样的人,个案不能说明总体。
让我们回到大学教育和收入的例子。把总体P划分为两个部分,比如说一部分P1是被干预的,即Di=1,另一部分P0是未被干预的,即Di=0。这是两个子群体。q为P0在总体P 中的比例。已经读了大学的人的收入平均值是E()=E(Yt|D=1)。对已经读了大学的人,如果他们没有读大学的平均收入是E()=E(Yc|D=1)。没有读大学的人的收入平均值是E()=E(Yc|D=0)。没有读大学的人的假如读了大学,他们的收入平均值是E()=E(Yt|D=0)。
在这四个公式里面,E()=E(Yt|D=1)和E()=E(Yc|D=0)是可观测到的,其他两个则是反事实的。为什么要这么想?E()=E(Yt|D=1)和E()=E(Yt|D=0)是不一样的,因为它们代表了两个总体:E()=E(Yt|D=1)是已经读了大学的人的平均收入,E()=E(Yt|D=0)是没有读大学的人如果读了大学的平均收入。在同样读了大学的情况下,这两组人的平均收入可能是不一样的。我们假设它们一样,问题就容易了,但这仅仅是假设而不是事实。
同样,E()=E(Yc|D=1)和E()=E(Yc|D=0)也代表了两个总体。前者是已经读了大学的人如果不读大学,他们的平均收入是多少,后者是没有读大学的人的平均收入。这两组有可能是一样的,但是也有可能是不一样的。社会科学研究当中,我们常常已经做了这个假设而不说明。这个假设使得我们过高地估计了大学回报率。因为能力强的人、守纪律的人、听话的人、与领导关系相处好的人工资会比较高,这些人上大学的可能性也比较大。因此,上过大学的人即使没有上大学的话,他们的收入也会比没有上过大学的人收入高。你相信吗?假如这个世界把大学取消了,两组人(原本读大学的和原本没有读大学的)中前者本来就应该比后者要好,不是因为读大学他们的收入高,而是因为他们本来就具有比较好的素质,而这些素质和上大学是有相关性的。
如果你比较E(Y1t)=E(Yt|D=1)和E()=E(Yc|D=0),实际上你假设了E(Yt|D=1)=E(Yt|D=0)和E(Yc|D=1)=E(Yc|D=0),就是没有上大学的人假如他们上了大学,他们的收入水平应该是与那些已经上了大学的人的收入水平相似。现在上了大学的人,假如他们不上大学,他们的收入类似于没有上大学的人的收入。有了这两个假设你才可以做E(Yt| D=1)和E(Yc| D=0)的比较。这类比较是我们经常看到的,只是我们并不一定意识到它背后的含义。
根据总期望值规则(total expectation rule):
其中:,。
假如说所有上大学的和不上大学的人的收入的平均差异是E(Yt-Yc),就是平均的回报因果关系。它可以分解为以下两部分:和。第一部分是已经上了大学的人和他们如果不上大学相比,他们会有多少平均收入差异;第二部分就是没有上大学的人和他们如果上了大学相比,他们的平均收入差异是多少。它也可以再分解成三部分:、和(δ1-δ0)q,其中:,。第一部分就是上大学的和没有上大学的这两组人之间的简单比较。第二部分是假如两组人都不上大学的话,他们的情况有什么差异,这就是他们的未观察到的异质性问题(unobserved heterogeneity)。上大学的人可能比不上大学的人要好,即使在两组人都不上大学的情况下,他们也可能会有差异。第三部分中,是上大学的这组人得益于大学对他们收入的影响,是没有上大学的这组人如果上了大学能够增加的收入,δ1-δ0即第一组人上大学得到的好处减去第二组人如果上大学得到的好处。换言之,读大学的好处对这两组人可能是不一样的。
在现实工作中,我们经常把读过大学的人的平均收入减去没有读过大学的人的平均收入,以为得到的结果就是读大学的好处和回报。这一方法靠的是假设,假设这两组人是没有差异的。平时我们计算的是:
实际上讲的是:
这两者不一定是一样的。需要两个假设使它们相同,我已讲到这两个假设。是我们平时做的,可是要可靠地得到你想知道的东西,实际上还要知道两个信息:第一个就是在没有接受大学教育的情况下两组人之间的差异;第二个就是两组人接受大学教育的回报率可能是不一样的(δ1-δ0)q,这个是经常被忽略的。
常用的估计值是,即读过大学的人的收入平均值和没有读过大学的人的收入平均值的差。这个估计值有两种偏误:第一种偏误的起因是在没有干预(没有读大学)的情况下,这两组人的平均有差异,就是这两组人在都没有读大学的情况下是不一样的,即一组人能力比较强,或者比较用功,或者比较听老师的话,或者比较能读书、能自学等等,这种偏误叫做异质性偏误(heterogeneity bias)。第二种偏误源于第二个假设,就是大学教育这个因素对两组人的影响是一样的,而实际上大学教育的影响可能是不一样的,由此产生的偏误叫内生性偏误(endogeneity bias)。只有在这两种偏误都不存在的情况下,你才可以用来计算。第一种偏误很简单:有些人天生就聪明,有些人天生就笨;有些人天生就勤劳,有些人天生就懒。这些不需要做干预。我的同事Robert Willis有一个模型是用来对付第二种偏误的:有的人适合读大学,他们读大学受益多;有的人不适合读大学,他们不读大学反而好。所以说,每一个人对相同的干预的反应是不一样的,这就是内生性偏误。你不能假设这两组人读大学的效果是一样的,这两组人存在着系统性的差异。只有两种情况都没有,才可以作简单的比较。我花了十多年的时间才真正理解了这个道理。
在随机赋值(random assignment)的条件下,两种偏误的平均值都等于零。为什么要做随机赋值呢?这样就保证了在没有干预之前两组之间应该一样,干预之后两组之间也应该一样。这就是为什么在实验的情况下,随机赋值能够解决异质性偏误和内生性偏误的双重问题。
这是一个一元回归模型:
Yi= α +δiDi+εi
在这种情况下,Di是指干预或是控制。我认为真正写方程时应该考虑δiDi,因为干预效应是不一样的。两种假设的含义是这样的:
异质性:εi,如果Corr(ε, D)=0,则无异质性偏误,就是说被忽略的变量(两组人本质上的差异)和读大学或不读大学没有关系;
内生性:δi,如果Corr(δ, D)=0,则无内生性偏误,就是说回报率和读大学或不读大学没有关系。
下面我对以上说的内容做五点注释:
注释一:随机赋值是指不管你接受干预还是不接受干预(即D无论取值为1还是0)和任何东西都没有关系,和α没有关系,和ε也没有关系。D本身在研究中是一个随机变量。
注释二:异质性偏误可以由忽略变量偏误(omitted-variable bias)产生,比如说能力、政治倾向等等。
注释三:内生性偏误可能由理性的期望行为(anticipatory behavior)产生,比如说,因为你知道读大学对你有好处,所以你来读大学;你觉得你会有收获,你才来听我的讲座,这就是一个内生性偏误。这是因为人和动物不一样,具有理性。
注释四:内生性的变化(δi)意味着Y最终的变异性可以随干预D增大或缩小。上面这个方程,如果得益大就参加,得益小就不参加,这会出现什么情况?社会差距被拉大了。所有的社会中都有教育回报,而去读大学的人的社会回报又特别高,这样教育就会造成社会不平等。这是加强的例子。也有减少的,比如说靠政策,你受益小的我就多给你一些。比如在美国,你的工资高,你的税也就高,这样做就会减少差异性。
注释五:这个模型是不可估计的,它需要约束条件(constraint),一般的情况下,我们假定Corr(ε, D)=0, δi=δ(常数)。
我在评价经济学家Charles Manski的书中这样写道:“当观察的数据十分有限时,需要很强的假定才能产生显著的结果。在统计学中,没有免费的信息。要么你去收集它,要么你去假定它。”没有其他办法,因为差异这么大,要么你去收集信息,要么你去假设它,假设是不可避免的。那么我们用第二个原理(社会分组原理)怎么做呢?我们就用社会分组来控制异质性。如前面所说的,社会分组总是减少组内异质性,意味着更多的组内同质性。此后,我们可能会得到这样一个假设,即组内的差异是可以忽略的。
假定条件:ε⊥D|X,组内无异质性偏误,这就比刚才的假设要弱一些。也就是说,我们不假定任何读大学的人和任何不读大学的人是完全一样的。比如说我们测量了人们中学的成绩,我们假定在同样成绩的人中读大学的和没有读大学的没有差异。也就是说,我们控制了可以看到的变量之后再做假设,而不是在控制这些变量前就来做假设。例如家庭背景,能上大学的人相对来说家境比较好,父母收入比较高,那么我们控制了家境这个因素,再来假设家境相似的人无论读没有读大学都没有异质性差异。这就是社会分组的方法,也就是我们常常做的多元分析的方法。通过控制社会分组以后我们再做无异质性偏误和无内生性偏误的假设,这样的假设比直接做的假设要弱一些,因而更符合实际。于是我们把这个方程扩展为:
Yi= α +δDi+β′Xi+εi
这个方程不但有D还有X。这就是我们为什么要用多元回归分析,因为多元分析可以让我们控制一些和D相关的自变量。这个方程式是可以估计的。
下面我对以上说的内容再做两点注释:
注释一:对X而言,它需要与D相关,这一条件叫做相关条件(correlation condition),并且影响Y,这一条件叫做有关条件(relevance condition)。我刚才为什么说要测中学的成绩,因为中学的成绩和读大学有关系,家庭背景和读大学也有关系,没有关系的X可以不用去考虑。
注释二:X应该是发生在干预D之前,比如说家庭背景和你读大学以前而不是以后的成绩;而且X对Y有影响,比如说中学的成绩和能力对你的收入的影响。
这些方法都依赖于较强的、不可检验的假定。没有假设就没法做。归根结底,社会统计可以建立不同的模型,因为你对社会现象做出的假设是不一样的,一种假设用一种模型得到一串数字,另一种假设用一种模型又得到另一串数字。
那么要是效果或者回报不一样,也就是解释的效力有差异怎么办呢?这就涉及自由度(degree of freedom)的问题,很难解决。有一个方法我们用得比较多,比如说一个家庭有几个子女,一个地区有很多人,就假设在同一个社会经济环境下,在一定的时间和空间的情况下,有一种模式具有同质性。我刚才介绍给你们的例子,比如说收入在北京和上海是不一样的,在内地也不一样,那么地区之间的差异就可以用嵌套数据来解决。假设在一个地区里面收入的模型是一样的,要是假设人和人之间不一样的话,就没法去计算。我们可以估算地区之间的差异、家庭之间或是组织之间的差异,但不能把人和人的差异反映出来,因为数据是个人层面的。所以这里需要假设δi为δk, k是社会情境而不是个人。假设δ即回报在整个社会环境k当中是一致的,那么这个假设就让你得到更多的方法获取更多的数据资料。观察的数据是个人的,但是又有地区之间的差异,就是说一个地区有不同的个人的数据。k可以是空间也可以是时间,这就是社会情境原理的一种应用。
注释一:可以在个体水平作一个参数假定,并使它遵守一定的参数化分布,这就是贝叶斯方法(Bayesian approach)。现在这个方法用得比较多,其数据的结构一定要是嵌套的。
注释二:使用嵌套这个方法就可以假设在共同的社会情境中,不同的个体具有共同的特征。
注释三:假如跨越社会情境的变异是系统的,你就可以来建模型。比如说,多分层模型(multi-level model)或多层线性模型(hierarchical linear model)、随机系数模型(random coefficient model)和增长曲线模型(growth curve model),这些模型现在用得比较频繁,比如一个小孩增长的曲线是怎么样的。这是同样的道理,因为每一个人都是相似的,他们的成长是有系统的。如果人和人之间的差异不能用系统的方法来概括,那么就可以用饱和模型来概括。
现在给出几点结论:
(1)抽样很重要。因为我们只能讨论总体特征,我们不能讲个体,所以要抽样。
(2)描述性研究是很重要的。很多人看不起描述性的研究,但是我们搞社会学的、搞量化研究的,在没有很强的假定的条件下,能做的只是描述性的东西,我觉得这是很伟大、很重要的东西,否则我们什么也不知道。没有描述,我们就不知道你能活多长,你的生活状况怎么样,家庭质量怎么样,有多少小孩等等。
(3)随机实验不能完全解决我们的问题。因为我们做实验不是对总体做实验而是对一部分做实验,很难把实验结果推广到总体。比如说你在乡下的一个农村做实验,这个实验结果能够推广到全国吗?不一定,你要做很多的假设才能推广。
(4)统计学虽然不完美,但却是社会科学刻画异质性唯一可靠的工具。我也觉得统计学并不能解决一切问题,但是除了它以外没有更好的办法了。有人说美国要民主很不好,当然民主可能会运作得很不好,有时会造成很荒谬的、很糟糕的结果,假如世界上有比民主更好的东西,我们一定不会要民主。这是没有办法的事情。统计也一样,因为没有比它更好的东西。在个体水平上,反事实结果是不可能被评估和证明的。你看完一个案例,你能说它可以推广吗?不可能的。所以说定量是唯一的科学方法,没有定量的方法就没有科学的东西。
(5)只有当解释涉及所研究的总体时,统计结果才会有意义。很多人的统计报告并不告诉你报告的结果对哪个总体是适用的。做统计的时候,你就要想到你的总体对象是什么,并不是所有的对象都是适用的。比如有些结论只有北京才能适用,有的只对大学生适用,有的只对男生适用等等。你做事情一定要有一个总体的概念。没有总体就不需要做统计,你可以写感想、作汇报、谈经验等。那统计是什么意思呢?实际上,统计是有一个加权的,即合计结果本质上是加权的。
(6)因果关系总是概率性的。比如吸烟会导致癌症,但并不是说每个人吸烟都会导致癌症。
(7)我们只能研究原因的结果(effects of causes),而不是结果的原因(causes of effects)。这就是识别问题(identification problem)。因为一个事情发生了,它可能是由不同的原因造成的。比如说有十个原因,那到底是一个原因造成的还是由十个原因一起造成的呢?很多人搞不清楚,他们说引起这个事情发生有五个原因或者有十个原因。到底是这些原因都存在了,还是只要其中一部分原因存在就可以导致事件的发生就不清楚了。我们能做的就是解释有了一个特别原因会有什么样的结果,比如说教育对你的生活、婚姻和收入会有什么影响。但是假如说你问为什么你有钱,你就没法解释。
在统计分析的时候,我们总要做假设,所以说理论是很重要的。理论有两个要点:一个是对以前经验的总结概括,这是一个积累的过程,以前的经验知识可能会变成理论的东西,比如说为什么教育对人会有收入的回报,这就是对以前的经验的概括。另一个要点是,理论是一个逻辑的思维过程。有了理论的思考才能做一个比较好的假设,没有理论就没有假设。