第二节 统计分析的本质属性
统计是研究数据的学问,看不到数据,一切都是空谈。逻辑、方程、代码……这不是统计的要害,数据才是。所以,数据在统计中的地位再怎么强调也不为过。
统计分析的对象不是总体 (理想),而是样本 (现实),这决定了它不可能是精确的——总是充满变动,所以,说穿了统计就是对这种变动(variability) 的分析。在Statistics: The Exploration and Analysis of Data (第7版) 这本书的序言里,作者开宗明义:“统计学是对波动或误差的理解”( In a nutshell, statistics is about understanding the role that variability plays in drawing conclusions based on data. )。
经典的定义是:“统计学是一门收集数据、分析数据并根据数据进行推断的艺术和科学。最初与政府收集的数据有关,现在包括范围广泛的方法和理论。”(吴喜之,1993) 特别是概率论、数理统计、计算机、人工智能等不断渗透,大大更新了统计学的面貌。但是统计分析的本质属性没有变,它既不是数学,也不是软件程序,而是对数据的“阅读”。
有学者认为,做统计研究就是写代码,或者好的统计研究应该自己写代码,几乎将软件操作水平与统计分析能力等同了。而事实上,软件只是“随从”,能把“随从”调度得游刃有余的主子与他处理问题的能力有什么关系?可能真理就在眼前,然而“随从”却只能诚恳地“高碳地”一晚上一晚上跟着主子南辕北辙。而且很多时候我们的水平根本没有达到需要一个200m2的自由空间的地步,50m2的空间可能都碰不到边界。所以统计研究的好坏与其复杂程度关系不大,而是体现在它对数据理解的深度。
正如Matilde Marcolli在Dars等 (2010) 的《解码者》中所说:“任何对数学感兴趣的人,首先的事情就是要意识到这一领域是多么广阔。在我看来,在数学和人类知识的许多其他领域里的主要危险之一就是天真。我们不能即兴地使自己成为一个数学家。成为一个数学家需要大约十年的强化训练和深入学习。这也只是为了积累最低限度的必备知识和技能,以便理解数学意味着什么。”数据分析者亦如此。
但需要注意的是,统计不是数学。把数学中的“数”理解成“数字”就太狭隘了,至少应该理解成“代数”,因为数学不研究3x2+2x+4 =0的解,而研究的是ax2+bx+c=0的解。“双脚并拢,跳过这些计算”( 伽罗瓦)。“伽罗瓦所领悟到的,或说真正现代数学的起点,就是必须有能力超越演算。也就是说,不要去演算,而是在思想里面进行演算!要明白这些演算的本质将会是什么,将会出现的困难是什么”, Alain Connes如是说。所以在纯数学的体系中是不包括统计的,最多只有概率论。Feller说过,概率论是数学的一个分支,但20世纪50年代 (除了苏联) 很少有数学家承认这一点。因为数学的关键词是“逻辑”(logic),形式逻辑,它是概念世界中的推演;而统计的关键词是“数据”( data),数据分析,它强调的是对数据的归纳和总结。其实,“对学术研究来讲,逻辑比数字更重要”(张维迎,2004) ——这是数学家的逻辑。
所以统计分析的本质属性是数据分析,是从数据中提取信息和知识的过程——这在一定程度上决定了理解数据背景或环境的重要性,统计分析离不开它所应用的土壤。数据分析有两个基本的取向:(1) 验证性数据分析 (Exploratory data analysis, EDA):由于对数据有先验的认识,所以数据的功能只是对已设立的假设做判断,它偏重逻辑推演 (Deductive Approach),也容易流程化;(2) 而Tukey (1962) 在The Future of Data Analysis中提出的探索性数据分析 (confirmatory data analysis, CDA) 则假定对数据没有先验认识,在这种情况下,需要从数据本身出发来归纳(Inductive Approach) 可能存在的规律,让数据自己说话 (let data speak themselves)。作为最早关注EDA的统计学家之一,Turkey (1977) 将EDA看成是“数据侦查”( numerical detective work),探索性数据分析(Exploratory Data Analysis, EDA) 就是先于假设和模型等先验信息,“单纯地”在数据中“游览”(如描述统计、降维、可视化等),以形成假设,让数据去发现、去选择模型,而不是削足适履让模型去拟合数据。这与数据挖掘、非参数方法的基本思想吻合。在探索性数据分析 (EDA) 中,正态分布 (normal distribution) 往往以高斯分布 (Gaussian distribution)代称,其中一个原因就是要打破正态分布的“垄断”地位:正态分布只是分布的一种类型,而不是正常状态的代名词 (似乎分布只有两种,正态分布和非正态分布)。
与之相呼应,经验研究的两大派别:约化型方法 (reduced form approach) 的观点是“让数据自己说话”,而结构型方法 (structural approach) 则认为,数据不可能完全显示自己是怎么产生的 (data only can never reveals its own data generating process),只有在研究者模型的协助下才能了解数据产生的结构,即便模型有可能是错误的。但事实上,二者是相互补充的而非对立的。
不同于辩证逻辑,形式逻辑 (演绎逻辑) 的风格是把理讲绝,比如尺规作图中尺子是没有刻度的,这先天性地避免了所谓的测量误差 (数据上的)。其实他们排斥的不单纯是经验数据,而是直观感觉,数据只是对直观感觉的记录。比如在高斯时代的法国数学传统中,直观的图形也是被排斥的,“数是用来相加与相乘的,而不是作出它们的图像”,所以当时高斯在引入虚数时删去了辅助的图形。再比如,笛卡尔常常被认为是将代数与几何结合开创了解析几何,然而事实上他是想将图形转化为数和方程来研究。他有句格言“感觉即欺骗”( Sense perceptions are sense deceptions. )。还有一个著名的例子,柯西在1811年基于图形给出了欧拉公式C-E+F=2的证明,但是却漏掉了几何体有“洞”的情况。
所以传统的观点认为,数据只能用来实证结论 (CDA) 或提出假说(EDA),并不具有下结论的功能。在数学家看来,“证明应该由思想而非计算决定”。高斯曾猜想,对数积分函数Li (N) 可以预测1到N之间素数的个数,虽然总是高估,但是随着N增大,预测精度会不断提高。喜欢用数据说话的实验型科学家和统计学家很可能会毫不犹豫地推崇这一结论的正确性,因为有107这样大的样本支持这一结论。然而1912年J. E. Littlewood证明,当N足够大时,会存在一个低估的区域注。“素数是伪装大师,它们将自己的本质深深藏于数的宇宙之中。它们藏得如此之深,人类的计算能力根本不足以窥探它们的真实本性,只有抽象的数学证明那锐利的双眼,才能看穿它们真实的行为。”所以,“当其他学科信奉实验数据就是一切的时候,数学家就已经意识到,永远不能相信缺少证明的数据”。未被证明的都是危险的。更甚,“严格性对数学家而言,就如同人类的道德一样 (重要)”(André weil)。
注4:所以尽管我们现在已经可以验证哥德巴赫猜想在4 × 1015内都是正确的,然而未得证明之前也只是猜想而不是定理。
数学家对结果是有“洁癖”的,它不能容忍任何瑕疵,所以特别强调逻辑的重要性。或许就如同统计学家强调数据的重要性一样,只是表达忠实守护自己立场的一个态度?笔者更愿意相信前者。黎曼被认为是抽象思维的大师,哈代、庞加莱等数学家都曾说黎曼的论文完全是个人非凡的洞察力和直觉,然而从黎曼的大量手稿可以推测,他也离不开数值试算。现代科学基于“首要原则模型”(first-principle model),即先逻辑模型,后实证模型。然而“我们大部分最伟大的胜利是按照从数据到理论的方向获得的”(Robert A. Haugen,1995)。
事实上,强调证明与数据是两种相互补充的科学范式。科学研究是对简单的经验总结的超越 (比如经济学对一般均衡的强调):一方面,理论保证了推理的严谨性;另一方面,数据用来模拟和实证 (量化的归纳分析)。用数据实证只是论证严密性的一个步骤,起的作用只是锦上添花。事实上稍加留心不难发现,规范的经济计量论文一般在理论证明之后才是数据实证,紧接着是对实证结果的分析和解释,而不单纯是方法的套用。
根据陈焕章的研究,“学而不思则罔,思而不学则殆。”(《论语·为政》) 说的就是归纳 (学) 和演绎 (思) 之间的互补关系。“吾常终日不食,终夜不寝,以思,无益,不如学也。”( 论语·卫灵公) 爱因斯坦曾指出:“西方科学的发展是以两个伟大成就为基础的,那就是希腊哲学家发明的形式逻辑体系,以及在文艺复兴时期通过系统的实验有可能找出因果关系。”“一切发现都不是逻辑思维的结果,尽管那些结果看起来接近逻辑规律。纯粹的逻辑思维不能给我们任何关于经验世界的知识;一切关于实在的知识,都是从经验开始,又终结于经验。用纯粹逻辑方法所得到的命题,对于实在来说是完全空洞的。由于伽利略看到了这一点,尤其是由于他向科学界谆谆不倦地教导这一点,他才成为一代物理之父——事实上也成为整个近代科学之父。”强调经验数据即是我们孰知的培根逻辑(归纳法) ,它不再认为仰望星空是高贵的,而特别重视观察实验。这里面有两个重要的转变:其一,科学开始变得功利了,而若你问希腊人做学问有什么用,他会觉得是在羞辱他,怀疑他做学问的纯正性。“君子不器”,学问不应该有刻意的、特别的用途,而是人类心智的荣耀。因为“科学家研究自然,不是因为它有用,而是因为喜欢它,之所以喜欢是因为它是美的”( H. Poincaré,1913, The Foundations of Science)。其二,与自然的关系开始变得紧张起来,因为按照培根的意思,大自然不会轻易吐露自己的秘密,必须用高温、高压等一系列“严刑拷问”才能逼大自然交出它的奥秘,知晓它在不同条件下的反应,才能征服大自然。而中国人的传统智慧——顺应自然——或许能作为它是迄今仍然健在的文明古国的一个证据。
早先的归纳法 (古典经验论) 指的是从有限的经验事实走向普遍的理性知识。休谟诘问:“如何从经历到的过去、特殊、局部,推论到没有经历到的未来、一般、整体?”不过休谟从心理学的角度也肯定了归纳法,认为人们对规律的相信是多次重复的结果,习惯的信念是知识的基础。现代归纳法 (现代经验论) 很大程度上指的就是基于概率论的统计学 (如大数定律、中心极限定理、经验分布收敛于总体分布等保证了样本充分含有关于总体的信息)。维纳在他的自传中说道:“德国的波尔茨曼和美国的吉布斯打破了牛顿决定论的垄断地位,这两位物理学家彻底应用一种令人鼓舞的新思想,把统计学引进物理学。这可能并不新鲜,因为麦克斯韦等已经考虑过,由大量粒子所组成的世界只能用统计方法来处理。实际上,牛顿的著作中也隐含着重要的统计思想,虽然在牛顿生活的18世纪没有人注意到这一点。但波尔茨曼和吉布斯的贡献在于把统计学更彻底地引入物理学,使统计方法不仅对极其复杂的系统有效,而且对于像力场中的单个粒子这样的简单系统也有效……很多人的直觉远远超越了他们的时代……当吉布斯把概率引进物理学的时候,他所需要的概率理论还远未出现……吉布斯的工作虽然想法很好,但做得很差。不过,尽管有这种种不足的情况,我还是认为,应当把20世纪物理学的第一次大革命首先归功于吉布斯,而不是归功于爱因斯坦、海森堡或普朗克。这次革命的结果,使得今天的物理学已不再处理那些必然发生的事情,而是处理那些最可能发生的事情了。”
按照胡适先生的理解,做学问应该是“有证据的探讨”,其中,用权威做注 (如文献名言辅证) 并不可靠,而应该采用归纳法。归纳法就是“以经解经”,比如,把《诗经》中所有“言”字的用法归纳总结发现,多是作连词使用,故结论为,“言”字是个连接词。然后拿来验证或解释其他,如“醉而舞”、“醉而归”等 (胡适先生是“醉而去世”)。关于归纳法,胡适先生提到一个非常重要的问题,即不能缺少历史性的处理 (historical approach)。意即,不能把相隔数千年的两个时代里的句子混在一起比较研究,因为经过数千年的演变,很多东西都已经改变了。这就是所谓“平稳性”、“可比性”的要求。截面取样也应该注意类似的问题,如“异方差”。