1.2 统计学和数据分析
早在1957年,罗伊就认为经典统计分析有可能通过更接近现实情况且更有意义的无假设、非参数方法用在其他领域[2]。脱离经典(参数)方法使用的限制条件和借助超乎现实的假设去理解这种方法的稳健性(鲁棒性)是一项艰巨任务。在实际应用中,基本假设“从一个多变量正态总体里抽取一个随机样本”是很难满足的。违反这个假设以及其他与模型有关的假设(如预测变量和因变量之间存在线性关系、误差项之间具有不变方差,以及不相关误差项)的影响很难精确确定。由于人们不了解统计方法的局限性,所以很难鼓励读者使用这些方法。
1962年,在那篇著名的文章“The Future of Data Analysis”(数据分析的未来)中,约翰·图基表达了对统计学没有发展进步的担忧[1]。他认为人们过多关注统计的数学方法,而对数据分析关注不够。他预言在统计学界会出现打破这一僵化形式的运动。图基最先采取的革命性做法是将自己称为数据分析师,而不是统计学家。但是直到他的那本杰作Exploratory Data Analysis于1977年出版,图基才引领这个学科从统计推断走向一个被称作EDA(来自他那本书的书名首字母)的新领域[3]。图基努力推动EDA成为一个独立于统计学的学科——这是一个从未有过的想法。EDA提供了一种解决问题的新的无须假设的非参数方法,这种方法由数据引导分析,并且使用了自我学习技术(比如评估反馈结果、用迭代测试以及对分析结果进行修正),以提高对结果分析的可靠性。
图基的说法很好地概括了EDA的精髓:
探索性数据分析(EDA)是探查性工作——数字化探查工作、计数探查工作或图形探查工作。……[它]通过检查数据,从中找出结论。这个方法的核心是简单的计算和易于制作的图形。它将我们看到的表象作为局部性描述,尝试透过表象发现新观点。[3,p.1]
EDA包含以下特征:
1)灵活性——用更灵活的方法分析数据。
2)实用性——提出分析数据的步骤。
3)创新性——解读结果的方法。
4)普适性——所有统计方法都可用于数据分析。
5)简化性——简单易用是黄金法则。
就我个人而言,当我听说图基喜欢被别人称作数据分析师时,我觉得很欣慰,因为我的很多分析都不在传统的统计学框架之内。而且,我实际上抛弃了数学方法,比如计算最大似然率。为表达我对图基的敬意,在本书里,我交叉使用了数据分析师和统计学家这两种说法,其实指的是同一个意思。