描述数据
学习目标问题 1-12 我们如何使用三种集中量数来描述数据?两种差异量数的相对效用是什么?
研究人员采集完数据,可以采取描述性统计来对数据进行整理,将数据转换成简单的条形图正是这类方法之一。如图1.8所示,该图展示了十年后仍在道路上行驶的不同品牌卡车的数据分布情况。观察这样的统计图时,我们要格外注意。要设计一个令差异看起来明显(图1.8a)或不明显(图1.8b)的图表是很容易的,关键在于如何标注纵向刻度(Y轴)。
图1.8 观察刻度标签
要记住的一点:我们要聪明地思考。在解释图表时,要考虑刻度标签,注意刻度范围。
自问
你有没有在课堂上、论文中,或者与朋友或家人讨论时,用统计说明某一问题的经历?回想一下,你引用的数据是否准确可信?你怎么知道这一点?
检索练习
RP-1 图1.8的图(a)由一家卡车制造商提供,图中包含实际的品牌名称,表明其卡车的耐用性更佳。关于不同品牌卡车的耐用性,图(b)说明了什么?这是如何做到的?
答案见附录D
集中量数
接下来则是通过集中趋势测量对数据进行概括,即用一个数值来代表整组数值。最简单的测量方法是众数(mode),即出现频率最高的一个或多个数值。我们最熟悉的方法是平均数(mean,或算术平均数),即所有数值的总和除以数值的个数。而中位数(median)则是位于中点(第50个百分位)的那个数值。在分隔的高速公路上,中央隔离带处于中间位置,对数据而言也是如此。如果将所有数值从高到低进行排列,一半数值会在中位数之上,另一半数值会在中位数之下。
众数:一组数据中出现频率最高的一个或多个数值。
平均数:一组数据的算术平均数,通过将全部数值相加后再除以数值的个数得到。
中位数:一组数据中位于中间的那个数值;一半的数值比它大,另一半比它小。
集中量数简明地概括了数据。但是,分布不平衡时(因为几个异常数值而产生偏态),平均数会发生什么变化?以收入数据为例,众数、中位数和平均数往往讲述了截然不同的故事(图1.9),这是因为平均数会受到少数极端收入的影响而发生偏差。当亚马逊创始人杰夫·贝佐斯(Jeff Bezos)进入一家小咖啡馆时,其他顾客立刻成了(平均数意义上的)亿万富翁,但顾客们财富的中位数并没有变化。
图1.9 偏态分布
这一收入分布图说明了集中趋势的三个测量标准:众数、中位数和平均数。请注意,仅需几个高收入家庭就能令平均数(平衡高低收入的支点)显得很高。
理解了这一点,你就能明白为什么2010年美国人口普查时近65%的美国家庭的收入“低于平均水平”,处于底层的一半挣钱者的收入远低于全国总收入的一半。因此,大部分美国人的收入低于平均水平(平均数)。平均数和中位数反映的真实故事截然不同。
要记住的一点:一定要注意报告的是哪种集中量数。如果是平均数,请考虑一些非典型的数值是否会令其产生偏差。
差异量数
一个恰当的集中量数可以告诉我们很多东西,但这个单一的数字也会忽略许多其他信息。而了解数据的变异性(数据的相似性或差异性)则会有所帮助。由低变异性数据得出的平均值比基于高变异性数据的平均值更可靠。假如在本赛季的前10场比赛中,某篮球运动员每场比赛的得分都在13到17分之间。了解这一点后,我们更相信该运动员下一场比赛中的得分会在15分左右,而非5分到25分不等。
数值的全距(range,最小值和最大值之间的差距)只是对变化的粗略估计。在其他类似群体中,如果有几个极端数值,如图1.9中的950 000美元和1 420 000美元的收入,就会令数值范围出奇地大。
全距:分布中最小值和最大值之间的差距。
标准差:测量数值在平均数周围变化程度的计算方法。
测量数值之间偏离(差异)程度的更有效标准是标准差(standard deviation),它会使用所有数值的信息,能够更好地测量数值是集中还是分散。该计算公式[1]收集了有关单个数值与平均数的差异程度的信息,可以很好地说明问题。比如,A班和B班考试成绩的平均数相同(75分),标准差却迥然不同(A班为5.0,B班为15.0)。你是否有过这样的考试经历,一门课程有三分之二的同学成绩在70分至80分之间,而另一门课程的成绩则更加分散(三分之二的同学成绩在60分至90分之间)?标准差和平均成绩会准确地告诉我们每个班级的实际情况。
思考数值的自然分布趋势,你就会理解标准差的含义。数量较大的数据,如身高、智力分数或预期寿命等,通常会呈对称的钟形分布:大部分数值都落在平均数附近,只有较少数值落在两个极端附近。这种钟形分布非常典型,我们将其形成的曲线称为正态曲线(normal curve)。
正态曲线:一种对称的钟形曲线,可用于描述多种类型数据的分布情况;大多数数值都分布在平均数附近(约68%的数值位于一个标准差之内),越靠近极端位置的数值分布越少。正态曲线也称为正态分布。
如图1.10所示,正态曲线一个有用的属性在于,大约68%的个案都落在平均数两侧一个标准差的范围内,大约95%的个案落在两个标准差的范围内。因此,正如本书第10章显示的,大约68%的人的智力测验分数在100±15分的范围内,大约95%的人的测验分数在100±30分的范围内。
图1.10 正态曲线
能力测验的分数往往围绕着平均数形成一条正态曲线。以韦氏智力量表为例,其平均得分是100分。
检索练习
RP-2 数值分布的平均值是___,出现频率最高的数值是___,一半数值比它大、一半数值比它小的数值中间值是___。我们确定数值围绕平均数变化的程度,需要有关数值的____,需要使用___公式。
答案见附录D