给考古学家的统计学
上QQ阅读APP看书,第一时间看更新

第Ⅰ部分 数值探索

第一章 数组

茎叶图(Stem-and-Leaf Plots)

背靠背茎叶图(Back-to-Back Stem-and-Leaf Plots)

柱状图(Histograms)

多束或多峰(Multiple Bunches or Peaks)

练习

一个数组(batch)是一组相互关联的数值,是同一类事物的不同实例。最简单的数组例子是同一类事物中不同案例(case)的尺寸。比如,一组刮削器的长度、一组柱洞的直径和一组遗址的面积就是三个不同的数组。在这些实例中,长度、直径和面积都是变量(variables),而每一个刮削器、柱洞和遗址则是案例。

一个刮削器的长度、一个柱洞的直径和一个遗址的面积并不能组成一个数组,因为它们完全不相关。一个刮削器的长度、宽度、厚度也不能组成一个数组,因为它们不是同一件事物的不同实例;换句话说,它们是测量同一个案例的不同变量。20个刮削器的长度、宽度、厚度和重量不是一个数组,而是四个数组。这四个数组可能互相联系,因为它们是同一类事物20个案例4个变量的测量值。一个遗址的18个柱洞直径和另一个遗址的23个柱洞直径可以被看作一个数组(忽略柱洞的来源差别)。它们也可能被看作两个相关的数组(一个遗址的18个柱洞直径和另一个遗址的23个柱洞直径)。最后,按照不同的变量,它们可以被看作两种以不同方式区分的具有一定联系的数组(以直径为变量测量的41个案例,和以遗址为变量测量的41个案例)。以遗址为变量的41个案例是另一种类型的数组,我们暂且只讨论数值型变量。

茎叶图

一批测量数据需要经过组织或整理才能体现其特征,所以观察数组的第一步是组织数据。对于一组测量数据,茎叶图就是最基本的组织工具。如表格1.1的数组所示,我们可以在统一的标尺下对一个数组进行排序,以便于我们观察这个数组的分布特征。图1.1显示如何将表格1.1的数组变成茎叶图。首先,我们需要将数值分成茎部和叶部两部分。比如,在第一个案例中,直径9.7厘米被拆分成了茎部9和叶部7。每个数值的叶部被放置在它对应的茎部位置旁边。如图1.1,在茎叶图上用直线连接一些茎部和与它们相对应的叶部(为了避免连线过多造成视觉混乱,我们并没有把所有相对应的茎部和叶部连接起来)。

表格1.1 Black遗址13个柱洞的直径(厘米)

在茎叶图中,数组的若干特征得以显现。第一,大多数数值集中在9—12厘米区间内,两个数值(14.2厘米和7.6厘米)落在离这个区间稍微远的地方,一个数值(44.6厘米)与其他数值离得非常远。一个数组形成这样的聚集趋势比较常见。同样,如果一个或者少量的数值远离大多数数值集中的区间,这也是相对正常的。这些落在远离集中区间处的数值被称作异常值(outliers)。我们以后会更具体地讨论它们。现在只需要对它们保持谨慎态度即可。一个直径44.6厘米的柱洞是这个数组中非常异常的柱洞。我们可能怀疑它是否由于记录错误引起,所以可以尽快去查看遗址平面图或者照片,确定这是不是一个记录错误。如果是,就修改它。如果不是,这个数组中最明显的特征就是一个柱洞与其余的柱洞大小很不一致。

图1.1 表格1.1中数据的茎叶图

茎叶图可用不同单位的标尺来制作(即改变茎部标尺的单位刻度)。标尺的选择是制作茎叶图的核心。表格1.2是用图1.1数组的标尺做的另一个数组的茎叶图。然而,这些数值却非常分散,无法表达数组的特征。在表格1.3中,同样的数值却产生了完全不同的茎叶图。首先,和表格1.2相比,这些数值的茎部标尺单位不同,其茎叶分离处不是在小数点的位置,而是在个位数和十位数之间。因为叶部有两位数,我们用逗号来把叶部数值分开。为了避免单排数值过于密集,茎部同一刻度被分成了两排,下半部是较小的数值,上半部是较大的数值。经过这样处理后,数组特征在图上就可以得到比较清晰的表现。除了一个刮削器的重量比较异常,这个数组其他数值都集中在130—160之间。这个特征在表格1.2中比较模糊,但在表格1.3中却非常清晰。

表格1.2 Black遗址17个刮削器质量构成的分布过于分散的茎叶图

续表

表格1.4是数值分布更为密集的茎叶图。虽然茎部和叶部是分开的,但是茎部单位刻度各不相同,叶部每一区间的数值比表格1.3更为集中。在这个标尺中,数值的集中趋势仍然是明显的,但是异常值似乎太过于接近有集中趋势的数值,而不再显得那么不同了。由于这些数值太聚集,这个数组的特点——尤其是异常值——在这样的茎叶图上未得到清晰的表达。

表格1.3 Black遗址17个刮削器质量构成的分布适中的茎叶图

表格1.4 Black遗址17个刮削器质量构成的分布过于密集的茎叶图

表格1.5是这批数值的另外一种茎叶图。这一个茎叶图更加密集。这显然没有足够的空间显示数组的茎叶关系。表格1.3的异常值在这里也不是异常值了(虽然它仍在那里,但是由于采用了不妥当的标尺而变得不明显)。这样的茎叶图很难表达数组的特征。我们也可以绘制更为密集的茎叶图,如果茎部刻度是1,叶部数值就都在同一排了。

表格1.5 Black遗址17个刮削器质量构成的分布极度密集的茎叶图

一个合适的茎叶图应该避免表格1.2和1.5这两种极端情况。这些叶部应该有一个或者一个以上的分支,或者叶束。在表格1.2中,由于叶部分支过于分散,无法呈现数组的分布特征;当然,叶部分支也需要一定程度的分散,这样异常值才能从两个或两个以上的聚群中被区别出来。如果叶部分支过于拥挤,如表格1.5所示,我们也无法看到这样的模式。表格1.3和1.4的茎叶图标尺所表现的数组模式则较为清晰(表格1.3显然比表格1.4更加清晰)。

不同的统计学家会通过采用不同茎部标尺来改变茎部长短,从而制作出略微不同的茎叶图。只要能清晰地表达数组的分布特征,采用何种制图方式并不重要。制作茎叶图有两个重要的原则:第一,数值之间的距离要能够表现成空间上的垂直距离分布。第二,每一个叶部分支的数值间距一定是等距的。比如,3.0—3.3,3.4—3.6,3.7—3.9就不是好的间距,因为间距是不相等的。这样一定会在茎部刻度间距较大的地方分布较多的叶部数值,进而影响我们观察茎叶图数值水平分布聚集度和数值分布状态。

在本书中,茎叶图中较小的数值对应茎的下部,较大的数值对应茎的上部。然而,在许多统计软件所制作的茎叶图中,通常是大的数值在下,小的数值在上。这容易造成不必要的混淆。但无论如何,茎叶图显示的都是一样的特征。

最后,在本章的茎叶图中,叶部每个分支的数值都按从小到大的顺序排列。排序方式对于我们在本章讨论的数组模式没有影响,但对于第二章和第三章里讨论的主题则有影响。虽然制作一个茎叶图需要花费一定的时间,但这样的努力是值得的。

表格1.6 Smith遗址15个柱洞的直径(厘米)

背靠背茎叶图

茎叶图不仅是观察单个数组的基本工具,还是比较多个数组的基本工具。表格1.6的数组是Smith遗址的柱洞直径,我们想把它们与Black遗址的柱洞直径进行比较(表格1.1)。这两组数值虽然属于不同遗址,但它们是对相同变量(柱洞直径)的测量值,所以我们可以在这两组数值之间建立联系。如果我们把以上两个数组放在同一茎叶图的两侧,就形成了表格1.7的背靠背茎叶图。

表格1.7 Black遗址和Smith遗址柱洞直径的背靠背茎叶图(数据来自表格1.1和1.6)

续表

在表格1.7中,我们看到Black遗址的柱洞直径大多集中在9—12厘米之间,同时也有一个数值异常大的柱洞直径(44.6厘米)。Smith遗址的数组分布位置比Black遗址高。换言之,Smith遗址的柱洞直径普遍比Black遗址的柱洞直径更大。经过比较,我们可以发现这两组数值的分布状态大致能准确反映它们之间的差异。

表格1.8 Kiskiminetas河谷29个遗址的面积

续表

柱状图

茎叶图是探索性数据分析的创新,虽然在考古文献中出现过,但在数据分析中并不常见。考古学家往往倾向于用更加熟悉的柱状图来组织数据(柱状图与茎叶图有类似的功能)。鉴于大家对柱状图比较熟悉,我们在此不对其做详细介绍。表格1.8是Kiskiminetas 河谷29个遗址面积的茎叶图。图1.2是同样数组的柱状图,其实就是将茎叶图放平,而柱子就变成了茎叶图的叶部。在柱状图中,我们也能够观察到茎叶图中大部分数组的分布特征。在制作一张柱状图时,制作者同样需要选择标尺单位和间隔,制作茎叶图的原则同样适用于柱状图的制作。柱状图的优点是较为简洁,能在审美上和熟悉度上让考古学家更为满意。茎叶图的优点是展现实际数字信息。我们将在第二章和第三章对这个优点有更多讨论。总的来说,茎叶图和柱状图从根本上服务于同一目的。

多束或多峰

表格1.8呈现了数组的另一个特征。这个特征有时候会在茎叶图和柱状图上明显体现出来。这个茎叶图里的数组有两个分开的束,其中一个是在1.5—5公顷之间,另一个是在7—16公顷之间。两个分开的束像两个小山峰一样,在柱状图中非常明显(图1.2)。这样多峰和多束的模式表明数组可能是两种不同的遗址。在这个例子中,就是大小两类遗址。我们可以称它们为大遗址和小遗址。在茎叶图和柱状图中,二者是明显不同的。在讨论大遗址和小遗址时,我们不是将它们任意分为大小两类,而是根据数组内部分布特征进行区分。在茎叶图中,我们可以迅速看出大遗址数量较多,但是小遗址也足以形成独立的山峰。这说明小遗址不是异常值,而是另一组不同的遗址。

图1.2 Kiskiminetas河谷29个遗址面积的柱状图和茎叶图

数组中多峰的存在经常表明两类或两类以上不同观察对象被混在一起。举一个极端的例子,我们可以测量一组餐盘的直径和下水道井盖的直径,如果我们将它们的直径当作一个数组,你可以马上在茎叶图里观察到两个分开的山峰。在只知道直径而不知道它们物质属性的情况下,你可能会猜测我们测量了两种截然不同的东西。虽然我们不了解它们的物质属性,但应根据茎叶图的特征将其分成两个数组。然而,我们的首要任务就是进一步寻求相关信息,去探究被测量物的物质属性。在发现这个数组是餐盘和井盖的直径后,你的反应一定是“难怪如此,现在我明白了!”这个反应完全合理,同时也为数组分组提供了合理依据(这也是建立在对茎叶图观察的基础上)。

统计软件(Statpacks)

茎叶图简单直观,绘制也比较容易——仅仅用铅笔和纸,就可以迅速将数字排列成数组。当用笔和纸手工制图时,制作者一定要小心地将数值茎部和叶部垂直排列。这样数组的特征就会被准确地表现出来。用Word处理器来绘制茎叶图也比较简单。在将数值茎部和叶部垂直排列时,需要将数字的字形宽度统一。不同的字形宽度会影响对数值分布特征的观察。制作茎叶图最简单的工具是计算机的统计软件。统计软件会自动完成所有的制图操作,包括为茎部选择合适的单位刻度或间距。大部分统计软件都有茎叶图分析工具,少部分除外。

柱状图比茎叶图制作起来更耗时,但很多统计软件都有这个功能。真正的统计软件都能够制作完美的柱状图,因为编程者心里非常清楚我们这一章讨论的内容。另外,许多软件也能绘制条形图。条形图乍一看像柱状图,但它其实是不同的工具——我们在第六章会讨论。

需要重申的是,在茎叶图中,我们对多峰的数组无法进行进一步的分析。对这个问题的唯一解决方式就是将它们分成不同的数组,并进行单独分析。我们最好可以根据被测量物的其他特征来进一步地划分数组。如果没有可识别的特征,我们只能根据茎叶图和柱状图的分布特征进行区分,沿着数组中两个山峰中间的山谷画一条线。针对图1.2的数值,这样划分尤其简单。山谷中的最低点是6公顷。因为没有任何一个遗址的面积是6公顷,所以小遗址的面积是1—5公顷,大遗址的面积是7—16公顷。对于此类案例,如果山谷的底部没有明显的间断,分割线也许不会那么明显,但是无论如何一定要划分才能进行进一步的分析。

练习

表格1.9和1.10是两个数组(来自两个遗址的刮削器长度)。这些刮削器的原材料是燧石和黑硅石。这些数值可以被看作同一个数组(因为它们同是刮削器的长度,不管它们用什么原材料制作,也不管它们来自哪个遗址)。我们可以根据不同标准将其分为两个相关的数组:根据刮削器出土的遗址将这个数组分成两个数组(表格1.9和表格1.10就以此形式呈现);也可以根据原材料的不同将这个数组分成两个不同的数组(忽略出土遗址)。

表格1.9 Pine Ridge Cave遗址的刮削器

表格1.10 Willow Flats遗址的刮削器

1.将所有刮削器长度视为一个数组,制作刮削器长度的茎叶图。采用不同的茎部单位刻度(间隔),制作茎叶图,并选取最合理的单位刻度(间隔)。你在图上看到了什么样的分布特征?

2.将Willow Flats遗址和Pine Ridge Cave遗址的刮削器当作两个数组(暂时忽略它们的原材料),制作背靠背茎叶图。这两个数组有什么不同?你能否观察到有助于理解问题1中所见茎叶图的特征?

3.将燧石刮削器和黑硅石刮削器当作两个数组(忽略它们的出土遗址),制作背靠背茎叶图。这两个数组有什么不同?你能否观察到有助于理解问题1中茎叶图的特征?