妙趣横生的统计学:培养大数据时代的统计思维(第四版)
上QQ阅读APP看书,第一时间看更新

1.2.2 抽样方法

一个良好的统计研究必须具有一个代表性样本,否则样本存在偏差会导致结论毫无意义。我们依次检验一些普通的抽样方法,理论上至少能筛选出一个代表性样本。

1.简单随机抽样

在众多案例中,获得代表性样本的最好方法是在总体中进行简单随机抽样。随机抽样使总体中的每一个对象都有平等的机会被选入样本。例如,可以通过掷骰子选择总体中掷到6的人作为一个随机抽取的样本。但选择高于6英尺[1]的人作为样本并不是随机抽样,因为每个人被选择的机会不同。

在统计中,我们预先决定所需的样本容量。在简单随机抽样中,具有特定样本容量的可行样本都有均等的被选择的机会。例如,从你所在学校的全部学生中用简单随机抽样选取100个学生作为样本,你可以给学校中的每个同学编号,然后抽签选出100个人,只要确保每个学生的编号是唯一的,那么由100个学生组成的每一个可能样本被选中的机会就相同。你也可以通过计算机或者有内置随机数字生成器的计算器选择学生编号。

思考时刻

寻找计算器上的随机数字键(几乎每个科学计算器都有)。当你按下它时会发生什么?如何用随机数字键选择100个学生的样本?

因为对于特定容量的样本,简单随机抽样使每个样本有均等的被抽取机会,所以只要样本容量足够大,就能找到具有代表性的样本。

例3 当地居民抽样

你想在城镇的居民中进行投票选举,能否从当地的财产税收记录中通过简单随机抽样抽取名字?

答案 来自财产税收记录的样本不是该城镇总体人口的简单随机抽样样本,因为记录中只包含该城镇有财产的人,它不包括这个城镇的所有人,它可能还包括不在该城镇生活但在这里有不动产的人。

2.系统抽样

在一些案例中,尽管简单随机抽样十分有效,但是我们可以通过更简单的方法获得同样的结果。假设你要检验英特尔公司生产的微机芯片的质量。由于芯片靠流水作业线产出,你可以每隔50个抽取一个芯片作为样本。此样本是一个代表性样本,因为每隔50个抽取的芯片与其他芯片相比没有任何特殊的规律特征。这种形式的抽样方法被称作系统抽样。

例4 博物馆评估

美国航空航天博物馆想策划一个新的太阳系展览,工作人员对一个系统抽样的参观者样本进行采访调查。他选择每15分钟正好进入参观太阳系展览的人作为系统抽样的样本。他为什么使用系统抽样的方法而不是简单随机抽样来确定样本呢?在该案例中,系统调查更能抽取到有代表性的样本吗?

答案 简单随机抽样偶尔会间隔很短地选择两个参观者,这样的话,工作人员没有足够的时间去采访他们。而系统抽样每隔15分钟抽选一个参观者,很好地避免了这个问题。因为参观者在特定的时间进入,与早一点或晚一点进入没有任何不同,所以我们可以通过系统抽样得到有关总体的代表性样本。

例5 什么情况下系统抽样会失败

你准备调查男女混住的宿舍,其中男生被分配在奇数号房间,女生被分配在偶数号房间。当你每隔10个房间抽取1个房间时,能获得代表性样本吗?

答案 不能。如果你从奇数号房间开始抽取,每隔10个抽取的房间依旧是奇数号(比如房间号3,13,23,…)。同样地,如果你从偶数号房间开始每隔10个抽取一个房间,它依然是偶数号房间。因此,你获得的样本要么全是男生,要么全是女生,不具有男女混合的代表性。

思考时刻

在例5中,如果你每隔5个房间抽取1个,而不是每隔10个抽取,所得的样本是否具有代表性?

3.任意抽样

系统抽样虽然比简单随机抽样简单,但在某些情况下仍然不切实际。假设你想知道你所在学校惯用左手学生的比例,你将花费很大的精力去进行简单随机抽样或系统抽样,因为两者都要考虑到你所在学校的所有学生。然而,以你统计课班级的同学作为样本就会变得容易得多,你只需让班里惯用左手的同学举手以作统计。这种抽样方式叫作任意抽样。为了确定惯用左手学生的比例,以你所在的统计班级作为任意样本是不错的选择。因为该班级里惯用左手学生的比例和整个学校范围内惯用左手学生所占的比例没有什么不同。但如果你是研究不同专业同学的比例,该样本就会存在偏差,因为一些专业不需要学统计。总的来说,任意抽样比其他形式的抽样调查更容易出现统计偏差。

例6 沙拉酱口味测试

超市在考虑是否要引进一种新品牌的沙拉酱,所以提供免费试吃,以收集顾客意见。这里使用了哪种抽样方法?这个样本对总体购买者来说具有代表性吗?

答案 顾客试吃沙拉酱的样本是一个任意样本,因为这些顾客刚好在这个店里,并愿意尝试新产品(这种类型的任意样本是人们自己选择是否成为该样本的一部分,也称为自主选择样本,我们将在1.4节中详细介绍)。该样本不能准确地代表顾客总体,因为不同的人会在不同的时间进行购物。例如,在家休息的人通常比上班的人更趋向于在中午购物,并且仅仅是喜欢吃沙拉酱的人才有可能试吃。当然,数据仍然很有用。因为在这个调查中,喜欢吃沙拉酱的顾客的意见才最重要。

4.整群抽样

整群抽样是指将总体中的个体归类为随机的组或群。假设你在农业部门工作,并且想知道使用有机农业技术的农民所占的比例。如果用简单随机抽样或系统抽样去选取样本,会耗时耗力,因为需要去许多相距甚远的独立农场采集数据。使用某个县的农民作为任意样本又会出现偏差,因为不同地区的农业生产方式会有很大差异。你可以在美国范围内随机选择几十个县,对其中的每个农民进行调查。我们认为每个县都是一个农民群体,样本包含了随机选取的群体中的农民。

例7 汽油价格

你想知道离机场出租车站1英里[2]远的加油站的汽油平均价格。说明在本案例中使用的抽样调查方法。

答案 你可以在全美随机选取几个机场,调查离机场出租车站1英里远的所有加油站的油价。

5.分层抽样

假如你在策划一个预测下届美国总统选举结果的投票。研究总体为所有可能的投票者,你可以从中选择一个简单随机抽样样本。然而,由于总统选举以州为单位计算选举结果,如果你知道每个州投票者的偏好,就可以更准确地预测结果。因此,样本应该包括50个州中每个州各自的随机样本。在统计术语中,50个州代表不同子组或层级。因为样本是从每个层级中随机选择得到的,所以该方法叫作分层抽样。

例8 失业数据

美国劳工部每月调查60000个家庭来编制失业率报告(见1.1节,例2)。劳工部首先将县和市分成2000个不同的地区,然后在这些地区随机选择一些家庭进行调查。这是分层抽样吗?它的层级是什么?为什么在本案例中分层抽样很重要?

答案 失业率调查是分层抽样的一个案例,因为它首先将总体分成各子组。子组或层级是2000个地区的人。分层样本在本案例中十分重要是因为地区不同,其失业率也不同。例如,堪萨斯州农村和硅谷的失业率会存在很大差距。通过分层抽样,劳工部可以保证样本公平地代表所有地区。