用Python动手学统计学
上QQ阅读APP看书,第一时间看更新

1-2 获取样本的过程

样本是经过怎样的步骤进入我们手里的呢?本节就来梳理这个过程。

1-2-1 术语 随机变量

根据随机法则变化的量叫作随机变量。理解随机变量为什么重要十分关键。

1-2-2 湖中钓鱼的例子

为了便于说明,这里举一个例子。假设有一片小湖,我们在此钓鱼。小湖里只有 1 种鱼,其他河流湖泊里的鱼也不会游进来。鱼的钓取难度完全相同。钓起的鱼还要放回湖中,保证湖中鱼的数目不变。鱼也不会伤亡。

现在钓出了 1 条鱼,那么这条鱼就是样本,湖中的所有鱼就是总体。

从总体中获取样本叫作抽样。在上例中,我们钓出湖中所有鱼的一部分,这就相当于完成了一次抽样。

测量鱼的体长后,四舍五入取整,得到的结果是 3 cm。

1-2-3 从总体中获取样本的过程

假设明天也使用相同的装备去同一片湖钓鱼,这次也只钓 1 条。那么这次钓起的鱼会是多长呢?

这时就要请出对这片湖无所不知的湖博士了。假设湖博士知道湖中所有鱼的体长,那么这就意味着能够完美地推断总体。

从湖博士那里知道湖里有 5 条鱼,体长分别如下所示(四舍五入取整)。

2 cm:1 条

3 cm:1 条

4 cm:1 条

5 cm:1 条

6 cm:1 条

这里重申一下:湖里只有 5 条鱼(虽然有点少)。钓起 1 条鱼的动作和从这 5 条鱼中任选 1 条的动作等价。

不过,就算能完美地推断总体,我们也无法知道明天会从这 5 条鱼中钓出哪条。

钓出 2 cm 长的那条鱼的概率是 20%。

钓出 5 cm 长的那条鱼的概率也是 20%。

如果要预测明天钓出的鱼的体长,我们可以回答“体长是 2 cm 的概率是 20%”,但无法说钓取的鱼体长一定是 2 cm。

湖中游着 5 条鱼,体长分别如上所示,这些是已知的。然而,明天钓到的那条鱼的体长则是随机变化的,毕竟我们也不知道明天会钓到哪条鱼。

明天既能以 20% 的概率钓到 2 cm 长的鱼,也能以 20% 的概率钓到 3 cm 长的鱼。像这样,明天所钓到的鱼的体长会随机变化,所以我们就把这个体长看作随机变量,即把样本看作随机变量。

1-2-4 术语 样本值

下面开始讲解统计学的术语。

由随机变量得来的具体数值叫作样本值

之所以专门存在样本值这个说法,是为了更明确地表示存在未知数据。

在钓到 3 cm 长的鱼的情况下,3 cm 这个数据就是样本值。当然了,湖里还有 2 cm 和 4 cm 长的鱼,如果这次钓到的是它们也不奇怪。

1-2-5 术语 抽样

从总体中获取样本叫作抽样

从湖中钓鱼并测得鱼的体长数据,就是抽样。

通过问卷调查得到调查结果,也是抽样。

投掷骰子并记下得到的点数,同样是抽样。

1-2-6 术语 简单随机抽样

随机选择总体中各个元素的方法叫作简单随机抽样。随机钓起 1 条鱼的行为就可以说是简单随机抽样,也简称为随机抽样

本书例子中的样本一般认为是通过简单随机抽样获取的。也就是说,如果有 5 条鱼,就规定每条鱼被选中的概率是 1/5;如果有 10 000 条鱼,则规定每条鱼被选中的概率是 1/10 000。

1-2-7 术语 样本容量

样本的大小或现有数据的个数叫作样本容量

钓到 1 条鱼,则样本容量是 1。

样本容量就是样本的大小,一般使用“大”和“小”描述,而非“多”和“少”。

1-2-8 术语 普查与抽样调查

调查完整的总体叫作普查

只调查总体的一部分叫作抽样调查

湖博士曾经进行了普查,所以知道湖中的所有情况。不过,能进行普查的机会很少,一般只能根据总体的一部分(样本)来推断总体。