1-2 获取样本的过程
样本是经过怎样的步骤进入我们手里的呢?本节就来梳理这个过程。
1-2-1 术语 随机变量
根据随机法则变化的量叫作随机变量。理解随机变量为什么重要十分关键。
1-2-2 湖中钓鱼的例子
为了便于说明,这里举一个例子。假设有一片小湖,我们在此钓鱼。小湖里只有 1 种鱼,其他河流湖泊里的鱼也不会游进来。鱼的钓取难度完全相同。钓起的鱼还要放回湖中,保证湖中鱼的数目不变。鱼也不会伤亡。
现在钓出了 1 条鱼,那么这条鱼就是样本,湖中的所有鱼就是总体。
从总体中获取样本叫作抽样。在上例中,我们钓出湖中所有鱼的一部分,这就相当于完成了一次抽样。
测量鱼的体长后,四舍五入取整,得到的结果是 3 cm。
1-2-3 从总体中获取样本的过程
假设明天也使用相同的装备去同一片湖钓鱼,这次也只钓 1 条。那么这次钓起的鱼会是多长呢?
这时就要请出对这片湖无所不知的湖博士了。假设湖博士知道湖中所有鱼的体长,那么这就意味着能够完美地推断总体。
从湖博士那里知道湖里有 5 条鱼,体长分别如下所示(四舍五入取整)。
2 cm:1 条
3 cm:1 条
4 cm:1 条
5 cm:1 条
6 cm:1 条
这里重申一下:湖里只有 5 条鱼(虽然有点少)。钓起 1 条鱼的动作和从这 5 条鱼中任选 1 条的动作等价。
不过,就算能完美地推断总体,我们也无法知道明天会从这 5 条鱼中钓出哪条。
钓出 2 cm 长的那条鱼的概率是 20%。
钓出 5 cm 长的那条鱼的概率也是 20%。
如果要预测明天钓出的鱼的体长,我们可以回答“体长是 2 cm 的概率是 20%”,但无法说钓取的鱼体长一定是 2 cm。
湖中游着 5 条鱼,体长分别如上所示,这些是已知的。然而,明天钓到的那条鱼的体长则是随机变化的,毕竟我们也不知道明天会钓到哪条鱼。
明天既能以 20% 的概率钓到 2 cm 长的鱼,也能以 20% 的概率钓到 3 cm 长的鱼。像这样,明天所钓到的鱼的体长会随机变化,所以我们就把这个体长看作随机变量,即把样本看作随机变量。
1-2-4 术语 样本值
下面开始讲解统计学的术语。
由随机变量得来的具体数值叫作样本值。
之所以专门存在样本值这个说法,是为了更明确地表示存在未知数据。
在钓到 3 cm 长的鱼的情况下,3 cm 这个数据就是样本值。当然了,湖里还有 2 cm 和 4 cm 长的鱼,如果这次钓到的是它们也不奇怪。
1-2-5 术语 抽样
从总体中获取样本叫作抽样。
从湖中钓鱼并测得鱼的体长数据,就是抽样。
通过问卷调查得到调查结果,也是抽样。
投掷骰子并记下得到的点数,同样是抽样。
1-2-6 术语 简单随机抽样
随机选择总体中各个元素的方法叫作简单随机抽样。随机钓起 1 条鱼的行为就可以说是简单随机抽样,也简称为随机抽样。
本书例子中的样本一般认为是通过简单随机抽样获取的。也就是说,如果有 5 条鱼,就规定每条鱼被选中的概率是 1/5;如果有 10 000 条鱼,则规定每条鱼被选中的概率是 1/10 000。
1-2-7 术语 样本容量
样本的大小或现有数据的个数叫作样本容量。
钓到 1 条鱼,则样本容量是 1。
样本容量就是样本的大小,一般使用“大”和“小”描述,而非“多”和“少”。
1-2-8 术语 普查与抽样调查
调查完整的总体叫作普查。
只调查总体的一部分叫作抽样调查。
湖博士曾经进行了普查,所以知道湖中的所有情况。不过,能进行普查的机会很少,一般只能根据总体的一部分(样本)来推断总体。