1.4 一份标准试卷是怎么设计出来的
样本的随机性是大数定理和中心极限定理成立的基础,那么如何才能保证样本的随机性?随机抽样中应尽量避免的问题是什么?常见的抽样方法又有哪些?不随机的抽样会导致什么样的后果?本小节讨论了这些问题。
1.4.1 抽样时真的能做到完全随机吗
上文已经详细介绍了大数定理和中心极限定理的内容。容易想到,既然样本均值与总体均值之间存在密不可分的关系,那么,抽样调查的有效性就是毋庸置疑的。上文也回答了如何估计样本均值与总体均值之间的误差,至此,有关抽样调查的主要理论已经学习完了。但是,我们还没涉及最基本的部分,即如何抽样。
“样本自总体中随机抽取得到”是大数定理和中心极限定理的必要前提条件,那么如何才能做到随机抽取样本呢?答案是很难做到。
就人类现有技术来说,要做到完全随机抽样是不可能的,我们只能做到尽量随机。而且,即便是完全随机抽样,样本中的信息也一定少于总体中的信息,因此,用样本去估计总体就必然会存在偏差。
当样本的随机性比较好时,样本的情况比较能够代表总体,二者的偏差会尽可能小。但是当样本严重不随机时,就会得到可笑的结论。
在“二战”时,美英空军的飞机专家打算研究战斗机受损情况,对飞机进行改进。专家们检查了执行任务归来的飞机,发现所有飞机的机腹都伤痕累累,尾翼却较为完整,于是专家们建议,机腹非常容易受到防空炮火攻击,应该加强机腹的防护。
很明显,这是一个非常离谱的建议。专家们在进行调查时,就严重违背了样本随机性的原则。他们只检查了成功返航的飞机,而没有检查被敌军击落的飞机,因此,得出的结论也是错误的。
尽管将击毁的飞机从战场上拖回来是不可行的,但是根据逻辑推理即可得知,正是因为被击中了尾翼,飞机才未能返航,因此,正确的建议应该是加强尾翼的防护。(“二战”时战斗机的发动机多在尾翼)
在前言中提到了美国《文摘周刊》在1936年进行的民意调查,它是另一个典型的反面例子。回忆一下1.2小节和1.3小节的内容,两千多名美国民众完全可以代表全体美国人的意见,《文摘周刊》之所以犯错,并不是因为它选取的样本数不够多,而是因为它选的样本不够随机,样本代表性不够强。
其他的民意调查也有类似的缺陷。如果采用电话调查,样本就不能反映没有电话的那批人的意见;如果采用问卷邮寄调查,样本又不能反映不愿意回寄调查问卷的人的想法。总之,想要让样本能够代表总体,是一件很复杂的事情。
在我国,每一个人的籍贯都被记录在案,因此,按着不同地域间人口比例的不同来确定各个地方抽取的样本个数,即可得到一份代表性较好的样本。在其他国家,比如美国,则从电话交换机组中随机抽取一个,确保被调查的人按比例分布在美国不同区域,然后给他们狂打电话。
注意,做民意调查最重要的就是不要随意更改已经确定的样本,比如,你发现一个抽到的电话无人接听,那你最好不要贸然用另一个电话号码换掉它,而是要一直拨打到他接为止,否则,你的调查就可能会无视一些不愿意接听陌生来电的人的意见。
1.4.2 确保高考试卷的公平性
我上高三的时候,有一次,数学考了满分,当时我真的惊呆了。我认真研究了一下那份试卷,发现它出了很多立体几何的题目,微积分的题目非常少,而且非常简单。我一向比较擅长立体几何,微积分则是我的弱项。
高兴劲儿过去后,我意识到这只是个巧合,然后我陷入一种深深的困扰中。万一高考时出了很多微积分的题目怎么办?于是我看了看以往的高考试卷,发现考点分布得非常均匀,每一章知识点几乎都有体现,这让我松了一大口气。
这并不是一个偶然现象,实际上,高考命题组采取了一些措施来确保高考试卷能够公平公正地选拔人才。
首先,考题涉及的知识点应该是全面的,以避免像我这样的学生突然考了个高分,或者突然考了个不及格。其次,考题的难度应该适中。如果一道题目简单到每个考生都能答对,或者难到每个考生都答不出来,那它就起不到选拔人才的作用。最后,出题老师的选择应该不带偏颇性,即仅以老师的教学水平作为选择的标准。
从统计学的角度来看,高考试卷的设计过程涉及了多种抽样方法。试题知识点的选择利用了分层抽样。高考试卷的形式是一早就确定好的,一份数学卷包含几道选择题、几道填空题等,这些都是已经规定好的。命题组在开始出卷之前,就已经商量好哪个老师负责哪一部分题目,以及哪道题考查哪一章节。
如果把数学课本看成一个大蛋糕,命题组就是把这块蛋糕分成了好几块,每个老师各自负责一块蛋糕。比如某个老师负责古典概率章节的题目,他会随机从这一章中挑几个知识点出来整合成一道题目,负责其他章节的老师也是如此。
这样,尽管每个老师都是随机挑选的知识点,但每个老师的选择范围有限,整张试卷也就涵盖了全部高中数学知识。这种先将整体划分成好几个部分,再在每个部分里进行随机抽样的方法就叫作分层抽样。使用分层抽样时应注意在不同部分抽取的样本数与该部分的总体数目成正比。
确定题目的难易程度则使用了简单随机抽样。一张试卷中总是有的题目简单,有的题目难。具体哪些题目比较简单、哪些题目比较难则受到许多偶然因素的影响。不过总的来说,这是一个简单随机过程,就像掷骰子一样,由命题老师随机做出决定。
除去分层抽样和简单随机抽样外,常见的还有系统抽样和整群抽样等抽样方法。系统抽样的特点是先将样本排好序,再按照相等距离抽取样本,比如教务处抽查作业时会要求学号尾号为2的学生上交作业,这就是系统抽样。
整群抽样则是将样本分成几个部分,并调查某一部分内的全部样本,比如任课老师总喜欢将全班学生分成几个小组,在不同的日子里收取不同小组的作业,这就是整群抽样。
1.4.3 抽样调查的一些补充要点
样本的随机性决定了大数定理和中心极限定理是否会起效,也就决定了调查结果的准确性。因此,抽样方法的选择是十分重要的。
在1.4.3一节中介绍了几种常用的抽样方法,其中,简单随机抽样适用于样本个数较少的情况,小型的抽样调查通常会选用这种抽样方法;分层抽样适用于样本较多且具有明显的层次性的情况,比如在做全国调查时,通常会根据每个地区的人数来决定每个地区抽取的样本数;系统抽样常用于样本有明确标号的情况,比如抽查某工厂的产品;整群抽样则常用于生物学领域。
总之,无论是哪种抽样方法,其目的都是确保样本的随机性,从而确保抽样调查的随机性。在做抽样调查时,统计学家需要精巧地设计抽样方法,尽可能全面地考虑到各种因素。
曾经有一个心理学家想研究一下人们在性方面的某些真实看法,为了确保被调查者能如实填写问卷,他设计了两份问卷,一份是有关性的,另一份是普通的调查表,被调查者在填写问卷前,要先抽一个签,抽到偶数就做第一份问卷,抽到奇数则做第二份问卷。每个人的问卷信息都得到了充分的保密,因此心理学家也就得到了相当真实的信息。这个抽样调查的设计无疑就是十分精巧的。
如果样本不够随机,就会导致调查结果的失真。如果总体中的数据比较均匀地混杂在一起,样本不够随机所导致的结果失真就比较严重;如果总体中的数据的混杂程度并不均匀,样本不够随机所导致的结果失真就不太严重。
以定性的抽样调查来说明这个结论。假设我国有50%的人认为自己很幸福,有50%的人认为自己不幸福,在做抽样调查时抽取的样本产生了20%的偏差,将认为自己不幸福的人多估计了20%,那么调查结果的显示就是我国有40%的人认为自己很幸福,有60%的人认为自己不幸福。
以上是数据均匀混杂的情况。下面考虑数据呈现两极分化的情况。假设我国有90%的人认为自己很幸福,有10%的人认为自己不幸福,在做抽样调查时抽取的样本同样产生了20%的偏差,将认为自己不幸福的人多估计了20%。那么调查结果的显示就是我国有88%的人认为自己很幸福,有12%的人认为自己不幸福。
以上的数据可以用1.3.3小节中的标准误差计算公式s=计算得出。总之,在总体数据的趋向不明显时,一点点的抽样误差所导致的错误都会无限放大。回想1.4.1小节中《文摘周刊》预测新总统的例子,考虑到总统候选人的支持率总是在50%上下剧烈波动,而《文摘周刊》所犯的抽样错误又十分明显,其预测结果的谬误也就十分合理了。