数据、模型与决策:基于Excel的建模和商务应用
上QQ阅读APP看书,第一时间看更新

3.2 样本数据的统计分析

抽样是随机进行的,因此样本数据的属性,如样本数据的均值、方差、标准差、标准误等也是随机变量。这些随机变量具有怎样的统计特性,是我们关注的问题。

首先来研究样本均值、方差、标准差与样本数n的关系。

例3.3 用函数RAND产生1000个随机变量作为总体(C8:C1007),分别随机抽取样本1(G8:G57)、2(K8:K107)和3(O8:O207),样本数分别为50、100和200。三个样本的均值、方差和标准差如图3.7所示。见光盘文件“例3.3样本的均值、方差和标准差与样本数的关系”。

图3.7 样本的均值、方差、标准差与样本数的关系

从图3.7可以看出,样本数越大,样本的均值、方差、标准差越接近总体相应的数值。

如果抽样是随机的,样本的均值也是一个随机变量。下面我们来研究,样本均值这个随机变量服从什么样的分布。

例3.4 在Excel表中用函数RAND产生100列、100行共10000个随机变量总体。这个总体的10000个随机变量的分布如图3.8所示。见光盘文件“例3.4样本均值的频数分布”。可以看出,总体服从均匀分布。

图3.8 总体的频数分布图

每次抽取一列作为一个样本,得到100个样本。计算这100个样本的均值,并且统计这100个样本均值的频数,画出频数直方图。以上总体和样本的Excel表如图3.9所示。

图3.9 样本均值的频数分布图

由图3.9可以看出,100个样本均值的分布和总体完全不同,样本均值的频数图是以总体均值0.5为中心,中间频数大而两端的频数逐渐减小的图形。

概率论中有一个非常重要的定理——中心极限定理。该定理的内容是:无论总体服从何种分布,只要样本数足够大,样本均值{L-End} 服从正态分布。这个正态分布的均值等于总体均值μ,标准差等于{L-End} ,其中σ为总体标准差。因此,当样本数n很大时,样本均值的标准差{L-End} 将会逐步接近零。也就是说,当样本数足够大时,样本均值{L-End} 和总体均值μ将会非常接近。

以上样本均值标准差的计算公式假定每次抽取的样本是放回的,如果样本是不放回的,样本的标准差{L-End} 要乘以一个校正系数{L-End} ,从而变为{L-End} 。如果样本数n与总体数量N相比很小,校正系数{L-End} 接近1,放回与不放回的抽样差异不明显。