统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

7.5 示例详解

我们看表7.2中的四个教育普查变量(X1,X2,X3,X4)的相关系数矩阵和表7.3中对应的PCA结果。

讨论

1)由于有4个变量,所以有可能从相关系数矩阵中抽取出4个主成分变量。

2)PCA的基本统计量是:

a.4个方差:特征根(LR1,LR2,LR3,LR4),按大小排列。

b.相应的权重(如系数)向量:特征向量(a1,a2,a3,a4)。

3)系统或数据集的总方差是4——4个(标准化)变量的方差之和。

4)每个特征向量包含4个要素,每个对应一个变量。

对应a1,有

[-0.5514,-0.4041,0.4844,0.5457]

这4个系数对应第一个最大的PC变量,其方差是2.6620。

表7.2 X1,X2,X3,X4的相关系数矩阵

表7.3 相关系数矩阵的特征根(方差)和特征向量(系数)

5)第一个PC变量是线性组合:

6)PC1解释了这4个变量总方差的66.55%(100*2.6620/4)。

7)第二个PC变量是线性组合:

它具有第二大的方差1.202,这解释了4个变量总方差的20.59%(100*0.8238/4)。

8)前两个PC变量加起来解释了4个变量总方差的87.14%(66.55%+20.59%)。

9)对于第一个PC变量,前两个系数是负数,而后两个系数是正数。那么我们对PC1的解读是:

a.这是一个最高学历是高中的人与至少上过大学的人之间的对比。

b.在PC1的高分值对应的邮政编码所在地区的人中,至少上过大学的人的比例大于最高学历是高中的人的比例。

c.在PC1的低分值对应的邮政编码所在地区的人中,至少上过大学的人的比例小于最高学历是高中的人的比例。