统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

7.6 PCA的代数特征

PCA通常需要用到相关系数矩阵,这意味着PCA用的是标准化的变量,其均值=0,方差=1。

1)每个PCi

有一个方差,也称作特征根或特征值,使得

a.Var(PC1)取最大值。

b.Var(PC1)>Var(PC2)>…>Var(PCp)。

i.等式有可能成立,但是出现概率很低。

c.Mean(PCi)=0。

2)所有PC变量是互不相关的。

3)与每个特征根i关联的是一个特征向量(ai1,ai2,…,aij,…,aip)作为原始变量的线性组合的权重,构成PCi

4)PC变量的方差之和(即特征根之和)与原始变量的方差之和相等。由于这些变量是标准化的,所以可得到等式:特征根之和=p。

5)k个PC变量占p个原始变量的方差的比例=前k个PC变量的特征根之和/p。

6)Xi和PCj的相关系数等于aij*sqrt[Var(PCj)]。这个相关系数称作一个主成分负载。

7)确定显著负载的经验法则是:如果负载aij满足下面的不等式,则aij是显著的:aij>0.5/sqrt[Var(PCj)]

8)一个原始变量的所有主成分变量负载的平方和表示该变量的方差有多少可以归因于这些主成分变量。

9)Var(PC)取值小(小于0.001)意味着多重共线性很高。

10)Var(PC)=0意味着存在完美的共线性。