数据挖掘技术及其在恒星光谱分析中的应用研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 背景知识

2.1.1 线性判别分析

线性判别分析从高维特征空间中提取最具鉴别能力的低维特征,使得在低维空间里不同类别的样本尽量分开,同时每个类内部样本尽量密集。

设有d维样本,其中表示第i个样本,N表示样本总数。设是一个的矩阵,每个列向量表示第i类的一个n维样本。其中,表示第i类中的第j个样本,表示第i类样本个数,c表示样本类别总数。所有样本的均值。设第i类的样本均值为(i=1, …,c),则有

Fisher准则函数定义如下:

其中,类间离散度矩阵SB和类内离散度矩阵SW分别定义为

由线性代数理论不难发现Wopt是满足等式

SBW=λSWW

的解。

线性判别分析面临两大挑战。

1.秩限制问题

下面考察类间离散度矩阵SB的秩,由前面的定义有

则类间离散度矩阵SB的秩为

式(2.1.2)表明LDA最多只能求c−1个非零特征向量,即LDA至多只能求c−1个判别方向,从而限制了更多判别信息的获得,进而造成分类性能的局限,这就是所谓的秩限制问题。

2.小样本问题

当样本总数大于样本维数时,类内离散度矩阵SW通常是非奇异的;否则,SW是奇异的。此种情况称为小样本问题。