3.6 奇异值分解_Python快乐编程：人工智能深度学习基础-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

3.6　奇异值分解

3.5节中探讨了如何将矩阵分解成特征向量和特征值，但特征值分解只适用于方阵，而现实中大部分矩阵都不是方阵，比如电影推荐网站有m个用户，每个用户有n种偏好，这样形成的一个m×n的矩阵，而m和n很可能不是方阵，此时可以通过奇异值分解（Singular Value Decomposition，SVD）来对矩阵进行分解。

奇异值分解适用于任意给定的m×n阶实数矩阵分解，它将矩阵分解为奇异向量（Singular Vector）和奇异值（Singular Value），通过奇异向量和奇异值来表述原矩阵的重要特征。除了适用于降维外，奇异值分解还能应用于很多机器学习的工程领域，如图像降噪、购物网站的推荐功能等。

在3.5节中，使用特征分解分析矩阵A时，得到特征向量构成的矩阵V和特征值构成的向量λ，现在通过如下形式重新表示矩阵A：

A=Vdiag（λ）V-1

设A是一个m×n的矩阵，U是一个m×m的矩阵，D是一个m×n的矩阵，V是一个n×n矩阵，则矩阵A可以分解为如下形式：

A=UDVT

这些矩阵每一个都拥有特殊的结构。矩阵U和V都是正交矩阵，矩阵D是对角矩阵。

矩阵U={u1，u2，…，um}是一个m阶方阵，其中ui的值是矩阵ATA的第i大的特征值对应的特征向量。ui也被称为矩阵A的左奇异向量（left singular vector）。

对角矩阵D对角线上的元素为（λ₁，λ₂，…，λ_k），其中λ_i是矩阵ATA的第i大的特征值的平方根，被称为矩阵A的奇异值。

矩阵V={v1，v2，…，vn}是一个n阶方阵，其中υi的值是矩阵的列向量，被称右奇异向量（Right Singular Vector）。

奇异值分解可以高效地表示数据。例如，假设想传输如图3.11所示的图像，每张图片实际上对应着一个矩阵，像素大小就是矩阵的大小，图中包含15×25个黑色或者白色像素。

可以看出，图3.11实际上是由如图3.12所示的3种类型的列所组成。

图3.11　15×25像素阵列

图3.12　3种类型的列

通过由各元素为0或1的15×25矩阵来表示图3.11，其中，0表示黑色像素，1表示白色像素，矩阵如图3.13所示。

图3.13　图片的矩阵表示

奇异值往往对应着矩阵中隐含的重要信息，其包含信息的重要性与值的大小具有正相关性。每个矩阵都可以表示为一系列秩为1的“子矩阵”之和，通过奇异值来衡量这些“子矩阵”对应的权重。

如果对M进行奇异值分解，可以得到3个非零的奇异值（图3.13中只有3个线性独立的列，因此得到3个奇异值，矩阵的序为3）。假设得到的这3个非零奇异值为σ₁、σ₂、σ₃。矩阵可以通过如下表达式进行近似表达：

从图3.13中可以看到，该图可以近似由3个包含15个元素的行向量v_i，3个包含25个元素的列向量u_i，以及3个奇异值σ_i表达。因此，现在只需要123（3×15+3×25+3=123）个元素就可以表示这个矩阵，远远少于原始矩中的375个元素。

一般情况下，奇异值越大，所对应的信息越重要，这一点可以被应用于数据的降噪处理中。假如，在通过扫描仪将图3.11输入到计算机中可能会因为扫描机的原因在原图上产生一些缺陷，这种缺陷通常被称为“噪声”。这时可以通过奇异值对图像去噪。图3.14是一张扫描后包含噪声的图片。现假设那些较小的奇异值是由噪声引起的，接下来可以通过令这些较小的奇异值为0来达到去除图像噪声的目的。

假设通过奇异值分解得到了矩阵的以下奇异值，由大到小依次为：σ₁=14.15，σ₂=4.67，σ₃=3.00，σ₄=0.21，…，σ₁₅=0.05。可以看到，在15个奇异值中，从第4个奇异值开始数值变得较小，这些较小的奇异值便可能是所要剔除的“噪声”。此时，令这些较小奇异值为0，仅保留前3个奇异值来构造新的矩阵，得到如图3.15所示的图像。

图3.14　含有噪声的图像

图3.15　去噪后的图像

与图3.14相比，图3.15的白格子中灰白相间的图案减少了，通过这种对较小的奇异值置0的方法可降低图像噪声。