![TensorFlow知识图谱实战](https://wfqqreader-1252317822.image.myqcloud.com/cover/115/44510115/b_44510115.jpg)
3.2.3 最小二乘法的梯度下降算法及其Python实现
下面介绍一下如何使用梯度下降算法计算最小二乘法。从前面的介绍可以看到,任何一个需要进行梯度下降的函数可以被比作一座山,而梯度下降的目标就是找到这座山的底部,也就是函数的最小值。根据之前道士下山的场景,最快的下山方式就是找到最陡峭的山路,然后沿着这条山路走下去,直到下一个观望点。之后在下一个观望点重复这个过程,继续寻找最陡峭的山路,直到山脚。
在实现这个过程去求解最小二乘法的最小值之前,先介绍部分需要读者掌握的数学原理。
1.微分
高等数学中对函数微分的解释有很多,最主要的有两种:
- 函数曲线上某点切线的斜率。
- 函数的变化率。
对于一个二元微分的计算如下所示。
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P77_8404.jpg?sign=1739127077-qHfbBcotMGuE3gfTA1IEnzRJj4OHwfbh-0-22daf7c3f664129123940df1009f3629)
2.梯度
所谓的梯度就是微分的一般形式,对于多元微分来说则是各个变量的变化率总和,例如:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P77_8405.jpg?sign=1739127077-pHuAI4NGLbQlOnWpuP58tdbF4Hu6DzCw-0-a6ca76924c7641782d1d63cb793a85c4)
可以看到,求解的梯度值是分别对每个变量进行微分计算,之后用逗号隔开。这里用中括号[]将每个变量的微分值包裹在一起,形成一个三维向量,因此可以将微分计算后的梯度认为是一个向量。
在多元函数中,梯度是一个向量,而向量具有方向性,梯度的方向指出了函数在给定点上上升最快的方向,如图3.9所示。将这个与上面道士下山的过程联系在一起,如果需要到达山底,则需要在每一个观察点寻找梯度最陡峭的地方。梯度计算的值是在当前点上升最快的方向,那么反方向则是给定点下降最快的方向。梯度的计算就是得出这个值的具体向量值。
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P78_4925.jpg?sign=1739127077-PvBPTFz1whZ28xmLKPHuOkNZJAjQBEtG-0-edcca19aaa4a669b69067637d78f35e5)
图3.9 梯度的方向性
3.梯度下降的数学计算
前面给出了梯度下降的公式,接着对其进行变形:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P78_8406.jpg?sign=1739127077-WFRH8tn0pAl0QCPHoOLFxkhC9yMvVtCQ-0-6a56cb9f0d18d0d332774e9988d8b00c)
此公式中的参数含义如下:
是关于参数
的函数,假设当前点为
,如果需要找到这个函数的最小值,也就是山底,那么首先需要确定行进的方向,也就是梯度计算的反方向,之后走
的步长,之后到达下一个观察点。
的意义在上一节已经介绍,是学习率或者步长,使用
来控制每一步走的距离。
过小会造成拟合时间过长;
过大会造成下降幅度太大,从而错过最低点,如图3.10所示。
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P78_4926.jpg?sign=1739127077-mdJSB8u4HRGsL0d1N6cPim5LJAhNFDSR-0-a45bb7952d58c1777db0767ae5dbeb7b)
图3.10 学习率太小(左)与学习率太大(右)
需要注意的是,地图下降公式中求出的是斜率最大值,也就是梯度上升最大的方向,而这里所需要的是梯度下降最大的方向,因此在
前加一个负号。下面用一个例子演示梯度下降法的计算。
假设这里的公式为:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P79_8437.jpg?sign=1739127077-XPyO1GQzhxQ0BmoCvZXoMx0yBjJ8Tebi-0-5023a8f5e5528679407335f12a4c0815)
此时的微分公式为:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P79_8439.jpg?sign=1739127077-tcjvL3irWLj8idtvcWzHEszwVjGbC7xi-0-c7680df6e39de5e25649095ea293a724)
设第一个值,
,则根据梯度下降公式可得:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P79_8441.jpg?sign=1739127077-D6ImDkuoTjCUxQbUvzEW8mK6JMGelWGK-0-b62030508e6a173e3bdb97401dc56d9b)
这样依次经过运算即可得到的最小值,也就是“山底”,如图3.11所示。
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P79_4934.jpg?sign=1739127077-mNv58sKFxqkLGsB03NjzfmSDFBgeCho4-0-f0503d2d367af94fcbaa3d2b579db11e)
图3.11 梯度下降法的计算
实现程序如下所示。
【程序3-3】
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P79_8451.jpg?sign=1739127077-KdjVWdJroWiAn459kc0CaDJQfoUBsgar-0-0c4470f279b22ef339477e2b9d1533de)
多变量的梯度下降方法和前文所述的多元微分求导类似。例如,一个二元函数形式如下:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P79_8453.jpg?sign=1739127077-VuY5WYiyiinh2yqAk5WQlD1ab7h6iCHR-0-66b0a3f4369b6a63faca556cb85e32dd)
此时对其的梯度微分为:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P80_8454.jpg?sign=1739127077-M9HMY7qGR3pTq0FVKHPKd5FloM2Ck3DN-0-da22be33135f1cc5e25c34c7fd108f9e)
此时将设置:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P80_8456.jpg?sign=1739127077-jQGCNURMlk3hixRjxq5NpvkXDafpi2Ag-0-ddaa0ef7190efeae1390431643adec23)
则依次计算的结果如下:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P80_8458.jpg?sign=1739127077-cvxHdXjEOnK7NdXDhc1jCGrtFwHMsL78-0-fe8f5214cbe47f34fd9235d2e5ef7180)
剩下的计算请读者自行完成。
如果把二元函数的函数采用图像的方式展示出来,那么可以很明显地看到梯度下降的每个“观察点”坐标,如图3.12所示。
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P80_8459.jpg?sign=1739127077-Ze9xlOSIme0xqKMk8odfKvQvVJaiDFUA-0-8bdc4f61dc576a23b16332f422f2f745)
图3.12 梯度下降的可视化展示
4.使用梯度下降法求解最小二乘法
下面是本节的实战部分,使用梯度下降算法计算最小二乘法。假设最小二乘法的公式如下:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P80_8461.jpg?sign=1739127077-4py3MULjJb5C4tzSZt5U2Abh6inYZbVw-0-670544e87cbbfafd8867bb7b11913d1a)
参数解释如下:
- m:是数据点总数。
- 1/2:是一个常量。这样是为了在求梯度的时候将二次方微分后的结果与1/2抵消,也就没有多余的常数系数了,方便后续的计算,同时不会对结果有什么影响。
- y:是数据集中每个点的真实y坐标的值。
:为预测函数,形式如下:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P81_8472.jpg?sign=1739127077-vC23zKp61cDLfTsEC5hCnN2LWhlsQly3-0-89bc83d13c188b9ce8f2ffae25d8434f)
根据每个输入x,有一个经过参数计算后的预测值输出。
的Python实现如下所示:
h_pred = np.dot(x,theta)
其中,x是输入的维度为[-1,2]的二维向量,-1的意思是维度不定。这里使用了一个技巧,即将的公式转化成矩阵相乘的形式,而theta是一个[2,1]维度的二维向量。
依照最小二乘法实现的Python为:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P81_8481.jpg?sign=1739127077-SCDQIUaicwYGQsjs5UAQ93yrdATFq0jf-0-56c4de60faea78914be2e987c67b590c)
这里j_theta的实现同样是将原始公式转化成矩阵计算,即:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P81_8483.jpg?sign=1739127077-hv8kbvP69iA4e8dV6f2zKFyx53VCHFNn-0-b980e8fdfd6695c6fe42b4e8ef1dd4e2)
下面分析一下最小二乘法公式。要求
的梯度,则需要对其中涉及的两个参数
和
进行微分:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P81_8485.jpg?sign=1739127077-HXc4M7StYVinAD4l2jg5TCb3zIyH7719-0-acd52a2d29a92fa1de7b46478ff5ac5a)
下面分别对两个参数的求导公式进行求导:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P81_8342.jpg?sign=1739127077-cClYIdQy15MWD114Xy0ZV1F3xZjryGfj-0-ca92a5c65b10cad4e0df2ed13d9010c8)
将分开求导的参数合并可得新的公式:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P81_8344.jpg?sign=1739127077-d0KQqgT8DW9gSftEmz2vf9B98lvQ9vgm-0-ac9c090da8dde784bf6923d6e19bef85)
公式最右边的常数1可以去掉,即:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P81_8497.jpg?sign=1739127077-TN7O8KLrspn9gSBg1k9ZfkiC8wo9h6qj-0-a1bf20ad476be82c424ad7d676b5eb22)
依旧采用矩阵相乘的方式,则使用矩阵相乘表示的公式为:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P81_8499.jpg?sign=1739127077-b9qMR9tJRfcw8mwW7FcXhHhWxC2cYqKh-0-8dc37340f3479d75f26bf846873ba0f0)
这里已经转化为矩阵相乘的表示形式,使用Python表示如下:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P81_8503.jpg?sign=1739127077-bHNuN02NtB7Xz5GmOF3kmCzEy9VA2xeV-0-a6c0641ec52815c6b43073b42f86ce48)
其中,np.dot(np.transpose(X), h_pred)。如果对此理解有难度,可以将公式使用逐个x值的形式列出来,这里就不罗列了。
最后是梯度下降的Python实现,代码如下:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P82_8507.jpg?sign=1739127077-8UIKEzwZvt9zm7iOETFu7bE691N5N4IM-0-0fbf6176d93e2f36006fa331615b8518)
或者使用如下代码:
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P82_8509.jpg?sign=1739127077-ReVvodHyfTya2MpRzx86p3qDit9Ckx6K-0-09e0b42fb22063124da5fa3d2dac49cf)
这两组程序段的区别在于第一个是固定循环次数,可能会造成欠下降或者过下降,而第二个代码段使用的是数值判定,可以设定阈值或者停止条件。
全部代码如下所示。
【程序3-4】
![](https://epubservercos.yuewen.com/281CEB/23721624209516806/epubprivate/OEBPS/Images/Figure-P82_8511.jpg?sign=1739127077-oOgKLMs8IIJ9vde9i8TXA9FhMABCNXtw-0-3bc2a6a48ea355d44caa38e9d90397c8)
打印结果和拟合曲线请读者自行完成。
现在回到道士下山的问题中,这个下山的道士实际上代表的是反向传播算法,而要寻找的下山路径代表着算法中一直在寻找的参数,山上当前点最陡峭的方向实际上是代价函数在这一点的梯度方向,场景中观察最陡峭方向所用的工具就是微分。