机器学习中的加速一阶优化算法
上QQ阅读APP看书,第一时间看更新

2.1 梯度下降法

本节考虑如下无约束凸优化问题

030-1

梯度下降法是机器学习中最常用的一阶优化算法之一.梯度下降法是一个迭代算法,每步执行如下操作

xk+1=xkk∇f(xk),

其中αk为步长.当目标函数f(x)是L-光滑函数时,步长一般取1/L.进一步地,当目标函数是μ-强凸函数时,梯度下降法具有030-2的线性收敛速度[Nesterov,2018],描述如下

030-3

即梯度下降法只需要031-1次迭代就可以得到一个ϵ精度的近似最优解x,使得f(x)-f(x*)≤ϵ,其中x*是问题(2.1)的最优解.

当目标函数是L-光滑的一般凸函数(定义15)时,梯度下降法具有031-2的次线性收敛速度[Nesterov,2018],描述如下

f(xk)-f(x*)≤O(L/k).

即梯度下降法只需要031-3次迭代就可以得到一个ϵ精度的近似最优解.