深入浅出Python机器学习
上QQ阅读APP看书,第一时间看更新

4.1.1 线性模型的一般公式

在回归分析当中,线性模型的一般预测公式如下:

ŷ = w[0] * x[0] + w[1] * x[1] + … + w[p] * x[p] + b

式中:x[0],x[1],…,x[p]为数据集中特征变量的数量(这个公式表示数据集中的数据点一共有p个特征);wb为模型的参数;ŷ为模型对于数据结果的预测值。对于只有一个特征变量的数据集,公式可以简化为

ŷ = w[0] * x[0] + b

是不是觉得这个公式看上去像是一条直线的方程的解析式?没错,w[0]是直线的斜率,by轴偏移量,也就是截距。如果数据的特征值增加的话,每个w值就会对应每个特征直线的斜率。如果换种方式来理解的话,那么模型给出的预测可以看作输入特征的加权和,而w参数就代表了每个特征的权重,当然,w也可以是负数。

注意 ŷ读作“y hat”,代表y的估计值。

假设我们有一条直线,其方程是y = 0.5x+3,我们可以使用Jupyter Notebook将它画出来,在Jupyter Notebook中输入代码如下:

运行代码,我们可以得到如图4-1所示的结果。

图4-1 y = 0.5x+3的直线

【结果分析】图4-1中的直线,便是直线方程y = 0.5x+3的图像,而线性模型正是通过训练数据集确定自身的系数(斜率)和截距的。

下面我们来看一下线性模型的工作原理。