上QQ阅读APP看书,第一时间看更新
4.1.1 线性模型的一般公式
在回归分析当中,线性模型的一般预测公式如下:
ŷ = w[0] * x[0] + w[1] * x[1] + … + w[p] * x[p] + b
式中:x[0],x[1],…,x[p]为数据集中特征变量的数量(这个公式表示数据集中的数据点一共有p个特征);w和b为模型的参数;ŷ为模型对于数据结果的预测值。对于只有一个特征变量的数据集,公式可以简化为
ŷ = w[0] * x[0] + b
是不是觉得这个公式看上去像是一条直线的方程的解析式?没错,w[0]是直线的斜率,b是y轴偏移量,也就是截距。如果数据的特征值增加的话,每个w值就会对应每个特征直线的斜率。如果换种方式来理解的话,那么模型给出的预测可以看作输入特征的加权和,而w参数就代表了每个特征的权重,当然,w也可以是负数。
注意 ŷ读作“y hat”,代表y的估计值。
假设我们有一条直线,其方程是y = 0.5x+3,我们可以使用Jupyter Notebook将它画出来,在Jupyter Notebook中输入代码如下:
运行代码,我们可以得到如图4-1所示的结果。
图4-1 y = 0.5x+3的直线
【结果分析】图4-1中的直线,便是直线方程y = 0.5x+3的图像,而线性模型正是通过训练数据集确定自身的系数(斜率)和截距的。
下面我们来看一下线性模型的工作原理。