数据分析从入门到进阶
上QQ阅读APP看书,第一时间看更新

2.3.4 线性回归模型预测

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,回归分析有很多种类:根据变量的个数分为一元回归和多元回归分析;根据因变量的个数分为简单回归分析和多重回归分析;根据自变量和因变量之间的关系类型分为线性回归分析和非线性回归分析。

涉及变量之间的线性关系描述,趋势预测等分析,很多人会想到用专业的分析软件(R、Python、SAS等)来做分析。这些统计分析工具虽然很专业,但Excel也可以帮助用户快速解决这个分析任务。下面简单介绍Excel中一元线性回归模型的处理方法。

(1)案例分析

回归分析中只包含一个自变量和一个因变量,而且二者关系可以用一条直线近似表示,这种回归分析称为一元线性回归分析。

以女性的身高(height)和体重(weight)数据为例,建立一元回归模型方程,探索身高与体重的关系,数据如表2-24所示。

表2-24 女性身高体重

在做一元线性回归分析之前,可以先绘制二维散点图来观测两个变量之间的关系,然后添加趋势线,选择线性模型获得方程以及R平方值。

(2)操作步骤

1)选中区域B1:C16范围内的身高体重数据(包含标题),然后单击“插入|图表|散点图”命令,如图2-147所示。

图2-147 单击“散点图”按钮

2)修改散点图的Y轴最小值为80,X轴最小值为154,修改散点图标题为“女性身高与体重回归分析”。左击选中散点图,单击“设计|添加图表元素|坐标轴标题|更多轴标题选项”命令,然后修改横轴坐标轴标题为“身高”,纵轴坐标轴标题为“体重”,结果如图2-148所示。

图2-148 修改散点图坐标轴

3)单击散点图中任意数据点,即选中所有数据点,然后右击选择“添加趋势线”,在“设置趋势线格式”对话框中,将趋势线选项设为“线性”。另外,勾选“显示公式”和“显示R平方值”这两个选项。

如图2-149所示,身高和体重的一元线性方程为:y=1.5329x-152.03,即体重为1.5329*身高-152.03。这里判定系数R2=0.99,说明方程的拟合程度比较好,拟合直线能解释99%的Y变量的波动。

图2-149 添加趋势线并设置参数

为了进一步使用更多的指标来描述这个模型,使用“数据分析”功能内的“回归”方法进行详细的统计分析,操作步骤如下:

1)单击“数据|分析|数据分析”命令,在“数据分析”对话框中选择“回归”选项,然后单击“确定”按钮。

2)在“回归”对话框进行参数设置,“Y值输入区域”选择$C$1:$C$16(包含标题),“X值输入区域”选择$B$1:$B$16,勾选“标志”和“置信度”选项,勾选“残差”和“正态分布”选项区的所有选项,然后单击“确定”按钮,如图2-150所示。

图2-150 “回归”对话框

回归分析的统计分析结果如图2-151所示。表一的回归统计结果中得出R=0.995,R2=0.990,说明方程拟合效果很好,且身高与体重呈现正相关。

图2-151 回归分析结果

表二的方差分析结果中得出身高和体重的一元线性回归方程为:y=1.532857143x-152.029048。回归模型的F值检验和回归系数的t检验的P值都远小于0.01,说明方程模型拟合很好且具有显著性关系。

表三的残差输出结果表包含预测体重数据、残差以及标准残差,右侧残差分布图是以身高变量为X轴横坐标,体重变量为Y轴纵坐标绘制的散点图,散点在X轴横坐标上下波动,随意分布,说明模型拟合结果合理。

(3)回归统计表中的指标解释

● Multiple R:相关系数,用来衡量自变量x与因变量y之间的相关程度的大小。

● R Square:判定系数,是相关系数R的平方,数值越接近1,代表拟合效果越好。

● Adjusted R Square:矫正测定系数,用于多元回归分析。

● 标准误差:衡量拟合程度的大小,此值越小,说明拟合程度越好。

● 观测值:回归方程模型中观察值的个数。

(4)回归系数表中的指标解释

● Coefficients:回归模型中各自变量的系数以及常量。

● 标准误差:各自变量的系数以及常量的剩余标准差,此值越小,说明拟合程度越好。

● t Stat:回归系数的t检验数值。

● P-value:各自变量的系数以及常量对应的P值,P>0.05表示不具有显著的统计学意义;P≤0.01表示具有非常显著的统计学意义;0.01<P≤0.05表示具有显著的统计学意义。

● Upper 95%与Lower 95%:各自变量以及常量的上下限区间范围。