第2篇 固定模式单水平非线性回归分析
本篇主要探讨三类固定模式的单水平非线性回归分析,它们是:多项型指数曲线类模型、产量密度曲线类模型和S型生长曲线类模型。这三类模型在生物学、医学、经济学等领域中应用广泛,使用价值较大。然而,在实际使用中,由于模型较为复杂,给参数估计带来了很大的困难,限制了这些模型的应用和推广。
第5章 固定模式非线性回归分析简介
5.1 分析方法
5.1.1 曲线直线化法
曲线直线化法的原理,是对原因变量或/和结果变量进行变换,使变换后的两变量之间呈直线关系,然后以最小二乘法来拟合变换后的原因变量与结果变量之间的直线关系,再将所得直线方程中的变量还原,即可得到相应的曲线方程。这样所得的结果是使变换后的结果变量的观测值与直线回归方程计算所得的结果变量的预测值(即变换后的结果变量的预测值)之间的离差平方和最小,而并非原结果变量与其预测值之间的离差平方和最小。
5.1.2 非线性最小二乘法
非线性最小二乘法是在参数取值域内找到一组取值,使模型拟合实际数据的(加权)残差平方和值最小。设结果变量Y与原因变量X1,X2,…,Xm之间存在非线性关系,其关系式为:
式中,β1,β2,…,βm是待估计参数,ε是误差项。在处理实际数据时,观测值是已知的,上述模型可记为:
式中,β是未知参数向量,对于任一β向量,均可计算其残差平方和,记为SSE(β),公式如下:
式中,残差向量e=Y-f(β)。
非线性最小二乘估计的目标就是找到合适的β估计值,使得SSE(β)最小化。为了避免求解非线性方程组,通常采用迭代法来处理此类问题,这样既可以避免求解非线性方程组,又可以对任意非线性最小二乘问题进行求解。
迭代过程由某个初始向量β(0)开始,然后用X和Y来计算Δ和k,使得:
且
式中,β(u)表示第u次迭代所得的参数估计值。每一次迭代,都要用新的参数估计值代替上一次的估计值,直到残差平方和可认为已达到最小为止。这时,所得的β就是该模型中参数的非线性最小二乘估计结果,继而可以得到相应的非线性回归模型。
关于Δ的计算,常用的有四种方法:急速下降法(Steepest-descent or gradient method),牛顿法(Newton method),修改的高斯-牛顿法(Modified Gauss-Newton method),麦夸特法(Marquardt method)。
5.2 研究现状
21世纪以来,计算机技术迅猛发展,统计软件功能也日益丰富。以SAS软件为例,其STAT模块中的NLIN过程即具有强大的非线性回归分析功能,它采用非线性最小二乘法或加权非线性最小二乘法来拟合各种固定模式的非线性回归模型。实践表明,该过程在实际使用时存在两点不足:一是该过程在运行前需设定待估计参数的初始值,对于较为复杂的回归模型,实际工作者常望而却步,无从下手;二是NLIN过程所采用的各种算法均基于迭代的思想,其对初始值的敏感度很高,若初始值偏离真实值较远,迭代计算常无法收敛,即便设定了可以使迭代收敛的初始值,所得到的模型也可能只是局部最优模型。
此外,第2篇介绍的这三类模型,均包含了多种不同的具体模型,同类中的多种模型一般都可以实现对具体数据的较好拟合。此时,实际工作者往往更希望得到一个拟合效果最佳的模型,这就需要进行“优中选优”了。这一工作目前多采用人工的方式进行,其具体过程是:分别采用多种模型拟合数据,得到每种模型中的最优解,并记录反映其拟合效果的统计量的值,然后进行多个模型拟合效果间的比较,最后从中选出拟合效果最好的模型。可见,这一过程依靠人工逐步完成的话,效率是很低的。
5.3 分析策略
对于固定模式的非线性回归分析,可采用曲线直线化法加非线性最小二乘法的组合策略,即先以曲线直线化法为基础,计算得到模型中参数的初始值,再采用非线性最小二乘法,往往可以得到拟合效果更好的曲线模型。在曲线直线化的过程中,有些较为简单的模型经过变量变换和数学推导,即可直接进行直线回归分析;有些复杂的模型不能直接进行曲线直线化,可以先选择一个或两个变化范围较小的参数,通过设置循环变量的方式使其按一定步长在较小的可能值域内变动,这样在每次循环中这些参数都将有具体的值,此时再对曲线模型进行数学推导和变量变换,即可进行直线回归分析。直线回归分析得到的参数估计值,经相应计算后,就可以作为曲线模型中相应参数的初始值。当然,在曲线直线化的过程中,如果对某些参数设置了多个可能的取值,必然会得到较多的初始值组合,进而会得到多个局部最优模型,此时可从中选出拟合效果最好的那个模型作为全局最优模型,这样可以有效地破解局部最优解的难题。
5.4 模型拟合效果比较
对同一数据,拟合出多个模型时,往往需要对这些模型进行拟合效果间的比较,以选择拟合效果最好、最简练的模型。具体实施时,需根据模型中的参数个数、待比较模型间的关系来选用合适的拟合效果比较统计量。
5.4.1 参数个数相同的模型
模型参数个数相同,模型的精简程度也就相同。此时,只需要比较模型对数据的拟合程度就可以了,常用的统计量有残差平方和、相关指数。二者的定义如下:
式中,SS残表示残差平方和,y表示结果变量的观测值,y 表示由回归方程计算得到的结果变量的预测值。
其中,R2表示相关指数,SS残计算公式同前,SS总计算公式如下:
式中,n为数据的对子数,即样本含量。
SS残越小,或者R2越大,说明预测值与实际值越接近,曲线拟合的效果也就越好。
5.4.2 参数个数不同的模型
待比较的模型间参数个数不同时,不但要考虑模型对数据的拟合程度,还要考虑模型的精简程度。此时,可采用F检验来比较不同模型的拟合效果间有无统计学差异。F统计量公式如下:
式中,剩余平方和即为残差平方和,减少误差的平方和为低次回归方程的残差平方和与高次回归方程的残差平方和之差,分子自由度为两个回归方程误差项的自由度之差,各回归方程误差项的自由度为样本含量与回归方程中参数个数之差。
参考文献
[1] 郑青山,丁学庭. 用相关指数作曲线拟合优度比较. 中国卫生统计,1995,12(5):62-63.
[2] 杨树勤. 中国医学百科全书(医学统计学). 上海:上海科学技术出版社,1985:171-176.
[3] Johnson M. L. Nonlinear least-squares fitting methods. Methods Cell Biol,2008,84:781-805.
[4] 郑洲顺,普乐. 非线性最小二乘问题的一种迭代解法. 数学理论与应用,2002,22(1):43-45.
[5] SAS Institute Inc. SAS/STAT 9.22 User's Guide.Cary,NC:SAS Institute Inc,2010:4892-4965.
[6] 胡良平. 医学统计学——运用三型理论进行现代回归分析. 北京:人民军医出版社,2010:43-97.