2.2 径向基函数神经网络
径向基函数神经网络(Radial Basis Function Neural Network,RBFNN)是由Powell[10]教授等于20世纪80年代提出的一种前向神经网络,并已成为一种目前常用的神经网络监督学习方法[11]。本书第1章1.3.2小节中简要介绍了其概念和特点,本节将在此基础上首先对其思想、结构和在控制系统中的作用进行详细阐述,由于径向基函数神经网络的结构合理性由Cover定理决定,因此为进一步解释径向基函数神经网络的工作原理,在2.2.2小节中将具体描述模式可分性的Cover定理,在2.2.3小节中将对径向基函数神经网络进行具体介绍,给出其具体的数学描述。
2.2.1 径向基函数神经网络概述[12]
径向基函数神经网络的基本思想是:将训练输入数据映射到高维特征空间,在高维特征空间中寻找一个能够拟合训练数据的最优曲面,最后通过线性插值对测试数据进行处理。基本的径向基函数神经网络是一种3层前馈神经网络,这3层分别为输入层、隐含层和输出层,其结构的合理性可由Cover定理[12]加以保证,在2.2.2小节中将对Cover定理进行详细介绍。径向基函数神经网络的结构如图2.3所示,其中输入层由信号源节点构成,起到和外界环境进行连接的作用,图中x1~xN表示输入数据,1~N表示输入节点;隐含层的作用是从输入空间到隐含层空间进行非线性变换,其中1~表示隐含层节点;输出层是一个线性映射,为输入层的激活信号提供响应,其中w1M为输出权值,1~M表示输出节点,y1~yM为网络的输出。
图2.3 径向基函数神经网络结构
径向基函数神经网络与反向传播(Back Propagation,BP)神经网络的结构类似,但是它只有一个隐含层,网络从输入层到隐含层的变换是非线性的,而从隐含层到输出层的变换是线性的。其隐含层节点的激活函数采用非线性的径向基函数,对输入层的激励产生局部化响应,即仅当输入落在输入空间中一个指定的小范围内时,隐含层节点才会做有意义的非零响应。理论上已经证明,径向基函数神经网络具有良好的全局逼近特性:若径向基函数神经网络的隐含层节点足够多,那么它可以在一个完备且完全有界的集合上一致逼近任意连续函数。此外,径向基函数神经网络具有最优逼近特性,即给定一个未知的非线性函数,总可以选择出一组参数使得它对该函数的逼近优于其他可能的选择。
径向基函数神经网络是一种性能良好的前馈神经网络,不仅具有最优逼近特性,同时训练快速易行,不存在局部极小问题。这些优点给径向基函数神经网络的应用奠定了良好的基础,使其在函数逼近、模式识别、信号处理等领域都有广泛的应用,显示出巨大的潜力[13]。其在工业控制领域中的应用也是多种多样的,特别是为非线性系统建模与控制提供了有效的工具。就其在控制系统中所起的作用而言主要有以下3种:①用于辨识系统参数或为系统提供某种模型,径向基函数神经网络主要用于非线性系统的辨识或建模,将获得的样本数据用于网络的学习,只要适当地选取参数和结构,就可以建立系统模型,而无需知道系统的内部结构;②作为系统控制器,即直接由径向基函数神经网络作为控制器;③同时用于系统辨识和系统控制,即系统辨识和系统控制都由径向基函数神经网络来进行。
2.2.2 模式可分性的Cover定理[12]
径向基函数神经网络在解决复杂的模式分类问题时,是通过非线性映射方式将问题变换到一个高维空间中再进行解决的。它的理论基础是模式可分性的Cover定理[12]:将复杂的模式分类问题非线性地投射到高维空间将比投射到低维空间更可能是线性可分的。模式具有线性可分性,则相应的分类问题相对而言就更容易解决。因此通过研究模式的可分性可以深入了解径向基函数神经网络作为模式分类器是如何工作的。
考虑一簇曲面,每一个曲面都自然地将输入空间分成两个区域。用代表N个模式 (向量)x1,x2,…,xN的集合,其中每一个模式都分属于两个类和,称这些点的二分 (二元划分)关于这簇曲面是可分的。对于每一个模式x∈,定义一个由一组实值函数 {φi(x)|i=1,2,…,m1}组成的向量,表示为
假设模式x是m0维输入空间的一个向量,则向量ψ(x)将输入空间的点映射到新的m1维空间上相应的点。将φi(x)称为隐含层函数,因为它与前馈神经网络中的隐含层节点起着同样的作用。相应地,由隐含层函数集合所生成的空间被称为隐含层空间或特征空间。
通常称一个关于的二分是ψ可分的,如果存在一个m1 维的向量w使得如下式 (2.2)成立,即
由方程wTψ(x)=0定义的超平面可以描述ψ空间(也就是隐含层空间)中的分离曲面。这个超平面的逆像,即
定义输入空间中的分离曲面(即决策边界)。
考虑一个利用r次模式向量坐标乘积的线性组合实现的一个自然映射。与此种映射相对应的分离曲面被称为r阶有理簇。一个m0维空间的r阶有理簇可描述为输入向量x的坐标的一个r次齐次方程,表示为
式中:xi为输入向量x的第i个元素。为用齐次形式来表达方程,将x0的值置为单位值1。x中项xi的r阶乘积就是xi1xi2…xir,被称为单项式。对于一个m0维的输入空间在式 (2.4)中共有个单项式。式 (2.4)所描述的分离曲面类型的例子有超平面 (一阶有理簇)、二次曲面 (二阶有理簇)和超球面 (带有某种线性限制系数的二次曲面)等。
在概率试验中,一个模式集合的可分性是一个随机事件,该随机事件依赖于选择的二分以及输入空间中模式分布。假设激活模式x1,x2,…,xN是根据输入空间中的概率特性而独立选取的。同时假设所有的关于的二分都是等可能的。令P(N,m1 )表示某一随机选取的二分是φ可分的概率,这里被选中的分离曲面的类具有m1维的自由度。根据Cover定理,可以将P(N,m1)表述为
这里,包括N-1和m的二项式系数对所有的整数l和m定义为
式(2.5)体现Cover的可分性定理对于随机模式的本质。它说明累计二项概率分布,相当于抛N-1次硬币有m1-1次或更少次头像向上的概率。
式(2.5)的推导中隐含层节点曲面是一个多项式的形式,与通常在径向基函数神经网络中用到的有所不同,但式(2.5)的核心内容却具有普遍的适用性。特别地,若隐含层空间的维数m1越高,则概率P(N,m1)就越趋向于1。综上,关于模式可分性的Cover定理主要包含下面两个基本部分:
(1)由φi(x)定义的隐含层函数的非线性构成,这里x是输入向量,且i=1,2,…,m1。
(2)高维数的隐含层(特征)空间,这里的高维数是相对于输入空间而言的。维数由赋给m1的值(即隐含层节点的个数)决定。
如前所述,通常将一个复杂的模式分类问题非线性地投射到高维空间将会比投射到低维空间更可能是线性可分的。但需要强调的是,有时使用非线性映射(即第一部分)就足够导致线性可分,且不必升高隐含层节点的空间维数。这说明径向基函数神经网络的3层网络结构是合理的。
2.2.3 径向基函数神经网络数学描述
在2.2.2小节给出的径向基函数神经网络结构合理性证明基础上,本小节中将给出径向基函数神经网络的具体数学描述。假设径向基函数神经网络的输入为x={x1,x2,…,xN},输出为y={y1,y2,…,yM},那么径向基函数神经网络对应的数学表达如式(2.6)[14],即
式中:yk(x)为输出层第k个节点的输出;N~为隐含层节点数;wik为隐含层与输出层之间的连接权值;Ri(·)为非线性径向对称基函数;M为输出层节点数。根据上述表达,径向基函数神经网络的训练分为以下两个阶段:
第一阶段是训练输入层和隐含层之间的径向基函数,即确定基函数的中心和宽度。隐含层的径向基函数有多种形式,下面以最常用的高斯函数进行说明。设训练样本为x,第i个聚类中心为ci,共有I个聚类,则高斯函数[15]为
式中:σi为高斯函数的宽度,训练的目的即确定隐含节点的个数N~及中心向量ci(i=1,2,…,n)和宽度σi。由于K-均值聚类具有计算简洁的优点,因此选取K-均值聚类算法学习中心向量ci(i=1,2,…,n)。在中心确定后,宽度可按式(2.8)计算,即
式中:dmax为所选取中心之间的最大距离;I为总的聚类个数。
第二阶段是训练隐含层和输出层之间的线性权值。输出层节点是线性的,给定网络输入训练样本x,那么径向基函数神经网络第j个输出节点的实际输出为
式中:wij(i=0,1,2,…,I;j=1,2,…,M)为隐含层与输出层之间的线性权值,其学习一般采用最小均方误差(Least Mean Square,LMS)方法,也可以直接用伪逆方法求解。
隐含层节点个数的确定可以采用节点数目可变的方法,即:开始设置较多的隐含节点,在训练过程中,逐步修剪掉在网络中不起作用的节点。对于每一个神经元,若在训练过程中,其连接权值的绝对值小于一个预先确定的数值,便将此权值赋0,同时删除该隐含层节点。在确定隐含节点的个数N~、中心向量ci(i=1,2,…,n)、宽度σi以及隐含层和输出层的线性权值后,径向基函数神经网络的训练即完成。
由此可见,径向基函数神经网络由输入到输出的映射是非线性的,而网络输出对可调参数而言却是线性的。因此,网络的权值就可由线性方程直接解出或用最小二乘算法递推计算得出,从而可大大加快学习速度并避免局部极小值问题。由于径向基函数神经网络学习收敛速度较快,其在知识发现、数据挖掘中日益受到重视。
由本小节的介绍可知,径向基函数神经网络需要确定隐含层节点数、高斯函数的中心和宽度,而前两个参数的确定需要依赖人工的选择,因此单独的径向基函数神经网络在对复杂数据进行分类时,其稳定性与泛化性都难以得到保证。集成监督学习方法由于综合了多个分类器的结果,可有效削弱人工选择参数对结果的影响,保证径向基函数神经网络的稳定性,在本书第3章将对基于径向基函数的集成监督学习方法进行详细介绍。