3.2 大数据特征提取方法
3.2.1 深度自编码网络数据特征提取
在实际应用中,原始时域信号经常被噪声所影响,因而很难提取到有效的特征。针对这一问题,相关研究人员提出了各种解决办法,常用的方法有先对原始信号进行降噪预处理,再利用深度学习模型提取特征。传统的设备故障诊断方法大多属于需要有标签样本的浅层学习方法,学习能力具有一定的局限性,无法充分挖掘数据深层特征,在应对高维高噪声复杂非线性问题方面表征能力不足。深度学习作为机器学习领域的新兴方法,已经在图像识别、自然语言处理、语音识别等领域得到了广泛应用,这也为故障诊断提供了新的思路。
如今,深度自编码(DAE)网络成为深度学习领域中应用较为广泛的一种网络重建模型。它通过对信号的编码和解码过程来研究信号特征,因此深度自编码器也可以被视为一个能够处理复杂非线性问题的特征提取工具,它可以直接从原始信号中获取其最为显著的特征向量,有效减少人工标注造成的特征信息遗漏,因此能学习到较为完善的多源信号特征并实现多源融合的故障诊断,为融合多传感器信息的故障诊断技术提供了新思路。其中,自编码网络可以通过所构建的堆叠自编码器(SAE)来对输入数据进行逐层学习从而达到特征提取的目的,同时也可以嵌入降噪自编码器(DAE)进行信号数据噪声去除。变分自编码器(VAE)通过对输入信号的均值和方差来编码和解码信号数据,其编码过程被称为特征压缩。在工业过程中,机械设备的运行工况通常为非恒定工况,而变分自编码器是一种生成网络模型,模型通过对隐含层变量服从高斯分布的先验结果较好地表征原始信号输入的分布特性,该模型具有很好的泛化能力。量化变分自编码器(VQ-VAE)是最近针对输入信号的低维度和高维度提出的变分自编码改良模型,自编码网络通过不同的非线性结构组合来达到提取特征的目的。下面介绍深度自编码网络在故障信号中的特征提取过程。
有监督学习能有效地对数据和任务进行分类,但难以重构原始信号。例如,人能有效地识别真假纸币,但是难以去画出纸币,即在分类任务中有一些数据提供学习并能从中提取很丰富的特征,虽然能分辨出这些数据的差异,但这些特征并不足以重构原始数据。也就是说,对于数据集和任务分类来说,合理的、充分的特征并不一定能完成图像重构。若通过搭建多层自编码的方式来对输入信号的特征进行编码到高维空间中得到特征数据,最后再用相对应的解码器对特征数据解码,这种堆叠编码的方式能对数据进行重构,如图3-5所示。
图3-5 堆叠自编码器结构
多层自编码由多个单层自编码组成,单层自编码和解码方式可表示为
式中,x为输入向量;h为编码器的隐空间编码向量;y为解码器输出的解码向量;f为函数;W(1)、W(2)为权重矩阵;b(1)、b(2)为偏置量。
其中模型损失函数计算公式为
式中,W1为权重矩阵;b1、b2为偏置向量;Xi为实际值;Xi为预测值;J为损失函数。
堆叠稀疏降噪自编码神经网络的初始参数是通过无标签数据预训练获得的,初始参数在少量有标签数据监督下利用BP神经网络进行优化,形成具有特征提取和模式识别功能的深度降噪自编码神经网络。
深度降噪自编码算法模型可以当作特征提取器,在模型训练中通过添加噪声层来干扰模型训练,使模型能自动提取扰动信号的抽象特征。但是在实际训练中,单层自编码网络往往对数据噪声还不够敏感,浅层降噪自编码模型很难提取有用的特征信号,可将多个降噪自动编码模型如同堆叠自编码器堆叠在一起形成堆叠降噪自编码网络(SDAE)进行网络训练。在顶层加入一个可自上向下微调整个网络的模型分类器,采用逐层训练的方式进行特征提取训练,最后达到去噪和识别特征的目的。
降噪自编码的噪声层:
式中,x为输入向量;ε为噪声向量;x˜为输出向量;σ2为方差;I为单位向量。
编码映射关系:
式中,x为输入向量;w为权重向量;b为偏置向量;y为输出向量;fθ、s为编码函数。
解码映射关系:
式中,y为输入向量;w′为权重向量;b′为偏置向量;z为输出向量;g、s为解码函数。
重建信号的损失函数为
式中,xi为实际值;zi为预测值;L为损失函数;arg表示取平均值;θ={w,b},θ′={w′,b′},θ、θ′、θ*、θ1*为损失值。
引入Dropout的方法可以让稀疏降噪自编码深度神经网络显著提高分类准确率。为了提高模型的鲁棒性和泛化性,利用Dropout方法降低深度网络的过拟合现象,Dropout公式表示为
式中,Bernoilli为0~1概率生成函数。
在实际应用中,采集的数据大多是离散的,但在特征编码中,如自编码器,生成的编码向量都是连续型变量,无法直接生成离散变量。生成连续型变量往往还存在梯度消失的问题,以及在降维、重构过程中,如何保证重构之后数据不失真的问题。如果失真得太严重,将不能表征数据特征。
编码器(Enconder)为
解码器(Deconder)为
通过深度自编码网络的方式可以解决以下问题:
1)在工业领域拥有大量数据,其中既包含有价值的信息,也包含很多无效信息,而且随着数据维度的增加,有效信息会变得非常稀疏。深度自编码网络是一种通过多层非线性结构对数据进行高层抽象的算法,能够从海量数据中挖掘出有效的信息。通过数据驱动的深度自编码网络能充分利用工业领域的数据。
2)工业系统中的机械系统十分复杂,人工的特征构造需要涉及很多知识领域,从而导致特征构造的难度增大。而深度自编码网络能学习拥有强大的自动特征抽取能力,自动地进行特征抽取,进行无监督方式的特征提取,不需要人工参与特征的构造,通过网络多层次的抽象来实现数据特征挖掘,具有很强的通用性。