3.2 HSMM基础理论
通常设备的健康状态是逐渐退化的,当退化达到一定的程度时就会产生故障。比方说在校准轴承时一个微小差错就会使轴承在转动过程中产生刮擦,伴随着轴承的运转,刮擦又导致了其他裂痕的产生,最终导致了轴承的故障[145]。可以使用HMM对这一过程进行建模,通过可观测的传感器信号对隐藏的健康状态进行预测。
HMM由遵循马尔可夫链的随机序列构成,马尔可夫链是一个包含多个事件的序列,这一序列中所包含每个事件的发生概率只与前一个事件有关[146]。在HMM中,虽然无法直接观测到事件的状态,但是状态与概率相关,此外,当产生一个随机状态序列时,一个相对应的观测向量序列也会随之产生。观测向量和与之相对应的隐藏健康状态序列,两者可以通过某些概率密度相互转化[147][148][149]。
一个HMM由以下几个要素组成:
(1)N模型中的状态数。尽管状态是隐藏的,但是与状态相关联的物理信号是可以观测的。用{1,2,…,N}表示各个状态,t时刻的状态用St表示[150]。
(2)M各个状态下显示的观测值。每个状态的观测特征可以用O={O1,O2,…,OM}表示[151]。
(3)A={aij}状态转移概率分布[152]
(4)B={bi(k)}N×M观测概率分布[153]
(5)π={πi}初始状态分布[154]
一个完整的HMM需要对N,M,A,B,π这几个参数进行定义。为了描述方便,本章中使用参数集λ=(π,A,B)来定义HMM[155]。
在HMM中,设备在健康状态i下驻留d个时间单位的概率为[156]:
其中,aii表示设备停留在状态i下的概率,(1-aii)表示设备进入另一个状态的概率。然而在实际应用中经常出现与该函数描述的不符合的情况,因此这种描述设备在某个状态下驻留时间概率的方式存在着诸多争议。HMM需要解决的三个基本问题:
(1)评估(也称为分类):在给定观测序列O=o1o2…oT和参数值序列λ=(π,A,B)的HMM中,该观测序列出现的概率大小[122]。
(2)解码(也称识别):在给定观测序列O=o1o2…oT以及参数值序列λ=(π,A,B)的HMM中,哪种最优的隐藏状态序列S=s1s2…sT最有可能产生给定的观测序列[157]。
(3)学习(也称训练):如何调节模型中的参数使出现观测序列的概率最大[158]。
针对HMM需要解决的三个基本问题,可以采用最直接的枚举法进行处理,即穷举出与每种观测值数量相对应的状态序列,显然这种方法的计算量太大,且往往无法实现全局最优[159]。因此,针对HMM的分类问题,有些学者利用动态规划模型,提出了前后向算法。解码是为了找出隐藏的最优状态序列,在解决此类问题时,最常采取的方法是找出单个最佳状态序列,有学者提出用Viterbi算法来寻找出最优的状态序列。针对HMM的学习问题,可以使用迭代算法Baum-Welch算法来调整模型的参数λ=(π,A,B,),实现P(O|λ)的最优化[160]。
一个设备在发生故障前往往会经历许多不同的健康状态,例如,一台液压泵在故障发生前往往会经历四种不同的健康状态:好、中、差、恶劣。我们可以定义N种不同的状态序列来描述设备的失效机制[161]:没有缺陷(用h0表示),缺陷等级1(用h1表示),缺陷等级2(用h2表示)……缺陷等级L(用hl表示)。这里缺陷等级L表示设备完全失效。用di表示设备在健康状态hi下的驻留时间,用T表示设备总的寿命时间,则。
不同于只能生成单个观测值的HMM,在HSMM中任一状态生成的观测值往往包含一个片段,这一片段通常叫做宏状态,宏状态由许多微状态组成。假设一个宏状态中包含L个片段,用qL表示第L个片段的结束时间点。则宏状态、微状态等要素间的关系如图3-1所示[162]。
图3-1 HSMM模型中状态间关系
对于模型中第i个宏状态,它的观测序列为Oqi-1,…,Oqi,这些观测状态属于同一个宏状态:
sqi-1+1=sqi-1+2=…=sqi≡hi
用st表示设备位于t时刻的隐藏状态,用O表示该状态下的观测序列。可以用如下参数对HSMM进行描述:初始状态分布(π),状态转移矩阵(A),状态持续时间分布(D)以及观测值模型(B)则一个完整的HSMM可以表示为λ=(π,A,B,D)[163]。在HSMM中包含N个隐藏的状态,用矩阵A表示各个隐藏状态间的转移概率,与标准的HMM类似,假设S0表示t=0时刻的状态,并把这个状态作为特殊的初始状态,用π表示初始的状态分布。尽管宏状态间的转换sql-1→sql符合马尔可夫过程:
P(sql=j|sql-1=i)=aij
微状态st-1→st的转换通常不符合马尔可夫假设,所以该模型被称为“半马尔可夫”。只有当设备从一个宏状态转移到另一个宏状态时,这个转换过程才是马尔可夫过程[164]。
HSMM相比于HMM的另一个延伸体现在片段观测分布上,当设备在状态i下驻留d个时间单位时,片段(o(t1,t2])概率可以表示为[111]:
在本章中,还运用了混合高斯分布。它的概率密度函数由有限个如下式子的组合构成[162]:
这里O表示观测向量序列,Mj表示每个状态中高斯元数量,η表示多高斯概率密度函数,cjm=P(Mm=m|st=j)状态j下第m个高斯元的条件权重,μjm为均值,Ujm为协方差矩阵[165]。