3.1 引言_智能语音处理-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

3.1　引言

在实际生活中，可以直接对很多现象和变化进行观测，并得到一系列的观测值。例如气温观测、人体血压或心率监测等。利用这些观测值，可以知道天气的冷暖、血压的高低和心率的快慢。但是，有很多的因素或变量是无法与观测值一一对应的。例如，在室内可以通过测量空气湿度知道天气是否干燥（潮湿）、舒适，但是却无法直接判断室外有没有在下雨。这时，空气湿度是一个可观测量，是否下雨是一个不可观测的随机变量，但两者之间存在着一定的概率关系。

在统计理论中，通常将不可观测到的变量称为隐变量。为了能够挖掘隐变量包含的信息，需要建立隐变量模型，并利用可观测变量的样本对隐变量做出推断。

语音中包含了非常丰富的信息，但是通过麦克风可以直接观测到的只是语音波形。处理语音信息需要将隐藏在波形中的语义信息、说话人信息、情感信息、语种信息、方言信息提取出来，需要采用适当的隐变量模型来对这些信息进行建模，以建立起它们与波形之间的描述关系。因此，隐变量模型在语音信息处理中被广泛应用。

本章将以语音信息处理中广泛使用的高斯混合模型（Gaussian Mixture Model，GMM）[1]、隐马尔可夫模型（Hidden Markov Model，HMM）[2-3]和高斯过程隐变量模型（Gaussian Process Latent Variable Model，GPLVM）[4]为代表，介绍隐变量模型的基本概念和主要研究问题。