石油炼制过程分子管理
上QQ阅读APP看书,第一时间看更新

现代模式识别方法在质谱分析中的应用和研究进展

任小甜 田松柏 褚小立

(中国石化石油化工科学研究院)

【摘 要】模式识别的方法被广泛地应用于各个研究领域中,本文主要介绍了其在石油质谱分析方面的应用,包括在溢油源鉴别、成品油识别以及石油组学的数据挖掘这三个方面,分析了目前各方法的主要应用情况和研究进展,并对下一步的发展进行了展望。

【关键词】石油;模式识别;质谱分析;数据挖掘;分类;判别

1 引言

质谱法是一种重要的化合物的定性分析手段,通过对物质的分子离子峰的测定可以得到其准确的分子量和分子式,碎片离子的断裂规律则能揭示物质的分子结构信息,其被广泛地应用于农业、食品、医药以及石油等各个研究领域中。随着各种离子化技术以及高分辨质谱技术平台的发展,质谱技术在蛋白质组学和石油组学的研究中发挥着愈加重要的作用。对于石油这种由烃类和非烃类化合物组成的复杂混合物,质谱是一种很有效的分析手段,通过气相色谱-质谱联用仪(GC-MS)、全二维气相色谱质谱(GC×GC-MS)、气相色谱飞行时间质谱(GC-TOF MS)以及傅里叶变换离子回旋共振质谱(FT-ICR MS)等多种质谱分析技术可以得到石油全馏分的分子类型和碳数分布的信息[1],能实现对部分单体化合物的鉴定,得到石油中各类指纹化合物定性和定量的分析数据。如何有效地分析和处理这些大量的分析数据是目前石油化学和石油组学研究中的关键问题。我们可以结合化学计量学的模式识别方法进行质谱的分析数据挖掘,进而对不同种类的原油及石油产品进行分类鉴别。

模式识别是随着计算机人工智能的发展而形成的一门学科,被广泛地应用于自然和社会科学的各个研究领域。顾名思义,模式就是具有共同特征的一类事物的集合,而模式识别就是指利用计算机对事物进行描述和辨认,并将事物按照不同的特征模式自动进行分类的过程。20世纪60年代,模式识别被引入化学领域中[2],是目前化学计量学中一个重要的组成部分,其理论基础就是多元统计分析理论。借助光谱、色谱及质谱等分析手段,我们可以获得样品丰富的高维分析数据,对于大量组成复杂的样品,目视比较的方法费时费力,难以快速准确地获取数据中蕴含的模式信息,必须借助计算机模式识别的方法来对样品进行分类和鉴别。所以,化学模式识别就是利用计算机来处理大量的化学测量数据的过程,通过多元统计的方法分析数据,提取特征值,找出其中不同的特征模式,进而对样品进行分类和鉴别。

按照有无训练集或学习集,化学模式识别可以分为两类:无监督模式识别和有监督的模式识别[3]。前者的分析样品类型是未知的,需要利用合理的方法对样品进行分类;而后者是有一组已知类别的样品来作为训练集,以此训练集可以建立分类识别的模型,然后再利用模型对未知的样品进行分类判别,图1为两类模式识别方法的特点。

图1 两类模式识别方法的特点

在常用的模式识别方法中,聚类分析是一类典型的无监督模式识别方法,其基本思想是“物以类聚”,即根据同类事物的相似性进行分类。分析化学中常用的方法包括系统聚类分析法(HCA)和K均值聚类分析法。判别分析则属于有监督的模式识别,即以已知类型的样品作为训练集得到判别模型,然后对未知样品进行判别和分类。其主要的方法包括距离判别分析、线性判别分析(LDA)、K-最邻近(KNN)、人工神经网络(ANN)、簇类的独立软模式法(SIMCA)以及支持向量机(SVM)等。还有一种是特征投影显示法,其既可以是有监督,也可以是无监督的方法,其包括基于主成分分析(PCA)的特征投影、基于偏最小二乘法(PLS)的特征投影以及基于主成分分析的SIMCA判别分析[4]。这些模式识别方法是目前化学计量学的重要组成部分,其中基于近红外光谱和荧光光谱分析的光谱化学模式识别的发展最快,已经被广泛地应用于农业、医药、食品分析以及石油分析等各个研究领域中[4]。对于石油以及石油化工产品来说,其来源不同,种类繁多而且组成复杂,光谱的分析方法只能得到样品的整体特征谱图,得不到其中各特征组分的详细信息,对组成相似的油种难以区分。本文主要介绍了化学模式识别方法结合各类质谱分析技术在原油和成品油的分类和鉴别,以及在石油组学数据挖掘中的应用和研究进展。除此之外,质谱分析技术结合化学模式识别方法也被广泛地应用于中药材[5]、食品[6]、烟叶[7]以及生物蛋白[8]等的分类和识别中。

2 质谱化学模式识别

石油的质谱化学模式识别方法主要应用于溢油源的归属,原油及各类石油化工产品的分类鉴别和石油组学的数据挖掘中。根据采用的质谱分析技术和应用范围的不同可以分为基于常规质谱(GC-MS)和基于高分辨质谱(FT-ICR MS)的化学模式识别两种。在溢油源确定和原油及成品油的分类鉴别中,主要是以石油中指纹化合物的GC-MS的分析数据为基础,选取的鉴别指标主要是原始谱图的峰高和峰面积、指纹化合物的含量以及不同指纹化合物的诊断比值参数这三种,再结合化学模式识别的方法实现原油的鉴别和分类。另外,近年来,化学模式识别也逐渐应用于石油组学的数据处理和挖掘中,以石油的高分辨质谱(FT-ICR MS等)的分析数据为基础,选取其中分子类型的组成作为特征值,对不同类型石油的详细分子组成特点进行对比分析,可以从分子水平上对石油进行分类和鉴别。接下来,按照不同的应用领域对各种质谱化学模式识别的方法进行介绍,并分析比较不同方法的特点。

2.1 溢油源鉴别

溢油事故,尤其是海上溢油,一直以来都是一个很严峻的问题,严重威胁着生态环境[9]。石油的油指纹数字化鉴别技术在溢油源的确定上发挥着重要的作用。所谓油指纹是指石油中具有代表性的化合物,其结构和性质稳定,且受风化和分析误差的影响小,主要包括正构烷烃和类异戊二烯(姥鲛烷和植烷)、多环芳烃类化合物以及生物标志物(甾烷和萜烷类)[10]。通过色谱(GC)和气相色谱-质谱联用仪(GC-MS)可以对石油中的各类指纹化合物准确地定性和定量分析,结合化学模式识别的方法对溢油样品进行分类和识别,从众多的溢油样品中快速、准确地确定其溢油源。利用质谱的化学模式识别来鉴别溢油源和污染源的方法,在国内外已经有很多报道,目前应用最多的就是主成分分析法以及聚类分析法。

利用主成分分析法(PCA)可以实现对复杂样品的分类和聚类,首先利用PCA法将分析数据进行降维,用几个主成分来代替原来的多变量,通过PCA主成分的空间特征投影,即主成分的得分图和载荷图,可以直观地看到样品的类别,反映出变量和样品的关系。Lavine等[11]首先利用主成分分析和模式识别的方法来鉴别风化后的燃料油,将油样分成了四种类型。Burns等[12]以36种多环芳烃作为鉴别指标,利用主成分分析法和最小二乘法确定海岸上沉积物的来源,确定了18个可疑的源头,并证明埃克森的溢油事故不是沉积物增加的主要原因。Stout等[13]利用GC-MS的选择离子检测模式作为分析手段,选取19种多环芳烃和生物标志物的诊断比值作为分析指标,结合主成分分析法从66个可疑的溢油源中确定主要的嫌疑目标。2004年,Christensen等[14]提出一种集成主成分分析和统计判别的方法,以多环芳烃和生物标志物的诊断比值作为鉴别指标,主成分分析法降低分析指标的维度,利用加权最小二乘法进行溢油样匹配,该方法成功地确定了两个油样的溢油源。在此基础上,他们又提出基于提取离子色谱图的主成分分析法,选取的检测离子有甾烷(m/z 217)和萜烷(m/z 191),确定四个主成分,结合加权最小二乘法的主成分分析法(WLS-PCA)可以更好地区分不同的油样,快速客观地鉴定出溢油源[15]。王春晓等[16]从Oracle的油指纹数据库出发,设计了溢油鉴别的主成分分析算法的程序模块,程序架构有很高的灵活性和扩展性,应用实例表明该程序方法可以快速确定溢油源的范围,图2为前两个主成分的得分图,可以看出16个溢油样品自动分为四类,其中溢油样品X1和油田D和E最接近,和D5的距离最近,可以初步判断溢油源的范围。杨佰娟等从原油中的金刚烷生物标志物的诊断比值出发,对17个不同的原油样品进行主成分分析,可以快速区分不同地区的油样。

图2 主成分分析得分图

此外,利用聚类分析法处理油指纹化合物的质谱分析数据,实现对溢油样品的分类识别也是一种有效的方法,已经有应用模糊聚类和系统聚类(HCA)方法的报道。模糊聚类根据不同样品之间的亲疏关系来分类,是一种软聚类的方法。而系统聚类则属于硬聚类,样品之间是“非此即彼”的关系,按照样品之间的相似程度(距离)来进行分类。徐恒振等[17]最早将模糊聚类的方法用于溢油源鉴别的研究,以15种甾烷的质谱峰高作为鉴别指标,利用油样的动态模糊聚类分析图可以确定不同样品的归属。史德宝[18]以油指纹化合物的特征比值作为鉴别指标,对单一溢油油样和混合油样进行了模糊聚类分析,可以得到溢油样和可疑油样之间的亲疏关系,确定溢油源的归属。包木太等[19]以油指纹化合物的特征比值为鉴别指标,分别利用主成分分析法和系统聚类分析法(HCA)对渤海地区的4种原油进行鉴别,结果表明,两种方法可以区分有一定差别的原油,对于差异较小的油样则有局限性。赵明明等[20]则以油指纹的诊断比值进行系统聚类分析,对大连石油污染事故实现了污染源的有效鉴别,图3为油样的聚类分析图,图中可以看出,金沙滩油污(JS)和海贝广场油污(HB)比较相似,二者都与油样(DL-1)距离接近,可判断其为污染源,由此可见,系统聚类分析法可以实现大量溢油样品的分类鉴别,但不适合差异较小的油样。

图3 油样的聚类分析图

2.2 成品油的分类识别

原油中具有完整的油指纹信息,而成品油是经过不同工艺加工以及调和而得到的,其中的油指纹信息可能有缺失,所以,成品油的分类识别和原油的鉴别有一定的区别,需要根据不同的油品选取油指纹化合物。在海洋溢油事故中,同样会有船舶燃料油以及润滑油等成品油的泄漏问题。刘星等首先对船舶燃料油的溢油鉴别进行了探究,他们选取甾烷和萜烷类生物标志物作为分析指标,分别利用主成分分析和系统聚类分析对不同的润滑油进行分类鉴别[21];之后他们又利用GC-MS对柴油样品中的正构烷烃、多环芳烃及双环倍半萜进行定量分析,以其诊断比值为基础对6种柴油样品进行系统聚类分析[22],上述结果表明,这两种模式识别的方法可以用于船舶燃料油泄漏的诊断鉴别。周佩瑜等[23]从多环芳烃油指纹的特征谱图和诊断比值出发,利用系统聚类分析从4种油样中确定船舶燃料油的溢油源。

原油或者燃料油的溢油源鉴别是从众多的可疑油样中确定最主要的嫌疑对象,是通过比较溢油样和不同可疑油样之间的相似性来实现的,所以,目前应用最多的是主成分分析法和聚类分析法,都属于无监督的化学模式识别。另外,当要对一种油样进行归类和属性判定时,则需要应用有监督的化学模式识别方法,即判别分析法。原油和燃料油的外观差别不大,近年来一些不法分子以燃料油的名义进口原油,严重扰乱了市场秩序,需要找到一种能快速准确区分原油和燃料油的方法[24]。陈楠[25]以25个原油油品和26个燃料油样品作为训练样本,以GC-MS测定其中的8种多环芳烃的含量,将其作为判别变量进行判别分析,构建了费歇尔判别分析模型和贝叶斯判别分析模型,两种模型的判别准确率都达到了94.1%,结合主成分分析和两种判别分析的判别模型的准确率也达到84.3%。

另外,质谱的化学模式识别方法在汽油的分类识别中的应用也有报道。王荣辉等[26]选取50个90#和93#的汽油样品,利用总离子色谱图中的31种组分的积分面积百分比作为特征值,通过主成分分析法进行数据降维,再结合费歇尔判别法进行判别分析,判别的正确率达到100%,主成分分析法对数据的处理可以大大提高分类判别的准确性。在此基础上,支有冉等[27]探索了结合主成分分析法(PCA)和 K-最邻法(KNN)对两种汽油的分别判别,结果表明,判别的正确率也达到了100%。

2.3 石油组学的数据挖掘

近年来,基于高分辨质谱技术的石油组学是石油化学中一个主要的研究热点。通过FT-ICR/MS等高分辨率质谱仪可以得到石油全馏分的详细分子组成信息,包括其中不同的分子类型和碳数分布。从分子水平去分析石油组成,解析其分子组成和各宏观物性及加工性能的关系,这都需要有大量的石油样品作为基础,这就意味着我们要同时处理不同样品中海量的质谱峰,从中提取有效的石油分子组成信息是一个巨大的挑战。我们需要借助有效的信息处理技术从这些海量的分析数据中挖掘出有用的信息,得到石油的物性及加工性能和其分子组成的关联关系,这是目前石油组成研究中一个重要组成部分[28]。化学模式识别的方法,尤其是多元统计分析是一种有效的大数据挖掘和分析工具,目前已经成功地应用于石油组学的数据挖掘和处理中。

韩国的Kim研究组首先在这方面做了大量的工作,他们将化学模式识别的方法,主要是多元统计分析工具应用于石油组学的数据分析和挖掘中,并开发了相应的统计分析软件ChemBrowser,软件中涉及的统计分析工具有主成分分析(PCA)、自组织映射SOM以及K-均值聚类分析等。

其中Hur等[29]分别以正离子和负离子大气压光致电离(APPI)为电离源,利用FT-ICR MS对20种原油进行分子组成表征,对于一种电离模式每个原油样品能检测出10000~15000个峰,并确定其分子量,计算其相应的分子式,将这些分析数据作为统计分析的输入特征。对得到的分子组成数据进行主成分分析(PCA),用前两个主成分作图可以清晰地显示出20种原油样品被分为3类,载荷图则可以表示原始变量的分布情况,即样品中每个峰的分布,将这些峰按照不同的分子类型进行标注,再结合得分图就可以表示出不同类的样品中分子类型的分布情况。分别选择某一种类型的分子作为变量,用系统聚类分析(HCA)可以将样品进一步归类,结合热图可以展现不同类型样品中详细分子组成的差别。

3 结语

质谱的化学模式识别也就是指利用化学模式识别的方法来处理质谱的分析数据的过程,通过对质谱数据的多元统计分析,可以将样品进行分类识别。目前其在石油质谱分析方面的应用还不够深入,应用最多的是无监督的聚类分析法,包括系统聚类分析(HCA)和模糊聚类分析,以及主成分分析(PCA)的投影图,主要应用于基于色质联用仪GC/MS分析数据的原油鉴别分类,溢油源的鉴别等方面。以石油中的指纹化合物的诊断比值为鉴别指标,通过PCA对数据降维,利用PCA的空间投影图进行直观分类,结合聚类分析的方法再进行详细的划分,可以从众多可疑的样品中确定溢油源。在成品油的分类识别中也有应用判别分析的报道,先以一定的油样作为训练集建立判别模型,一般有费歇尔判别模型和贝叶斯判别模型,这样可以快速地对油样进行归属判别。另外,化学模式识别在石油组学的数据挖掘中也发挥着重要的作用,例如,利用PCA和HCA的方法可以从分子水平对原油进行分类,清楚地看出不同原油中分子类型的分布,结合各种多元统计分析工具也可以构建原油的各种物性和分子组成的关联关系。

质谱是一种重要的石油分析表征手段,但相对于近红外化学模式识别的方法,目前应用于石油质谱分析方面的化学模式识别方法还不够全面。首先,偏最小二乘法(PLS)对差异较小的样本可以更好地区分,可以得到比PCA法更好的分类判别结果[33],所以,PLS的数据降维和特征投影法可以在质谱的化学模式识别中发挥更重要的作用;其次,判别分析的方法应用还比较少,目前只有费歇尔和贝叶斯的判别模型报道,可以结合其他判别分析法,如人工神经网络(ANN)、簇类的独立软模式法(SIMCA)以及支持向量机(SVM)等进行探索。所以,基于石油的质谱分析技术建立更加准确的溢油源鉴别方法;构建原油及成品油的判别模型,与石油的详细组成数据库结合,用于快速确定油样的详细组成;探索石油组学的数据深度挖掘技术,从分子水平去关联和预测石油的各项物性,这些都是质谱化学模式识别的研究重点和方向。

参考文献

[1] 田松柏,龙军,刘泽龙.石油学报:石油加工,2015,31(2):282-292.

[2] 何锡文,邢婉丽.分析科学学报,1995(04):64-70.

[3] 刘晶静.复杂体系化学模式识别与质量分析方法研究[D].天津:南开大学,2011.

[4] 闵顺耕,刘霞.光谱学与光谱分析,2007,27(7):1299-1303.

[5] 齐静静,苑桂鑫,宋凤瑞,等.质谱学报,2009,30(6):334-339.

[6] 陈燕清,倪永年.化学研究与应用,2009,21(1):1-7.

[7] 刘巍,毛友安,钟科军,等.分析试验室,2008,27(2):65-69.

[8] 邹修明,罗楠,孙怀江.淮阴师范学院学报:自然科学版,2011,10(5):409-413.

[9] 王传远,王敏,段毅.海洋开发与管理,2008,25(3):84-87.

[10] Wang Z,Stout S A,Fingas M.Environmental Forensics,2006,7(7):105-146.

[11] Lavine B K,Mayfield H,Kromann P R,et al.Analytical Chemistry,2002,67(21):3846-3852.

[12] Burns W A,Mankiewicz P J,Bence A E,et al.Environmental Toxicology & Chemistry,1997,16(6):1119-1131.

[13] Stout S A,Uhler A D,Mccarthy K J.Environmental Forensics,2001,2(1):87-98.

[14] Christensen J H,Hansen A B,Giorgio T,et al.Environmental Science & Technology,2004,38(10):2912-2918.

[15] Christensen J H,Giorgio T,Hansen A B.Environmental Science & Technology,2005,39(1):255-260.

[16] 王春晓,杨晓梅,苏奋振,等.山东科技大学学报:自然科学版,2009,28(6):100-106.

[17] 徐恒振,周传光,马永安,等.交通环保,2002,23(2):7-10.

[18] 史德宝.GC-MS方法在船舶溢油油源鉴别中的应用研究[D].厦门:集美大学,2014.

[19] 包木太,孙培艳,崔文林,等.分析化学,2008,36(4):483-488.

[20] 赵明明,王传远,蔡沁宏,等.地球化学,2014(4):352-357.

[21] 刘星,王震,马新东,等.海洋科学,2011,35(6):39-43.

[22] 刘星,王震,马新东,等.环境污染与防治,2011,33(12):18-22.

[23] 周佩瑜,陈畅曙,胡平,等.海洋学报,2014(12):91-102.

[24] 刘倩倩,孙健,林雨霏,等.化学分析计量,2012(5):27-29.

[25] 陈楠.基于多元统计分析的原油/燃料油种类鉴别技术研究[D].青岛:中国海洋大学,2014.

[26] 王荣辉,宗若雯,王正洲,等.中国科学技术大学学报,2006,36(12):1331-1335.

[27] Zhi Y R,Zong R W,Wang R H,et al.Fire Safety Science,2009.

[28] 宋锦玉,成立.当代化工,2014(08):1498-1501.

[29] Manhoi H,Injoon Y,Eunsuk P,et al.Analytical Chemistry.2009,82(1):211-218.

[30] Chiaberge S,Fiorani T,Savoini A,et al.Fuel Processing Technology,2013,106(2):181-185.

[31] Hur M,Yeo I,Kim E,et al.Energy Fuels.2014,24(1):5524-5532.

[32] Vaz B G,Abdelnur P V,Rocha W F C,et al.Energy Fuels,2013,27(4):1873-1880.

[33] 褚小立,许育鹏,陆婉珍.现代仪器,2007,13(5):13-15.