异构基因共表达网络的分析方法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

我们正处在一个万物互联的时代。随着微传感器技术、物联网技术的高速发展,我们身边原本孤立的各种物理设备正逐渐变得智能化,并借助多样化的信息交互手段无缝连接到一起。物理设备映射到信息域交互连接的信息对象组成了一个庞大而复杂的网络,我们称之为信息网络。信息网络也可以视为现实系统在信息域的一种描述,其反映了现实系统中的对象(这些对象包括物理世界中的智能设备、智能设备在信息域映射的信息对象,还包括信息系统中的各种数据对象等)、拓扑结构及对象之间丰富的交互关系等。现实系统中的对象被表示为网络中的顶点,而对象之间的关系被表示为顶点与顶点之间的边。由大量互相连接的信息对象组成的信息网络在现实世界中随处可见,例如社交媒体网络、电子商务网络、生物信息网络,以及大量的结构化数据库系统等。尤其是生物信息网络的基因共表达网络为分析和深入研究基因的表达水平和调控关系、为后续生物学研究提供依据,并奠定了坚实的基础。如何从信息网络中挖掘出有用的知识是一项意义重大且充满挑战的任务。在最近十几年里,信息网络的挖掘俨然成为数据挖掘和信息检索领域的一个新的研究热点。最初的信息网络挖掘基本上都是将传统的数据挖掘方法扩展到同构信息网络中,即假设信息网络中只包含一种类型的对象,且对象之间只存在一种类型的连接关系。然而,在实际情况中,信息网络基本上都是异构的,即网络中包含多种类型的对象,且对象之间可能存在多种类型的连接关系。

然而,许多现有的数据分析方法,如聚类等,都是为了离散点集或只包含一种关系的同构信息网络而设计的。对于异构信息网络中包含的多种类型的对象和丰富的语义关系,必须经过投影转换等手段将异构信息网络转换为同构信息网络才能处理。这种转换忽视了对象和连接类型之间的相关性,一般都会导致异构信息网络中语义信息的丢失或者网络结构的损坏。

本书以面向鼻咽癌的LncRNA和mRNA基因共表达网络为主要研究对象,基于张量分解工具对异构信息网络的聚类问题进行研究;提出了基于张量的异构信息网络建模方法、一般网络模式的异构信息网络聚类模型、稀疏性约束下的异构信息网络聚类模型、动态异构信息网络中的混合多类型社团发现模型;并在此基础上利用这些异构信息网络分析方法,深入研究LncRNA和mRNA的表达水平和调控关系,从而为后续鼻咽癌的监测和治疗提供依据。

本书通过基因芯片技术,获得基因表达谱,并从中找到与鼻咽癌相关的差异表达的LncRNA,综合考虑不同类型mRNA之间的关系、LncRNA和mRNA之间的关系,结合基因调控网络的知识,构建与鼻咽癌相关的LncRNA-mRNA基因共表达网络。

本书共7章,第1章是绪论,介绍异构信息网络分析的基本概念,讨论了关于异构信息网络聚类和张量分解的发展和研究现状,分析了目前异构信息网络聚类方法存在的问题和短板,引出本书主要内容;第2章主要介绍关于异构信息网络和张量代数的基本定义和相关概念,分析异构信息网络的主要特征,研究异构信息网络的张量表示模型,为接下来的异构信息网络聚类研究提供模型描述基础;第3章介绍基因共表达网络基础知识,并采用临床样本数据构建LncRNA-mRNA基因共表达异构信息网络;第4章主要介绍一种基于遗传算法的社团划分算法——CDGA算法,可以进一步发现基于鼻咽癌的LncRNA-mRNA基因共表达网络中具有相似表达的基因,利用遗传算法对鼻咽癌相应的基因共表达网络进行社团探测;第5章介绍一种新型的基于稀疏张量分解的聚类框架,将异构信息网络的聚类形式化为类似TUCKER分解的张量形式,证明张量分解应用于异构信息网络聚类的可行性和收敛性,并探讨基于张量分解的异构信息网络聚类的瓶颈问题,给出了算法的初始化方法,最后通过在实际基因共表达数据集上的实验对算法进行了评估;第6章针对现实异构信息网络中各种类型对象的聚类结果存在稀疏性问题,在张量CP分解模型的基础上引入了Tikhonov正则项对特征矩阵进行稀疏性约束,提出了带稀疏性约束条件的异构信息网络聚类框架,提出了两种随机张量梯度下降算法,严格证明了两种随机张量梯度下降算法的收敛性条件,并讨论了利用张量的稀疏性对算法加速运算的策略,最后在实验中评估了两种算法的性能;第7章进一步介绍动态异构信息网络中的混合多类型社团发现方法,提出了带时变正则项的张量CP分解模型,并提出了混合多类型社团数量的自适应学习方法,讨论了网络中新旧对象更替和算法在线部署等问题。