第1篇 树数据的输入/输出及操作
第1章 导入带有数据的树文件
1.1 系统发育树构建概述
系统发育树(Phylogenetic Tree,简称“进化树”)是基于生物的遗传序列构建的,常用来描述生物群体之间的谱系关系。我们常用有根树来表示进化历史模型。树由树节点之间的“祖先—后代”关系,以及不同亲缘水平的“姐妹”或“表亲”生物的聚类所描绘,如图1.1所示。在传染病研究中,进化树通常由病原体的基因序列或基因组序列构建。我们可以通过找出哪个病原体样本在遗传上更接近另一个样本,从而更加深入地了解平时难以观察到的流行病学联系和流行病爆发的潜在源头。
图1.1 进化树的组成部分
外部节点(绿色圆点)又被称为“叶节点”,表示采样及测序的实际生物体(例如,传染病研究中的病毒),在进化生物学术语中又被称为“分类单元”。内部节点(蓝色圆点)表示外部节点的假设祖先。根(红色圆点)是进化树中所有物种的共同祖先。水平线条表示树的分支,又表示生物所发生的以时间或遗传分歧衡量的演变(灰色数字)。底部的线条表示这些分支长度的标尺。
基于基因序列,进化树可以通过两种方法来构建,一种是基于距离的方法;另一种是基于字符的方法。基于距离的方法是指基于所计算出的序列间遗传距离矩阵来构建进化树,其中包括非加权分组平均法(UPGMA)和邻接法(NJ)。基于字符的方法是指基于描述遗传字符演化的数学模型构建进化树,并根据其最优选择标准来找出最佳进化树,其中包括最大简约法(MP)[1]、最大似然法(ML)[2]和贝叶斯马尔科夫链蒙特卡洛法(BMCMC)[3]。
最大简约法(Maximum Parsimony,MP)的核心思想是物种在进化过程中会尽可能少地发生变化,并且以此为依据最小化序列字符改变的数量(例如,DNA碱基替换的数量)。这种思想有点类似于奥卡姆剃刀原则,即可以解释数据的最简单假设就是最佳假设。未加权简约法认为不同序列字符(核苷酸或氨基酸)的突变具有同等的可能性,而加权简约法认为不同序列字符的突变的可能性不相等[例如,第三个密码子位置比其他密码子位置更多变;并且转换(transition)的频率高于颠换(transversion)的频率]。MP方法直观而又简单,这使得它受到众多生物学家青睐。因为相较于相关分析的计算细节,学者们更专注于对问题的研究。但是,MP方法也存在一些缺点,特别是对于进化树的推断来说,其结果可能因为存在长枝吸引效应(Long-Branch Attraction,LBA)而使推断结果产生偏差,如将远亲谱系错误地推断为近亲[4]。这是因为MP方法没有考虑到许多序列的进化因素[如逆转(reversals)和收敛(convergence)],而这些因素在现有遗传数据中是很难被观察到的。
最大似然法(Maximum Likelihood,ML)和贝叶斯马尔科夫链蒙特卡洛法(Bayesian Markov Chain Monte Carlo,BMCMC)是构建进化树最常用的两种方法,并且被广泛应用于科研中。ML方法和BMCMC方法都需要先确定序列演化的替代模型。不同的序列数据具有不同的替代模型,用以构建DNA、密码子或氨基酸的演化过程。例如,存在着JC69、K2P、F81、HKY和GTR[5]等多种核苷酸替代模型。这些模型可以与位点间不同的演化速率(记为+Γ)[6]及恒定位点的比例(记为+I)[7]一起使用。已有研究[8]表明,错误地指定替代模型可能会使系统发育推断产生偏差。所以我们建议先进行相关的检验以选出最合适的替代模型。
通过ML方法构建树的最优准则是找到由序列数据构建的似然值最大的树。ML方法的过程很简单,计算一棵树的似然性并优化其拓扑和分支,直至找到最优树。PhyML和RAxML中所应用的启发式搜索算法(Heuristic Search)通常用于根据似然标准找到最优树。贝叶斯方法基于给定的替代模型通过MCMC方法对树进行抽样,从而找到后验概率最大化的树。BMCMC方法的优点之一是在抽样过程中,可以方便而自然地获得参数方差和树拓扑不确定性,包括进化枝后验概率。此外,拓扑不确定性对其他参数估计的影响也会被自然地整合到BMCMC系统发育框架中。
在相对简单的系统发育树中,与树的分支或节点相关的数据可以是枝长(表示遗传或时间分歧)和谱系支持度,例如,通过自举程序估算的自举值或在BMCMC方法分析中由抽样得出的进化枝后验概率等。
需要注意的是,BMCMC方法是在MCMC方法基本上进行的推断,MCMC是一种抽样方法,用于简化贝叶斯推断的计算方法。