1.2 系统发育基因组学
1.2.1 物种进化和多样化机制
陆生植物进化中多倍体发生导致加速的基因组变异(图1-2),这是与其他真核生物迥异之处,也与植物进化的关键创新密切相关。基于迅速增加的基因组资源,可以将基因组改变与药用植物的植化和生理特征的起源联系起来。可推测植物家族树关键节点的祖先基因内容。集中发生于约31900万年和19200万年前的祖先WGDs(全基因组倍增)加速了调控基因的多样化,它们对种子和花的发育至关重要,并负责关键创新,导致种子植物和有花植物迅猛增加并占据优势。被子植物中广泛出现的多倍体可能是产生新基因和扩展某些基因家族的主要因素(Hofberger等,2013)。然而绝大多数基因家族以近中性过程丢失绝大多数倍增基因拷贝,并发现几个基因家族主动选择单拷贝状态。目前将基因组修饰与物种形成、多样化和植化/生理创新有机联系的研究还很少,故难以深刻阐明生物多样性和化学多样性的内在机制。蓬勃发展的进化基因组学显著改善系统发育树分辨率,使研究者找到负责特定进化创新的特定基因。更精准地理解植物进化有助于丰富植物多样性知识库,包括对人类健康至关重要的药用性状。
图1-2 多倍体化对植物基因组和表型的影响
(实线粗箭头:同源多倍体效应;虚线箭头:异源多倍体效应;细箭头:两类多倍体共有效应;符号:效应的方向)
案例研究对于阐明WGD和次生代谢(次代)路径多样化的关联十分重要。WGD和串联倍增促进了十字花科芥子油苷路径多样化(图1-3)。至少52个拟南芥生合和调控基因参与芥子油苷生物合成(生合)。岩芥菜属(Aethionema arabicum)位居其他十字花目物种基部,包括67个芥子油苷生合基因,绝大多数在拟南芥有直系同源基因,表明有同线型关系。拟南芥45%蛋白质编码基因有多于一个拷贝,而多达95%拟南芥和97%岩芥菜芥子油苷路径基因有多个拷贝,说明该防御路径发生了特别显著的多样化。序列联配和系统发育分析表明芥子油苷路径基因的显著倍增发生在最后一次共同的WGD事件。串联倍增和后续的亚功能化和新功能化进一步增加了芥子油苷次代物的遗传多样性和化学多样性,强化了表型塑性和适应性。更重要的,多样次代物广阔的化学空间在药物发现方面潜力巨大。倍增基因拷贝也解释了最大的植物天然产物类别——萜类的多样化过程(Hao等,2015,2016)。追踪植物萜类生合和多样化之根源揭示了双子叶和单子叶植物进化出迥异的次代路径组装的基因组机制。
图1-3 硫代葡糖苷代谢产物的多样化机制
倍增基因在鼠耳芥属蛋白质编码基因中占比,并与拟南芥(At)GS(芥子油苷)和阿拉伯岩芥菜(Aab)GS基因比较,根据Hofberger等(2013),倍增基因有三种情况:保留的ohnolog(基于功能模块组织的剂量敏感的基因聚类)、串联倍增(TD)和基因转位倍增(GTD)。图示各倍增类型基因占比。谱系进化中GS代谢塑性主要源于增加的ohnolog保留和TD
除了多倍化,异域歧异、基于气候波动的歧异、杂交和渐渗,以及传粉介导的隔离也是某些药用物种进化的机制,尤其在生物多样性热点地区,如青藏高原(QTP)(肖和夏,1973a~1973f)。随着QTP广泛抬升发生了规模宏大的快速物种多样化,产生了众多形态各异和植化表型迥异的新种。形态和代谢表型创新看起来都是具有生态适应性的,其潜在分子机制仍难以捉摸。系统发育基因组学是生物进化和基因组学的交叉学科,是将基因组数据用于进化关系重建的综合分析,因此需要系统发育研究方法和基因组学技术的紧密配合。系统发育研究是比较分析单个基因或少数几个基因序列(Hao等,2008a,2008b),也常结合其他类型数据,例如形态学、细胞学和植物化学(朱和肖,1991;郝等,2012)数据。系统发育基因组学基于全基因组测序时代之前的分子系统学研究,通过比较全基因组序列或至少大部分基因组序列来全面获取对进化关系重建有用的信息(郝等,2014,2015)。目前该领域研究包括以下几方面。
1.2.2 基因功能预测和进化推演
现存植物已鉴明的有307700种,估测上限45万种,提示植物多样性的潜在空间巨大。在进化史上均经历多次WGD,倍增基因拷贝在基因组中通常以保守的同线块(syntenic block)形式存在。在植物进化过程中,基因组大小变化是一种相对频繁的事件,这些变化一般并不与基因多少及顺序变化相关联。基因数量及顺序的保守性称为同线性。基因组倍增显著影响新性状起源(图1-4),近年来植物次生代谢路径多样化与WGD有关的例子越来越多。倍增基因拷贝可以解释萜类和硫代葡糖苷等多基因路径合成的次生代谢产物的多样化过程。次生代谢基因的串联倍增及随后发生的亚功能化和新基因化过程进一步增加了次生代谢产物的遗传多样性和化学多样性,增强了植物适应生态环境变迁的能力,显示了植物次生代谢产物化学空间在药物发现方面的巨大潜力。被子植物(有花植物)中已发现次生代谢产物超过20万种,可能大部分源自复杂性状的快速创新。
图1-4 核心真双子叶植物系统发育和基因组倍增历史示例
箭头代表六倍化;三角代表四倍化。目前未发现以下物种基因组在成种后进一步多倍化的证据:马铃薯,茄子,红辣椒,烟草,咖啡,葡萄,木瓜,可可,草莓和桃。绿茄、黏果酸浆、番茄和许多物种基因组数据很少
甾体糖生物碱(steroidal glycoalkaloid,SGA)具细胞毒活性,能抑制乙酰胆碱酯酶,破坏细胞膜功能。研究了茄属(Solanum)六个野生种和种植马铃薯SGA代谢路径五个基因的自然变异和全基因组SNP基因分型(Manrique-Carpintero等,2013)。5个基因包括属于初级代谢的3-羟基-3-甲基戊二酰辅酶A还原酶1和2(HMG1,HMG2)以及2,3-鲨烯环氧酶(SQE),属于次级代谢的茄碱半乳糖基转移酶(SGT1)和葡糖基转移酶(SGT2)。测序3.7kb DNA检测到354个变异。内含子中发现的变异多于外显子,次生代谢途径的关键酶编码基因中的变异多于初级代谢基因。dN/dS<1以及Tajima’s D检验为负值提示存在纯化选择和遗传搭车(hitchhiking,指看似对生物体适应性及进化没有贡献的搭车客突变)。比较核苷酸多样性估计值和dN/dS提示初级代谢基因经受的选择限制强于次生代谢途径的关键酶编码基因,可解释次生代谢多样性。发现SGA含量低的马铃薯和SGA含量高的S. chacoense的HMG2、SQE、SGT1和SGT2各有特定的SNP基因型。Illumina SNP芯片分型发现八个有信息SNPs,其不同组合可区分SGA含量高中低的不同代谢表型。这类研究有助于评价SGA在分离或关联作图群体中的差异分布,对道地药材研究具参考价值。
具抗癌抗菌活性的苯并嗪类防御化合物存在于禾本科(Gramineae)、毛茛目(Ranunculales)和唇形目(Lamiales)多种植物中,其生物合成涉及九个酶(Dutartre等,2012),最终形成糖基化产物存储。其中七个基因(Bx1~Bx6和Bx8)在玉米四号染色体短臂末端形成一簇(cluster),四个P450基因(Bx2~Bx5)均属于CYP71C亚家族。推测在禾本科辐射进化之前TSA(色氨酸合成酶a亚单位)基因和一个与Bx2相似的CYP71C祖先基因数次倍增,并且Bx8征募到近旁,从而形成次生代谢途径的关键酶编码基因簇。但是Bx6和Bx7的起源需要进一步研究。与Bx2相似的CYP71C祖先基因的功能与苯并嗪合成无关,基因倍增后Bx2~Bx5基因的几个位点经受正选择,发生功能歧异,形成了目前酶特定的生化性质。已测序的禾本科Bx基因区域缺乏同线性,而TSA基因区具保守的同线性,说明基因倍增后发生重排,导致Bx1和Bx2的新拷贝在禾本科共同祖先的一个染色体末端成簇。成簇有利于相关基因共分离,末端染色体的定位则便于基因重排,也便于有关合成基因的进一步征募。这些奠基事件(founding event)和延伸(elongation)事件对于后续的苯并嗪生合基因簇的进化至关重要。双子叶植物尚未发现CYP71C,很可能双子叶和单子叶植物的苯并嗪生物合成途径彼此独立进化,即属于趋同进化。生氰糖苷的生物合成途径也存在类似的进化现象(Takos等,2011)。对次生代谢产物生物合成途径的深入研究有助于育种方案的理性设计,优化药用化合物的生产,实现基于生物技术的生产方式改进。
研究多基因家族的进化时,基因树比物种树更有助于了解成员基因的进化历史和基因倍增过程。通过对基因树和物种树冲突进行解释,可推测进化机制,包括快速辐射分化、杂交/基因渐渗、不完全谱系分选、水平基因转移、旁系同源基因、基因倍增/丢失以及基因重组等。这些进化机制也可部分地解释近缘物种的化学表型多样性,有助于推测药用化合物的来源和转化路径。次生代谢产物生物合成基因家族和转录调控基因家族均可在系统发育框架内挖掘分析全基因组有关序列。
1.2.3 构建和理清物种进化关系
例如,基于桔梗科18个种叶绿体基因组的基因排列顺序构建系统树(Cosner等2004),从全新的角度阐述了桔梗科18个属间的系统发育关系。采用高通量测序平台获得天南星科32属线粒体基因组序列(Henriquez等,2014),发现线粒体系统树支持率低且与叶绿体系统树不一致。基于叶绿体全基因组序列的系统树表明水芋属(Calla)和落檐属(Schismatoglottis)在一个主枝基部聚在一起,得到形态学和细胞学证据支持。植物线粒体DNA的基因顺序可能进化较快,但是核苷酸序列的进化速率仅为动物的1%。叶绿体DNA核苷酸序列的进化速率比线粒体快3~4倍,目前在种间进化关系研究中应用最多,如对菊分支植物(asterids)、人参(Zhao等,2015)、银杏(Wu等,2013)、金壳果科(Malé等,2014)和金虎尾目(Xi等,2012)的研究。但是叶绿体全基因组数据不足以解决经历快速分化的类群,如姜目(Barrett等,2014)。结合大量核基因组数据全面分析十分必要。单拷贝基因在被子植物基因组中比较常见,肖培根研究组基于29个已测序基因组的高质量数据实现了单拷贝基因的大规模识别和进化表征(Han等,2014),发现基因组倍增区块(duplicate block)数量和单拷贝基因数量呈显著负相关。17%单拷贝基因位于细胞器基因组,GO注释属于结合(binding)和催化活性类别的较多。真双子叶植物基因组中,单拷贝基因比非单拷贝基因具有更强的密码子偏性。RNA-Seq数据证实了部分单拷贝基因相对高的表达水平。与其他植物不同,禾本科基因组中单拷贝基因的密码子有效数量(Nc)与密码子第三位G+C含量(GC3)呈显著负相关。Ka和Ks值提示进化上单拷贝基因比非单拷贝基因更保守。对可变剪接的选择约束(selective constraint),单拷贝基因弱于低拷贝数基因家族(1~10旁系同源基因)成员,但是强于高拷贝数基因家族(>10旁系同源基因)成员。联用各基因组共有的单拷贝基因序列得到分辨力佳的系统树。加上内含子序列提高了分支支持率,但是得到的系统树与未加时不一致。建树时包括内含子序列可能更适合较低的分类学水平。单拷贝基因和非单拷贝基因经受的进化约束明显不同,有些表现出物种特异性,尤其在真双子叶和单子叶植物间。
药用植物多样性是药用植物与环境形成的生态复合体以及与此相关的各种生态过程的总和,有遗传多样性、化学多样性、居群多样性、药用物种多样性、根际微生物多样性和生态系统多样性等多个层次。对于物种不均匀分化程度较强的地区,在解释气候生态因子与药用植物多样性之间的关联时,要充分考虑进化过程的影响。如中国西南地区的“天空之岛”(何和蒋,2014),在第四纪形成了丰富的药用植物资源,许多药用族属仍处于激烈分化过程中,如毛茛科铁线莲属、乌头属和翠雀属等。全叶绿体基因组数据是细胞器尺度的超级条形码,可用其研究分布于不同地理位置的同一物种(如道地药材)的种内变异和地理亲缘学。但叶绿体基因组只相当于一个基因座,叶绿体基因组和核基因组在居群水平的应用可为研究道地药材起源、种内分化时间和分化强度提供线索。种内谱系关系的确立可重现居群的进化历史,是更细致的系统发育重建。
1.2.4 预测和追溯侧向基因转移
侧向(水平)基因转移在微生物进化中广泛存在的事实从根本上动摇了生命之树的假定形态。已发现很多原核和真核生物间的侧向基因转移,相当多药用植物和其内生细菌/真菌具有相似的次代物生物合成路径,其隐含的系统发育基因组学规律有待揭示,这将有助于药用植物和其内生菌互作的研究,为开发植物药资源提供参考。