第3章 药用植物基因组/转录组研究和高通量测序
3.1 研究背景
传统上是由化学家和植物化学家引领药用植物产品的研究,但随着植物次生代谢物(SMs)和活性基因间关联的揭示,愈来愈显示遗传学和基因组学手段在促进天然产物发现中的巨大作用。在漫长的进化过程中,植物发展出合成无数SMs的机制,SMs的生化筛选对发现新颖化合物结构,开发植物基新药不可或缺。深入研究SMs生合和相关遗传机制,促进分子育种、代谢工程和转基因植物开发,方便大规模生产植物基药物,也有助于从化学分类和分子系统发育两个角度探索药用植物亲缘关系。与全基因组测序相比,RNA高通量测序更经济可行,故在近十年被药用植物领域广泛采用,明显提升了植物基因表达的研究速度。罗氏454焦磷酸测序和Illumina高通量测序是很受欢迎的测序平台,已广泛用于药用植物转录组研究。测序流程持续进展,从测序样品制备到海量数据分析各环节不断更新换代,使得快速获取药用植物转录组轮廓和深入调查基因型和化学表型关联成为可能。高通量转录组测序的随机性有保证(图3-1),从图中可见读序在组装的unigene中的分布大体上是均一的。从unigene预测蛋白质编码序列(CDS),是基于转录组数据的基因功能注释的必要步骤(图3-2)。本章论述药用植物转录组/基因组研究中高通量测序应用的最新进展。
图3-1 从鼠尾草属(Salvia sclarea)叶转录组读序分布推测高通测序的随机性(Hao等,2015)
(a)7.5mmol/L MeJA处理0h;(b)10h;(c)26h
对联配到参考基因不同位置的读序数量求和。由于基因长度不同,将参考基因中被读序覆盖的位置归一化为相对位置(即参考基因中读序位置与基因长度的比值)。若mRNA碎片化的随机性理想,参考基因中读序分布应大致均匀。横坐标是从基因5′端至3′端的相对位置,纵坐标是相应读序数量
图3-2 从组装的南方红豆杉(T. mairei unigenes)预测蛋白编码序列(CDS)
用BLASTX(e值<0.00001)联配unigene和蛋白质数据库,优先顺序为nr、Swiss-Prot、KEGG和COG。与高排位数据库联配的unigene不再与其他数据库联配。所有数据库依次联配完即结束。用BLAST结果中排位最高的蛋白质决定unigene的编码区序列,将其翻译成氨基酸序列。不能与任何数据库联配的unigene用ESTScan(http://www.ch.embnet.org/software/ESTScan.html)扫描,得到编码区的核苷酸序列(5′-3′)和氨基酸序列。(a)预测CDS的长度分布,(b)预测CDS的空位(N)分布