分子生物学(全国中医药行业高等教育“十四五”规划教材)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第四节 基因组

每一种生物都有自己的基因组。不同生物的基因组从结构、大小到所携带的遗传信息量都不相同。基因组决定着一种生物个体的全部遗传性状。一个物种基因组的DNA含量和基因数目是恒定的,该恒定值分别称为C值(C-value)和G值(G-value)。物种的C值和G值与其遗传和形态复杂程度之间并无严格的对应关系,这种现象称为C值矛盾(C-value paradox)、G值矛盾(G-value paradox)。

一、病毒基因组

病毒(virus)是一类以感染细胞为最重要特征的微生物。完整的病毒粒子由核酸和蛋白质构成。核酸包裹于内部,蛋白质则形成病毒衣壳和包膜,作用是保护核酸并协助其感染细胞。噬菌体(phage)也是病毒,是以细菌为宿主的病毒。

病毒没有独立的代谢系统,其唯一的生命活动是在感染细胞后可利用细胞代谢系统进行复制,形成新的病毒粒子。与其他生物相比,病毒基因组最小,并有以下基本特征。

1.所含核酸的种类、结构、数目不同 可能是DNA(如痘病毒)或RNA(如逆转录病毒),单链分子(如冠状病毒)或双链分子(如腺病毒),共价闭合环状结构(如T4噬菌体)或线性结构(如疱疹病毒)。DNA病毒基因组均为单一DNA分子。RNA病毒基因组多数为单一RNA分子,部分有多个不同的RNA分子,例如流感病毒有8个单链RNA分子,呼肠孤病毒有10个双链RNA分子。逆转录病毒例外,有两个相同的单链RNA 分子。

2.基因组小 含3~250个单拷贝基因(逆转录病毒例外)。RNA病毒的基因组都特别小,而DNA病毒的基因组大小差异较大。例如,乙型肝炎病毒基因组DNA长3182~3248bp,含4个基因(CXPS);痘病毒基因组DNA长130~230kb,约含250个基因。病毒基因数目比宿主少得多,几乎没有任何独立的生命活动,甚至依靠宿主细胞的代谢系统才能完成复制。

3.基因组基本上都是编码序列 编码序列长度占病毒基因组的95%,且编码产物均为蛋白质。

4.基因连续性不同 病毒基因的连续性与其宿主基因一致,即原核病毒(噬菌体)基因与原核基因一致,是连续的;真核病毒基因与真核基因一致,有些基因是断裂基因。

5.相关基因串联成一个转录单位 ①ΦX174噬菌体的11个基因只有3个启动子(PAPBPD)和4个终止子(TJTFTGTH)(图1-13)。②腺病毒的5个晚期基因(late gene,L1L5)由同一个启动子启动转录,指导合成1种mRNA前体,再通过选择性剪接(第二章,87页)加工成5种成熟mRNA,指导合成5种蛋白质(图3-1,74页)。

二、原核生物基因组

原核生物(细菌、支原体、衣原体、立克次体、螺旋体、放线菌)有完整的代谢系统,并且可调节代谢以适应营养状况和环境因素的变化,因此其基因组所含基因数目多于病毒,但少于真核生物,并有以下基本特征。

1.单一共价闭合环状双链DNA 原核生物的DNA虽然结合有少量蛋白质,但并未形成典型的染色体结构,只是习惯上称为染色体。原核生物染色体在细胞内形成一个致密区域,称为原核或类核。原核无核膜,其核心部分(20%)由RNA和支架蛋白构成,外周(80%)是基因组DNA。耐辐射球菌例外,有4~10个DNA拷贝。

2.只有一个复制起点 相比之下,真核生物基因组DNA有多个复制起点。

3.基因组序列以编码序列为主 占85%~90%,非编码序列几乎都是调控序列,几乎不含重复序列。

4.几乎所有基因都是单拷贝 个别例外,如大肠杆菌rRNA基因有7个拷贝。

5.基因组所含基因数比病毒多 细菌有1700~7500个,较小的支原体也有近500个基因。

三、真核生物基因组

真核生物基因组最大,结构最复杂(表1-5),并有以下基本特征。

表1-5 原核生物基因组和真核生物基因组对比

1.染色体DNA是线性分子 含三种特殊序列。

(1)复制起点:功能是启动DNA复制。每个染色体DNA分子都有多个复制起点,例如酵母每个染色体DNA分子平均有25个复制起点。

(2)着丝粒DNA:为真核生物所特有,是动粒结合位点,几乎不含蛋白基因,功能是参与染色体分配,即将姐妹染色单体均分给子细胞。酿酒酵母着丝粒DNA是约125bp的单一序列,而大多数真核生物着丝粒DNA是>40kb的高度重复序列(含一种或几种5~10bp重复单位)。人着丝粒DNA又称α卫星DNA。

(3)端粒:为真核生物所特有,是染色体DNA的末端序列,功能是维持染色体DNA结构的独立性和稳定性,参与DNA复制完成。端粒位于染色体DNA两端,是一种富含T/G的短串联重复序列,不含蛋白基因。不同真核细胞端粒长短差异悬殊,某些纤毛原生动物端粒只有几十个碱基对,哺乳动物端粒则长达数万碱基对。例如,哺乳动物和其他脊椎动物端粒以TTAGGG为重复单位,串联重复500~5000次(人800~2400次),长度为3~30kb(人3~20kb),末端有几百个核苷酸的黏性末端,形成5~10kb的t环(第二章,48页)。

2.染色体DNA形成染色体结构 染色体数目一定,除了配子是单倍体外,体细胞绝大多数是二倍体。

3.基因组序列中仅有不到10%是蛋白质编码序列 人类基因组蛋白质编码序列甚至不到2%(图1-15)。编码序列在基因组序列中的比例是真核生物、原核生物和病毒基因组的重要区别,并且在一定程度上是衡量生物进化程度的标尺。

图1-15 人类基因组序列分析

4.基因在基因组中散在分布 相邻基因被称为基因间区(intergenic region,基因间序列,intergenic sequence)的非编码序列隔开。曾认为基因间区占人类基因组的2/3,现在发现这部分可能不到10%。许多基因间区的功能已经或正在阐明。

5.基因组序列中包含大量重复序列 每一种重复序列(repetitive sequence,重复DNA,repetitive DNA)都是一定拷贝数的某种核苷酸序列(称为重复单位)的集合。重复序列可根据重复单位的连续性分为串联重复序列(tandem repeat)和散在重复序列(interspersed repeat sequence),也可根据重复程度分为高度重复序列、中度重复序列和单一序列。

●拷贝数(copy number) 一个细胞内所含某种基因或DNA分子、序列的数目,范围2~107

(1)高度重复序列:又称高等重复DNA,重复单位长度不到100bp(多数不到10bp),拷贝数可达107个,在哺乳动物基因组序列中占比不到10%(人类3%),在基因组中呈串联重复或反向重复排列,且大部分位于异染色质区,特别是端粒和着丝粒区(酵母例外)。高度重复序列不编码蛋白质或RNA,其功能是参与DNA复制、DNA转座、基因表达调控和细胞分裂时的染色体配对,例如着丝粒DNA是富含A-T的高度重复序列。

(2)中度重复序列:又称中等重复DNA,重复单位长度可达102~103bp,拷贝数可达103个,占哺乳动物基因组序列的25%~50%(人类约50%),多数散在分布于基因组中,包括转座子、基因间区、串联重复序列、蛋白基因内含子,也包括rRNA基因(100~5000个拷贝,例如人类基因组约有200个,分布在5条染色体上;爪蟾基因组约有600个,集中在1条染色体上)、tRNA基因(如人类基因组有497个)、5S rRNA基因(如人类基因组约有2000个)和个别蛋白基因(如组蛋白、肌动蛋白、角蛋白等)。

(3)单一序列:又称单拷贝序列、单一DNA,在整个基因组中只有一个或几个拷贝,占哺乳动物基因组序列的50%~60%。蛋白基因大部分属于单一序列,但只占其一小部分。

不同真核生物基因组中重复序列占比差异极大。大多数单细胞真核生物基因组中重复序列占比不到20%,动物基因组中重复序列占比可达50%,植物和两栖动物基因组中重复序列占比可达80%。

6.基因组中存在各种基因家族 基因家族成员有的形成基因簇,有的散在分布。

●基因簇(gene cluster) 又称基因复合物(gene complex),是指基因组中高度丛集甚至串联的两个或多个基因的总称,所含基因多为结构基因,编码产物的功能相互联系,例如可能是催化同一代谢途径不同反应步骤的酶。

7.基因组中含大量转座子 人类基因组序列中45%为转座子序列,不过其中绝大多数已因突变而失活,丧失转座能力。