上QQ阅读APP看书,第一时间看更新
第一节 基因组 Section 1 Genome
基因组是由基因构成的,其中有很多重复序列的基因结构与基因组的稳定、表达、调控等相关,人类基因组序列已全部完成序列测定,已进入后基因组时代。
一、基因的结构
基因是负责编码RNA或一条多肽链的DNA片段,包括编码序列、编码序列外的侧翼序列及插入序列。基因中编码RNA或蛋白质的DNA序列称为结构基因(structure genes),结构基因是不连续的,在编码区内含有非编码的插入序列,其中编码序列称外显子(exon),非编码序列称为内含子(intron),又称插入序列(intervening sequence,IVS)。内含子序列远远大于编码序列,内含子在进化上对于基因多样性的产生具有重要意义,内含子的存在可以保证或增强基因的稳定表达。
基因的编码序列仅占基因组全部序列的3%,剩下都为非编码序列,包括内含子和编码区两侧的侧翼序列。侧翼序列是一段不被翻译的DNA片段,但含有基因调控序列,一般被称为顺式作用元件(cis-acting element),包括以下三种:
1.启动子和上游启动子元件
启动子和上游启动子元件一般位于基因转录起始点上游-200~100碱基对范围,是能够被RNA聚合酶识别并与之结合及起始转录的核苷酸序列。
2.增强子
增强子是一段短DNA序列,可特异性与转录因子结合,增强基因的转录活性,可位于基因的任何部位。增强子内可含有负调控序列称为负增强子,又称沉默子。
3.Poly(A)加尾信号
Poly(A)加尾信号结构基因最后一个外显子有一个保守的AATAAA序列,与此位点下游有一段GT或T丰富区共同构成poly(A)加尾信号。
二、基因组的结构
基因组(genome)泛指一个细胞的全部遗传信息,指一套完整单倍体DNA(染色体DNA)和线粒体DNA的全部序列,既包括编码序列也包括大量的非编码序列。人类基因组包含3.3×10 9个碱基对,有3万到3.5万个编码特定蛋白的基因。
真核生物基因组包含两个部分:染色体DNA和线粒体DNA。染色体DNA为线形双螺旋结构,位于细胞核内,DNA双链盘绕在以组蛋白(H2A、H2B、H3、H4)分子为核心的结构表面构成核小体(nucleosome),许多核小体连接成串珠状,在经过反复盘旋折叠最后形成染色单体(chromatid)。线粒体DNA(mitochondrial DNA,mtDNA)是闭环双链分子,位于线粒体中,一般结构紧凑,几乎没有重复序列,某些基因可以重叠,没有内含子。
人类基因组中含有大量重复序列,高达总DNA量50%,除了编码rRNA、tRNA、组蛋白以及免疫球蛋白的结构基因外,大部分是非编码序列。其功能主要与基因组的稳定性、组织形式以及基因的表达调控有关,可分为高重复序列DNA和中重复序列DNA。
(一)高重复序列DNA
高重复序列DNA(highly repetitive DNA)序列在基因组中的重复次数可高达数百万次,这种序列可以集中在某一区域串联排列。
1.卫星DNA
卫星DNA(satellite DNA)是出现在非编码区的串联重复序列,具有固定的重复单位,该重复单位首尾相连形成重复序列片段,通常位于间隔DNA和内含子中。可分为以下三类:
(1)大卫星DNA(macro-satellite):
也称经典卫星DNA。真核生物DNA在CsC1密度梯度离心时除形成一个主要宽带外,还会出现浮力密度不同的条带,这些条带中的DNA称为大卫星DNA。这是因为某段DNA分子中存在大量重复序列,DNA的G+C含量不同于主带DNA的缘故。
(2)小卫星DNA(mini-satellite):
由中等大小的串联重复序列构成,可分为高度可变的小卫星DNA和端粒DNA。高度可变的小卫星DNA虽然重复单位之间的序列有很大不同,但都含有一个基本的核心序列。端粒DNA由6个核苷酸的重复单位(TTAGGG)组成。
(3)微卫星DNA(micro-satellite):
是一类更简单的寡核苷酸串联序列,其特点是可变数目串联重复序列(variable number of tandem repeats,VNTR),重复单位2~6bp,重复次数10~60次,总长度通常小于150bp,又被称为短串联重复序列(short tandem repeat,STR),具有高度的遗传多态性。存在于内含子、间隔DNA中,也可位于编码区内。微卫星DNA由于重复单位的重复次数不同而具有高度的遗传多态性,并遵照孟德尔遗传规律,可以作为很好的遗传标记。
2.反向重复序列
反向重复序列(inverted repeats)是两个顺序相同的拷贝在DNA链上呈反向排列。一种是两个反向排列的拷贝之间有一段间隔序列;另一种是两个反向拷贝串联在一起,中间没有间隔序列,又称回文结构。人类基因组中大约有5%反向重复序列,主要位于基因的调控区,可能与基因的复制、转录的调控有关。
(二)中重复序列DNA
中重复序列DNA在基因组中的重复次数为10~10 5,散在分布于基因组,约占基因组DNA总量35%,常与单拷贝基因间隔排列,有一部分是编码rRNA、tRNA、组蛋白以及免疫球蛋白的结构基因,另外一些可能与基因的调控有关。
(三)重复序列的多态性
人类个体差异的物质基础是基因组DNA的差异,而DNA重复序列的多态性是基因组DNA差异中十分重要的一种。在高度重复序列中的无间隔反向重复序列中很容易形成限制性内切酶的识别位点,也很容易由于突变产生或失去一个酶切位点,因而造成限制性片段长度多态性(restriction fragment length polymorphism,RFLP),即用同一种限制性内切酶消化不同个体的一段DNA片段时,由于碱基组成变化而改变限制性内切酶的识别位点,从而产生长度不同的DNA片段。小卫星DNA和微卫星DNA也具有很高的多态性,并且能按照孟德尔规律遗传,可以作为遗传标记。
三、基因的表达
基因表达(gene expression)是指基因组中的结构基因所携带的遗传信息经过转录、翻译等一系列过程,合成特定的蛋白质,进而发挥其特定的生物学功能和生物学效应的全过程。
(一)基因表达过程
DNA不能作为直接模板将其携带的遗传信息转移带蛋白质分子中,需要先经过转录将遗传信息传递带RNA分子中,再经过翻译将RNA分子上的核苷酸序列信息转变成蛋白之中的氨基酸序列。
1.转录(transcription)
RNA聚合酶在通用转录因子的作用下与DNA上的启动子相结合开始到DNA的转录,RNA聚合酶即开始以碱基互补配对原则,按模板链的碱基序列,从5′-3′方向逐个加入核糖核苷酸,合成RNA。初级mRNA经过5′端加帽、3′端加Poly(A)尾、剪接以及个别碱基的甲基化等加工成为成熟的mRNA。tRNA前体加工主要是去除多余序列和进行结构修饰。加工成熟后,RNA会形成特定的空间结构。这些过程在细胞核内进行,然后从细胞核转入细胞质中,参与蛋白质的合成。
2.翻译(translation)
翻译在核糖体内进行。翻译开始时,mRNA的二级结构松解,并释放多余结合的蛋白质,核糖体的两个亚基也分离。翻译起始因子分别与tRNA、mRNA、核糖体亚基结合,并通过起始因子之间的相互结合形成起始复合体,沿mRNA扫描识别起始密码子,开始蛋白质合成。肽链合成完成后要经过折叠、二硫键形成、亚基聚合、肽段水解切除及化学修饰等形成具有特定构象和功能的蛋白质。蛋白质通过靶向运输到特定部位发挥特定生物学功能。
(二)基因表达的调控
基因表达是一个复杂的过程,根据调控在同一时间中发生的先后次序,又可将其分为DNA水平调控、转录水平调控、转录后的水平调控、翻译水平调控及蛋白质加工水平调控。
1.DNA水平调控
DNA水平调控主要表现在染色质结构的修饰,如DNA甲基化、组蛋白修饰、染色质丢失、基因重排和基因扩增等方面。
2.转录水平调控
转录水平调控是真核生物基因表达调控中最重要的环节,由特异性转录因子完成。这些特异性转录因子又称为反式作用因子(trans-acting factor),可与DNA特定部位结合,结合的位点称为顺式作用元件(cis-acting element)。大多数真核转录调节因子由某一基因表达后,可通过另一基因的特异的顺式作用元件相互作用,从而激活另一基因的转录。一般编码反式作用因子的基因与被反式作用因子调控的靶序列(基因)不在同一染色体上。反式作用因子包括不具有基因特异性地参与所有或某些转录阶段的RNA聚合酶亚基、与转录起始或终止有关的辅助因子和与特异调控序列结合的转录因子三类。每一种反式作用因子结合顺式作用元件可以发挥促进或抑制作用,但反式作用因子对基因调控不是由单一因子完成而是几种因子组合发挥特定作用。反式作用因子可被诱导合成,其活性也受多种因素调控。
3.转录后调控
转录后调控包括mRNA加工及运输的各个方面的调控。
4.翻译水平调控
蛋白质合成不仅局限于转录过程中受到调控,在细胞内,翻译阶段也对蛋白质合成有调控作用。应用蛋白质双向电泳的方法分离蛋白质存在着缺点,可利用蔗糖密度梯度离心的方法研究在翻译过程中的调控蛋白质合成。游离的mRNA在翻译中不起作用,只有核糖体结合的mRNA才可以翻译成蛋白质。
5.蛋白加工水平调控
从DNA→mRNA→蛋白质,存在3个层次的调控,即转录水平调控、翻译水平调控及翻译后水平调控。蛋白质的调控水平在对蛋白质的修饰加工、转运定位、结构变化、蛋白质与蛋白质及其他生物大分子之间的相互作用。
上述各个水平的调控大部分是由蛋白质来调控,而决定蛋白质性状的是基因,大部分基因都不单独起作用,某一个基因或者某几个基因的共同作用能够影响另一个基因的作用。
四、基因组变异的生理、病理意义
(一)简单的串联重复系列多态性
包括小卫星DNA序列、STR拷贝数变异等。STR扩增又可造成一种新的突变类型即动态突变。
(二)单核苷酸多态性
单核苷酸多态性指基因组DNA分子特定位置的单个核苷酸的变异。定义单核苷酸多态性(single nucleotide polymorphisms,SNP)必须满足在人群中的该位点变异的出现频率大于1%。理论上每一个SNP位点都可以有4种不同的变异形式,包括置换、颠换、缺失和插入,但实际上发生的只有两种,即置换和颠换,两者之比为2∶1。SNP在CG序列上出现最为频繁,而且多是C转换为T,原因是CG中的C常为甲基化的,自发地脱氨后即成为胸腺嘧啶。在人类基因组中大概每1000个碱基就有一个SNP,人类基因组上的SNP总量大概是3×10 6个。
SNP是人类基因组中最为广泛的遗传变异,也是体现人群中个体差异的DNA序列变化中最基本和最常见的形式,人DNA变异90%是由SNP引起的,人类许多表型差异、对药物或疾病的易感性等等都可能与SNP有关。由于其在染色体上的分布具有相对均一性而密度远高于微卫星DNA位点,且其二态性较STR更易于实现快速高通量自动化检测,被认为是最具有应用潜力的新一代遗传标记物。
普遍认为SNP研究是人类基因组计划走向应用的重要步骤。因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。SNP在基因组中分布相当广泛,人类基因组中每300碱基对就出现一次。大量存在的SNP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看,通过SNP发现疾病相关基因突变要比通过家系来得容易;有些SNP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。SNP在基础研究中也发挥了巨大的作用,近年来对Y染色体SNP分析,使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。
五、人类基因组计划和后基因组计划
基因组学(genomics)是指阐明基因的结构、结构与功能的关系以及基因与基因相互作用的科学。人类基因组计划对这一学科的顺利发展奠定了基础。
(一)人类基因组计划
主要任务是人类的DNA测序,包括以下四张谱图:
1.遗传图谱
又称连锁图谱(linkage map),它是以具有遗传多态性的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。6000多个遗传标记已经能够把人的基因组分成6000多个区域,使得连锁分析法可以找到某一致病的或表现型的基因与某一标记邻近(紧密连锁)的证据,这样可把这一基因定位于这一已知区域,再对基因进行分离和研究。对于疾病而言,找基因和分析基因是关键。遗传标记已从第一代RFLP(restriction fragment length polymorphism)发展到第二代VNTR(variable number of tandem repeats)和STR(short tandem repeat),现已发展到第三代遗传标记SNP(single nucleotide polymorphism)。
2.物理图谱
物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。DNA物理图谱是指DNA链的限制性酶切片段的排列顺序,即酶切片段在DNA链上的定位。因限制性内切酶在DNA链上的切口是以特异序列为基础的,核苷酸序列不同的DNA,经酶切后就会产生不同长度的DNA片段,由此而构成独特的酶切图谱。
3.序列图谱
序列图谱即人类基因组的全部核苷酸序列。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱。
4.转录图
转录图又称基因图谱,是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。在人类基因组中鉴别出占据2%~5%长度的全部基因的位置、结构与功能,最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。
(二)后基因组计划
后基因组计划就是人类完成人类基因组计划(结构基因组学)以后的若干领域,实际上是指完成顺序后的进一步计划,其实质内容就是生物信息学与功能基因组学。其核心问题是研究基因组多样性、遗传疾病产生的原因、基因表示调控的协调作用以及蛋白质产物的功能。功能基因组学是后基因组时代的核心和焦点。其所要解决的问题包括如何识别基因组组成元素及注释重要元素的功能。另外还包括在进行功能基因组学研究的过程中所运用的方法和技术,如生物信息学、比较基因组学、蛋白质组学、整体生物学、DNA芯片、基因敲除、药物基因组学等方面。