上QQ阅读APP看书,第一时间看更新
第二节 细胞的遗传信息 Section 2 Genetic Information of Cells
生物体遗传信息的携带者是DNA,它决定着生物体的遗传性状和生物学行为。对胰岛素氨基酸组成的测序使人们认识到每一种蛋白质都有一个特定的氨基酸序列,DNA决定着蛋白质的性质和功能,随后人们在对变异基因的蛋白质序列分析中发现,DNA序列的改变会引起蛋白质氨基酸序列的改变,即DNA中的核苷酸顺序与蛋白质中的氨基酸顺序具有相互对应的关系。遗传信息通过转录从DNA流向RNA,而RNA又通过翻译决定蛋白质的合成,进而决定生物体的功能。
一般将细胞或生物体中,全套单倍染色体所包含的DNA(某些病毒为RNA)总体称为基因组,即是指含有一个生物体生存、发育、活动和繁殖所需要的全部遗传信息的整套核酸。同一物种的基因组DNA含量是恒定的,不同物种间基因组大小和复杂程度差异极大。相对而言,进化程度越高的生物体其基因组构成越大、越复杂。基因曾泛指DNA(某些病毒为RNA)分子中构成特定功能单位的一些区段,目前已局限于仅特指编码蛋白质或有功能的RNA的一段序列(结构基因或称顺反子)和与之关联调控序列(称元件),即基因是DNA组中转录的基础组织。下面仅介绍真核生物的基因组。
一、细胞的基因组
真核生物基因组一般有多个巨大线性DNA分子,并以与蛋白质结合形式(染色质或染色体)存在,间期储存于细胞核内。除配子细胞外,体细胞内的基因组是双份的,即有两份同源的基因组。每条DNA分子具有许多复制起点,两个相邻的复制起点之间为一个复制子,每个复制子的长度较小。
真核基因组中不编码的区域远多于编码区域。哺乳类编码基因只占全部基因组的10%~15%,其余85%~90%属于非编码区。为蛋白质编码的结构基因内部绝大多数是非连续编码的,转录后需经剪接去除不编码生物区段,才能形成成熟信使RNA(mRNA),并翻译出蛋白质,而且每个结构基因均为独立的一个表达单位,转录产物为单顺反子,仅编码一条多肽链。真核基因组中非编码区往往都是一些大量的重复序列,这些重复序列或集中成簇或分散在基因之间,可能在DNA复制调控中具有一定的意义,并与生物进化、种系特异性有关。真核细胞基因结构的复杂性赋予了真核生物更为精细的功能。
(一)DNA重复序列
在真核细胞基因组中,某些序列有相同的拷贝,这种序列称为重复序列。各种重复序列的长度不一,重复次数也有多有少,通常分为以下三类:高度重复序列、中度重复序列及低度重复序列或单拷贝序列。
1.高度重复序列
这类序列一般较短,长10~300bp(碱基对),包括卫星DNA、反向重复序列和较复杂的重复单位组成的重复序列。在哺乳类基因组中重复10~6次,占人类基因组的20%,常成簇分布于染色体着丝粒区及染色体的端部,在DNA复制起点处也有分布,可能与基因表达调控及染色体结构维持有关,详细功能尚不清楚。
2.中度重复序列
中度重复序列长度300~700bp,重复次数在10~2和10~5之间。一般认为,中度重复序列在基因调控中起重要作用,如人类Alu家族是人类基因组中含量最丰富的中度重复序列,占人类基因组的3%~6%,长300bp,重复达30万~50万次,因每个Alu序列中隐含有一个限制性内切酶AluI的识别序列AGCT而得名。人类Alu序列主要存在于hnRNA中,在成熟的mRNA分子中极为少见,说明在转录过程中,Alu序列可能与其相邻的结构基因一同转录,在RNA加工的过程中被切除,Alu序列的功能可能与转录调节、hnRNA加工有关。此外,还有KpnI家族,是人类中度重复序列中的第二大家族,长度5000~7000bp,重复次数3000~4800,功能不详。一般认为,中度重复序列属非编码序列,散在分布于基因组中,与基因调控有关。但某些编码功能性RNA和蛋白质的基因在基因组中的重复次数也达到几十到几百次,它们串联排列于基因组的一定区域,如rRNA基因和tRNA基因等,从严格意义上讲,它们也属于重度重复序列。
3.低度重复序列或单拷贝序列
在一个基因组中有2~10个拷贝的DNA序列称低度重复序列,在单倍体基因组中只出现一次或数次。单拷贝序列在基因组中占50%~80%,如人基因组中,有60%~65%顺序属于这一类。单拷贝序列中储存了大量的遗传信息,编码各种不同功能的蛋白质。目前尚不清楚单拷贝基因的确切数字,但是在单拷贝序列中只有一小部分用来编码各种蛋白质,其他部分的功能尚不清楚。在基因组中,单拷贝序列的两侧往往为散在分布的重复顺序。由于某些单拷贝序列编码蛋白质,体现了生物的各种功能,因此对这些序列的研究对医学实践有特别重要的意义。但由于其拷贝数少,在DNA重组技术出现以前,要分离和分析其结构和顺序几乎是不可能的,现在人们通过基因重组技术可以获得大量欲研究的基因,并对许多结构基因进行了较为细致的研究。
(二)多基因家族
多基因家族是真核细胞基因组中来源相同、结构相似、功能相关的一组基因,是由一个祖先基因经重复和变异形成的,是真核生物基因结构中最显著的特征之一。按照在基因组中的分布不同,多基因家族可分为两类,一类是基因家族的成员成簇存在,串联排列于特殊的染色体区段上,形成基因簇,它们常可同时转录,合成功能相关或相同的产物,如组蛋白、rRNA基因家族;另一类是基因家族成员分散存在,广泛分布于整个染色体,甚至可存在于不同的染色体上,如干扰素、珠蛋白等基因家族。在多基因家族中,有些成员不能产生有功能的基因产物,称为假基因,它们或是不能转录或是转录后生成无功能的基因产物。假基因在核苷酸序列上与有功能的基因相似,它们可能来自同一祖先基因,只是在进化过程中某些成员的核苷酸序列中发生缺失、倒位、点突变而成为无功能的假基因。大多数多基因家族都有假基因的存在,但数量很小。
(三)结构基因特点
真核细胞的基因包括结构基因、45SrRNA基因、5SrRNA基因和tRNA基因。结构基因是指能够编码蛋白质的基因,也是真核细胞基因组中含量最大的一类基因。结构基因一般由以下几部分组成。
1.外显子和内含子
原核细胞的基因往往是连续的,DNA经转录后即可得到直接编码蛋白质的序列,而真核细胞基因中编码序列常常被非编码序列隔断,转录后需加工切去非编码序列成为成熟的RNA,才能进行蛋白质合成。通常人们把基因内部具有编码功能的序列称为外显子,把无编码功能的序列称为内含子。一个断裂基因可由若干个外显子和若干个内含子组成,结构基因中的外显子与内含子间隔排列,其转录的终产物为mRNA。在内含子的5'端多以GT开始,3'-端多以AG结束,称GT-AG法则,是普遍存在于真核细胞基因中RNA剪接的识别信号。
2.启动子
启动子是能被RNA聚合酶识别并结合的特异性DNA序列,决定真核细胞基因转录的开始。①TATA框(TATA box)位于基因转录起始点上游26~30bp处,基本组成顺序为TATAATAAT,是RNA聚合酶结合部位,可决定转录的起始点。②CAAT框(GAAT box)位于TATA框的上游-70~-80处,序列为GGCTCAATCT,可与RNA聚合酶结合,决定转录起始的频率。
3.增强子
增强子是一段能够加速基因转录的调节性序列,通常位于转录起始点的上游或下游,也可位于内含子中,增强子通过与特异性蛋白结合提高基因转录的速率。
4.终止子
终止子是存在于基因末端具有转录终止功能的特定顺序。转录后形成发夹结构,使RNA聚合酶从模板上脱离,终止转录。
二、真核细胞的基因转录
真核细胞中转录形成的RNA前体分子通常需要经过复杂的加工和修饰过程才能成为成熟的功能形式。这种合成和修饰过程均发生在细胞核中,mRNA前体分子经3'、5'末端修饰和整个分子的重新拼接后,进入细胞质完成翻译过程。rRNA分子也是在核中经剪切后,组装成核糖体亚基形式进入胞质参与蛋白质合成。tRNA的修饰同样发生在核中。真核细胞的RNA聚合酶有三种,分别催化产生不同的RNA分子。下面介绍各种RNA的合成和加工。
(一)mRNA的合成和加工
mRNA是三种RNA中唯一具有编码蛋白质功能的RNA分子,其前体是结构基因在RNA聚合酶催化下转录形成的。由于前体分子的大小各不同,被称为核不均一RNA(heterogeneous nuclear RNA,hnRNA),hnRNA需经过剪切修饰才能成为成熟mRNA。才能进入细胞质进行蛋白质的合成。加工过程包括戴帽、加尾和剪接。
1.戴帽
戴帽是指对hnRNA5′端进行化学修饰,即首先在mRNA5′端开始的第一个核苷酸上接上一个三磷酸鸟嘌呤,然后在甲基酶作用下,在鸟嘌呤第7位氮上进行甲基化,形成一个7-甲基鸟嘌呤三磷酸(m7G)的帽子结构,同时在原来第一个核苷酸的2′羟基甲基化,因此,一个帽带有两个甲基。mRNA戴帽作用一是能封闭mRNA5′端,使其不再加接核苷酸,同时也防止转运时被核酸酶水解,增强mRNA的稳定性;二是帽子结构能被核糖体小亚基识别,有利于mRNA最初翻译的准确性。
2.加尾
加尾是指对mRNA3′端的修饰过程,即在核苷酸聚合酶的作用下,在3′端加上由200~250个腺苷酸组成的多聚腺苷酸(Poly A)尾巴。加尾一方面可使mRNA3′端稳定,防止被核酸酶水解,另一方面有利于mRNA由核到细胞质的转运。
3.剪接
基因转录过程是以一段连续的DNA序列为模板进行,在初级转录产物中包含内含子和外显子序列,在形成成熟mRNA过程中,需将内含子切除,形成由连续编码序列组成的模板序列进行蛋白质合成。剪接即是将前体分子中的内含子切除,将外显子拼接的过程。对真核生物外显子与内含子相邻序列研究发现,内含子常以GT开始,以AG结束,被认为是真核基因特有的剪切信号,也称剪切点。几乎所有真核细胞基因和内含子均遵循这一GT-AG规则,表明这类内含子存在着共同的剪切机制。完成hnRNA剪切需要有三个必需序列: ①5′GT序列;②3′AG序列;③分支点。分支点位于内含子3′端上游约30个碱基处,为一高度保守的A。点突变研究表明,剪切点GT或AG的突变可以阻止剪切的出现。例如人类β珠蛋白生成障碍性贫血可能就是由于β珠蛋白hnRNA内含子剪切点顺序发生改变,不能形成成熟β珠蛋白mRNA,因而不能合成正常血红蛋白,从而导致疾病。
mRNA剪接是通过剪切体完成的。剪切体大小为60S,由数种小分子细胞核糖核蛋白颗粒(small nuclear ribonucleoprotein particle,snRNP)组成,snRNP由细胞核中存在的一类小分子RNA和蛋白质组成,常见snRNA以U1-U6表示,除U6snRNA由RNA聚合酶Ⅱ转录外,其他snRNA均由RNA聚合酶Ⅲ催化合成,snRNA不游离存在,而是与特定蛋白形成复合物,即snRNP。首先U1snRNP结合到具有5′帽结构hnRNA内含子5′剪切点,随后U2snRNP结合到内含子分支点,这一过程需要ATP供能。接着,U4、U5、U6snRNP以复合体形式结合于内含子上形成剪切体,此后,发生两步反应:第一步,分支点上的核苷酸A接近5′剪切点,内含子与5′外显子被从此处断开,切断的内含子5′端与核苷酸A共价连接形成套索状结构;第二步,5′外显子上的3′-OH端与3′外显子的起始部位结合,并切割3′剪切点,3′和5′端外显子彼此连接,剪切体各组分和套索状结构脱离,剪切完成。
(二)rRNA前体的合成和加工
真核细胞中的rRNA基因串联排列于特定的核仁染色质区段,为多拷贝基因,人体每个单倍体基因组上包含有200个rRNA基因拷贝,每个基因之间由不转录的间隔DNA分隔,这种间隔长度在不同种属生物间差别较大。每个基因由3个外显子和2个内含子组成,3个外显子依次为编码18SrRNA、5.8SrRNA、28SrRNA的前体序列,共同组成一个转录单位。在RNA聚合酶Ⅰ催化下转录形成原始rRNA前体——45SrRNA,最终剪切为28SrRNA、18SrRNA和5.8SrRNA。
在所有真核生物中,rRNA初级转录产物的长度要比成熟rRNA长得多,在人类细胞中,只有一半初级转录产物中的序列出现在成熟的rRNA分子中,这提示某些序列经加工去除。
(三)tRNA前体的转录和加工
tRNA是一类小分子量的RNA分子,真核细胞中有50~60种。它们能够识别mRNA中的密码子并携带由密码子所指定的氨基酸进行蛋白质的合成。在真核细胞中含有多个编码tRNA的基因,人体细胞中有1300个拷贝,成簇存在并被间隔区分开,在RNA聚合酶Ⅲ的作用下被转录为tRNA前体。tRNA前体基因转录需要两种转录因子TFⅢB和TFⅢC,它们可与tRNA基因转录起始点下游+10~+60中的两个特殊区段结合形成复合物,该复合物与RNA聚合酶Ⅲ结合,启动tRNA基因的转录。
(四)5SrRNA的合成和加工
5SrRNA是一类特殊的rRNA分子。与其他类型的rRNA分子不同,5SrRNA由核仁外的基因编码,5SrRNA为串联排列的多拷贝基因,在RNA聚合酶Ⅲ的作用下,5SrDNA转录为5SrRNA。在转录中起重要作用的是三种转录因子,TFⅢA、TFⅢB和TFⅢC。5SrDNA转录起始点下游+47~+96处为转录起始的调控序列,转录中TFⅢA首先与该区域结合,随后TFⅢC结合到同一区域,最后TFⅢB加入,与TFⅢC结合,DNA与三种因子组成起始复合物,此时,再由RNA聚合酶Ⅲ参与,开始5SrRNA的转录。RNA聚合酶沿DNA模板3′→5′移动,当遇到一连串重复出现的T时,转录终止。由于在5SrDNA中无内含子存在,所以由5SrDNA转录形成的5SrRNA无须进一步的剪切加工,即可转运至核仁中,直接参与核糖体大亚基的组装。
三、真核细胞遗传信息的翻译
翻译是以RNA为模板合成蛋白质的过程。根据生物的中心法则,DNA通过转录将遗传信息传给RNA,RNA通过翻译将分子中的核苷酸序列转变为蛋白质中的氨基酸序列,最后表达为细胞功能。参与翻译的RNA有三种:mRNA作为翻译的模板,决定蛋白质中的氨基酸顺序;tRNA作为运输工具,携带氨基酸准确进入指定位置;rRNA与多种蛋白质组成核糖体,作为蛋白质合成的装配机器。三种RNA与多种蛋白因子共同作用完成翻译过程。
(一)遗传密码与mRNA
生物体遗传信息储存在DAN分子四种碱基的排列顺序中,通过转录这种顺序转移到mRNA分子中,在mRNA链上3个相邻的碱基可以决定一个特定的氨基酸,这种核苷酸三联体被称为密码子,整个mRNA链即是由一个串联排列的密码子组成,因此把mRNA上的碱基排列顺序叫作遗传密码,在蛋白质合成中,它们决定氨基酸的排列顺序。核苷酸有4种,每3个为一组,共可组成64种密码子。密码子有64种,其中三个密码子UAA、UAG、UGA为终止密码,不决定氨基酸,其余61个密码子都可以编码氨基酸,而氨基酸只有20种,所以必然出现多个密码子决定同一氨基酸的情况,这种现象叫作遗传密码的简并。如丙氨酸由GCU、GCC、GCA、GCG4种密码子决定,而亮氨酸则由6种密码子决定。密码子AUG具有两种功能,既能决定甲硫氨酸又是蛋白质合成的起始密码,因此被称为兼职密码。在翻译过程中,遗传密码的阅读是连续的,在每三个联体密码子之间没有间隔。
(二)反密码子与tRNA
在翻译过程中,mRNA上的碱基序列可以决定蛋白质中的氨基酸序列,两者之间的相互作用是通过另一类核酸分子tRNA实现的。tRNA既能识别mRNA上的密码子,又能携带特定的氨基酸,被称为蛋白质合成的接合器。tRNA结构中最具特点的是3′端的CCA序列,活化后的氨基酸就是通过CCA序列上的OH键与tRNA结合,然后被带到核糖体上参与蛋白质的合成。tRNA的另一个重要的结构部位是反密码环下端的一个三联核苷酸,在蛋白质合成中能通过碱基互补配对识别mRNA上的密码子,被称为反密码子。不同的tRNA分子有不同的反密码子。
(三)反密码子与密码子的相互作用
在翻译过程中,tRNA携带特定的氨基酸,通过反密码子识别mRNA上的密码子,实现遗传信息从mRNA到蛋白质的传递,因此,密码子与反密码子之间的正确识别是遗产信息正确传递的保证。在生物体中,tRNA种类小于编码氨基酸的密码子,要识别这些密码子,必然存在一种反密码子识别多种密码子的现象,一般来讲,密码子的前两位碱基在和反密码子配对时,遵循正常的碱基互补配对原则,而第三位碱基的配对具有一定的灵活性,即反密码子的第三个碱基(5′碱基)可与密码子第三位上的不同碱基配对。例如,携带丙氨酸tRNA反密码子为3′CGC5′,它既可以和密码子5′GCG3′配对,也可以和5′GCU3′配对。这就是密码子和反密码子配对的摆动假说。