上QQ阅读APP看书,第一时间看更新
第一节 全基因组关联研究背景和研究现状
关联研究是基于“常见疾病,常见变异”(Common disease,common variant)的假设,在群体水平上研究某种疾病或性状与某个特定等位基因频率的相关性。最常见的实验设计方法是病例-对照研究(case-control study)。其基本原理是,在一定人群中选择病例组和对照组,如果某个SNP位点的等位基因或基因型频率在病例组和对照组之间存在统计学差异,则认为该位点与疾病间存在统计学关联。
在全基因组关联研究方法提出以前,人们主要利用候选基因或候选通路的方法开展对复杂疾病/性状的关联研究(遗传易感性研究)。这两种方法都是基于在疾病发生发展过程中已知的具有“生物学功能”的基因或通路,对其基因编码区或调控区的SNP位点进行基因分型,之后进行统计分析其与疾病或性状的关联。候选基因和候选通路的方法取得了一定成绩,发现了一些与疾病和性状相关的易感位点。但是,候选基因或通路的方法还有很大的局限性,如果我们能够一次性检测全基因组范围内所有的遗传变异,就可以找到与疾病最密切相关的SNP位点,这就是全基因组关联研究(GWAS)的概念。
随着DNA测序技术自动化程度和基因分型通量的日益提高,全世界多个国家的科研机构通过合作,相继完成了人类基因组计划(HGP)和人类基因组单体型图计划(HapMap Project),将人类对于生命本源的认识大大向前推进了一步。2003年HGP的完成阐明了人类基因组序列,为研究基因结构和功能提供了基础。HapMap计划则描述和记录了不同人群基因组中常见遗传变异的等位基因频率及单倍型形式。目前该计划已发现了人类基因组中1000多万个SNP,构建了人类基因组差异的公共数据库(www. hapmap. org)。HapMap构建起一张精度高信息完整的多人种遗传多态图谱,为研究全基因组的SNP提供了理论基础 [11]。近年来飞速发展的基因分型技术、不断完善的统计学方法和统计分析软件则为GWAS的开展提供了技术上的保障。此后,基于HapMap的高通量SNP检测芯片问世,研究者能够同时对每一个体的数十万到一百万个SNP进行检测 [12-14],高效统计分析软件的出现也使得处理海量分型数据的难题迎刃而解 [15],遗传易感性的研究正式步入了全基因组关联研究时代。
GWAS优势在于摒弃了候选基因方法中人为的预先假设(hypothesis free),更加全面和系统的对全基因组范围内的遗传位点进行筛查。同时GWAS一般基于极大的样本量(上千对甚至上万对病例对照),采用极为严格的统计学检验水准(一般在10 -8以下),并且伴随多中心的独立样本进行验证,因此研究结果的真实性也比候选基因方法高得多。
自从2005年第一篇GWAS文章发表 [10]以来,各国科学家对肿瘤、糖尿病、心血管系统疾病、风湿病、皮肤病等复杂疾病以及身高、体质指数、血脂水平等复杂性状开展了许多GWAS。截至2012年12月1日,共有1400余篇GWAS报道了8000余个与200多种疾病/性状相关的遗传位点,取得了令人瞩目的研究成果(图4-1)。
图4-1 美国国家人类基因组研究所统计2005年之后GWAS文章发表趋势(引自NHGRI)