上QQ阅读APP看书,第一时间看更新
第二节 全基因组关联研究流程
目前的GWAS多采用两个阶段的设计:首先用覆盖整个基因组的高通量SNP芯片对一批样本进行分型,然后筛选出差异最显著的SNP(如P<10 -8)供第二阶段进行扩大样本验证。GWAS两阶段研究设计减少了基因分型的工作量和花费,同时通过重复实验降低了研究的假阳性率。GWAS的整体过程比较复杂,其大致流程如下:
(1)通过高通量芯片检测样品的分型信息,得到原始数据;
(2)对原始数据进行质量控制(quality control,QC),剔除不符合要求的样本或SNP;
(3)对经过各种严格质控的数据进行关联分析;
(4)根据关联分析结果,综合考虑基因功能等多方面因素后,筛选出最有意义的一批SNP位点,在独立样本中进行验证;
(5)合并分析GWAS两阶段数据获得最终的结果。下面分别对每个步骤进行详细描述。
一、GWAS芯片高通量分型
我们将符合芯片要求的DNA样品与高通量的SNP分型芯片进行杂交,再通过特定的扫描仪对芯片进行扫描,将每个样品所有的SNP分型信息以数字形式储存于计算机中,从而获得芯片中全部SNP的分型信息。目前应用于GWAS的全基因组分型的主流技术平台来自Illumina公司和Affymetrix公司。每张基因分型芯片上包含了成千上万的SNP检测探针,而且随着检测技术的不断完善,芯片的分型通量还在不断增加,从最初仅含1万SNP探针的Affymetric 10K基因分型芯片到目前包含数十万甚至一百万探针的Affymetric 500K、Affymetric 6. 0、Illumina 300K、Illumina610-quad、Illumina 1M等高密度分型芯片。此外,还有部分芯片整合了拷贝数变异(Copy numbervariation,CNV)探针,如:Illumina 370、Illumina 610-quad以及Affymetric 6. 0等,使研究者可以同时对人类基因组常见SNP和CNV进行分析。
二、数据的质量控制
(一)分型率和分型准确性
在得到所有分型结果之后,首先要计算每个SNP的分型成功率,常以95%、98%或99%作为界值,剔除分型率低的SNP。之后,我们还要检验分型准确性。一般有两种方法验证分型结果是否准确,一是对同一个体的2份样品的结果进行比对;二是选取5%~10%的样本,用不同的分型平台(如taqman等)对一些SNP进行分型,并与芯片结果进行比对,以此验证芯片分型的准确性。一般芯片分型的准确性都应在99%以上。
(二)次要等位基因频率(MAF)
一般来说,每个SNP有2个等位基因(allele),在不同人群中,2个等位基因的频率不同。频率高的等位基因称为主要等位基因(major allele),反之为次要等位基因(minor allele)。GWAS中,如果次要等位基因频率(minor allele frequency,MAF)很低时,一方面说明该变异在该研究人群中分布频率很低,另一方面,在样本量不够大的情况下,该SNP与所要研究的疾病或性状关联性检验的统计学效能也很低。例如,在病例对照研究中,同样是1000个病例和1000个对照,MAF分别是0. 01和0. 20时,检出理论OR = 1. 5的检验效能分别为16. 8%和97. 0%,可见,MAF对检验效能有比较大的影响。因此,在一般的GWAS中,常会以界值0. 01~0. 05剔除MAF较低的SNP。
(三)连锁不平衡(HWE)
连锁不平衡(Hardy-Weinberg equilibrium,HWE)是群体遗传中的重要法则,在没有进化影响下,当基因一代一代传递时,群体的基因频率和基因型频率将保持不变,两者的关系也保持不变,且前者可以确定后者。不满足HWE的群体,说明可能存在近亲婚配、遗传漂移、严重突变、人群分层等,代表性差,不能作进一步分析。由于疾病的发生可能导致遗传不平衡,因此,在一般的GWAS中,常以对照组中HWE检验10 -4~10 -6为界值,剔除不符合HWE 的SNP。
(四)个体缺失率
个体SNP的缺失率是反映DNA样本质量及芯片数据质量的重要指标。尽管所有DNA样品在用芯片检测前都会统一进行严格的质量控制,保证其DNA浓度、总量、260/280比值、260/230比值等指标符合芯片标准,但仍会有个别DNA样品的分型成功率较低。如果分型不成功的SNP很多,则不能进入下一步的数据分析。因此,在一般的GWAS中,常以0. 01、0. 02或0. 05作为界值,剔除缺失率大于界值的个体。
(五)个体间的独立性
无论是病例对照研究还是随访研究,都需要满足有一个统计学假设,即研究个体间是相互独立的(independent)。如果研究个体间不独立,例如研究样本中包含了有血缘关系的一、二级亲属,则分析时需要考虑剔除这些非独立的个体。个体间是否有血缘关系可以用同源(identical-by-descent,IBD)等位基因的概率分布来判断。利用该方法,还可以判断重复的个体,送检样本相互污染的个体等。
(六)性别核查(sex check)
是基于各SNP在x染色体上的杂合率(heterozygosity rates)来进行的。如果调查表中报告的性别与基于x染色体估计的性别不一致,则需要进一步复核。当报告性别与估计性别不一致时,如果所研究的疾病或性状与性别关系不大,则可以考虑用估计的性别替代(impute)报告性别;如果有关,则需剔除性别不一致的个体。
(七)地域差异和人群分层
在病例对照研究中,研究样本的地域差异(geographicalvariation)和人群分层(population stratification. PS)是种族混杂(confounding by ethnicity)的表现,将导致虚假关联。因此,GWAS中需要阐述是否存在PS。PS的判别常用膨胀系数(genomic inflation factor,k)表示,它是所有SNP检验统计量(例如Cochran-Armitage趋势检验的f值)的中位数(或均数)与理论分布中位数(或均数)的比值。λ=1表示没有人群分层。GWAS中也常用QQ图(quantilequantile plot)来帮助判断是否存在人群分层(图4-2)。
图4-2 某胰腺癌全基因组关联研究的QQ图
当存在PS,且可以获得个体种族的地域信息时,应该根据种族或地域信息进行分层分析。事实上,实际工作中很难确切知道个体种族或地域信息,在一般的GWAS中,常用Eigenstrat等软件估计样本的主成分并校正PS。该法是利用相对独立的SNP(连锁度较低)估计主成分,在关联性模型中增加主成分作为协变量,从而达到校正PS的目的。该方法可以用在Linux系统下实施 [16]。
此外,结合HapMap或1000GENOME中不同人种的分型信息,利用Eigenstrat软件还可以检测研究对象中的种族差异者,例如检出可能的混血儿,这些有人种差异的个体在GWAS的质量控制中也要被剔除(图4-3)。人群分层不仅仅存在于不同的种族之间,在同一人种中也有可能存在此问题。如祖先同为来自欧洲的高加索人(Caucasian),基因型频率常存在南北差异(north-south gradient)。相比而言,我国汉族人群分层现象虽然不是很突出,但有研究表明,汉族人的基因型频率也同样存在着南北梯度。当考虑少数民族时,PS就更明显了。如果样本存在人群分层,不校正则将增加假阳性;而不必要的校正常导致检验效能降低。因此,应正确判断是否需要校正,以及如何校正的问题。
图4-3 某胰腺癌全基因组关联研究的主成分分析图
三、数据关联分析
经过严格的质量控制后,我们就可以对整理后的数据进行关联分析。关联分析中主要考虑统计学模型的选择、协变量的选择以及多重比较之后验证阈值的选择等问题。
1.统计学模型的选择
在一般病例对照GWAS中,常用CochranArmitage趋势检验,当需要校正协变量和PS时,用logistic回归模型,在生存研究中,一般用生存分析(如Cox)模型,当结果变量为数量性状时,用多重线性回归模型。
2.协变量的选择
由于GWAS是探索性研究,因此其统计学模型仅仅考虑最基本的(年龄、性别等)协变量校正,而不去深入探讨协变量的选择。在有些研究中甚至不校正任何协变量。但在研究设计时,需要考虑病例组和对照组的均衡性,以控制偏倚,提高可比性。
3.GWAS结果的图形表达(曼哈顿图)
由于GWAS分析的SNP较多,为了便于更加清晰、直观的观察,GWAS的结果常以图形的方式表示。一般用Haploview软件,以横轴按各个SNP的染色体位置顺序排列,纵轴按SNP与疾病关联性检验的P值的-log 10值绘制成散点图,称为曼哈顿图(Manhattan plot)(图4-4)。
图4-4 某胰腺癌全基因组关联研究的曼哈顿图
4.GWAS的验证阈值选择
这是GWAS中比较突出的问题。从统计学的角度分析,当每一次假设检验控制I类错误为a时,K次独立的假设检验总的I类错误就是1-(1-a) K,如果要将总的I类错误率控制在0. 05,则每一个SNP检验的水准就要控制得非常小。控制I类错误的方法很多,常用也是最方便的方法是Bonferroni法。如GWAS中检验50万个SNP,则按照Bonferroni矫正,检验水准应为0. 05/500000=10 -7。
实际上,这一标准也被认为过于保守,为了发现更多的疾病/性状相关SNP,有许多研究也采用较宽松的检验水准,例如10 -4~10 -6等。事实证明,采用更为宽松的验证阈值,扩大验证的SNP数目,确实可以发现更多的遗传易感位点。
四、GWAS结果的验证
GWAS是探索性研究,其结果必须经过验证,以控制假阳性。在GWAS设计中,常常采用多中心、多阶段的研究策略,即在第一阶段的GWAS后,筛选出可以进入验证阶段的SNP,在另外一个或几个独立的研究样本中进行验证(validation phase)。验证阶段一般是在与探索阶段相一致的人群中进行,也可以同时包含不同人群或不同人种;验证可以是内部验证(internal validation),也可是外部验证(external validation)。可以借助于已有的同类GWAS资料进行验证,也可以是针对小规模高发区人群或在某一DNA区段中采用更高密度的SNP分型。无论如何,多阶段研究既能有效控制假阳性结果,提高检验效能,又可以降低研究成本。2007年美国国立癌症研究所(NCI)和国立人类基因研究所(NHGRI)就将验证研究定为GWAS中必不可少的一部分 [17]。最终,多阶段研究的结果可以采用分层分析或Meta分析的方法进行综合,这样既提高了检验效能(power),又可以控制不同阶段研究的异质性(heterogeneity)。