第二节全基因组关联研究流程_肿瘤分子流行病学-QQ阅读男频武侠网

上QQ阅读APP看书，第一时间看更新

第二节　全基因组关联研究流程

目前的GWAS多采用两个阶段的设计：首先用覆盖整个基因组的高通量SNP芯片对一批样本进行分型，然后筛选出差异最显著的SNP（如P＜10 ^-8）供第二阶段进行扩大样本验证。GWAS两阶段研究设计减少了基因分型的工作量和花费，同时通过重复实验降低了研究的假阳性率。GWAS的整体过程比较复杂，其大致流程如下：

（1）通过高通量芯片检测样品的分型信息，得到原始数据；

（2）对原始数据进行质量控制（quality control，QC），剔除不符合要求的样本或SNP；

（3）对经过各种严格质控的数据进行关联分析；

（4）根据关联分析结果，综合考虑基因功能等多方面因素后，筛选出最有意义的一批SNP位点，在独立样本中进行验证；

（5）合并分析GWAS两阶段数据获得最终的结果。下面分别对每个步骤进行详细描述。

一、GWAS芯片高通量分型

我们将符合芯片要求的DNA样品与高通量的SNP分型芯片进行杂交，再通过特定的扫描仪对芯片进行扫描，将每个样品所有的SNP分型信息以数字形式储存于计算机中，从而获得芯片中全部SNP的分型信息。目前应用于GWAS的全基因组分型的主流技术平台来自Illumina公司和Affymetrix公司。每张基因分型芯片上包含了成千上万的SNP检测探针，而且随着检测技术的不断完善，芯片的分型通量还在不断增加，从最初仅含1万SNP探针的Affymetric 10K基因分型芯片到目前包含数十万甚至一百万探针的Affymetric 500K、Affymetric 6. 0、Illumina 300K、Illumina610-quad、Illumina 1M等高密度分型芯片。此外，还有部分芯片整合了拷贝数变异（Copy numbervariation，CNV）探针，如：Illumina 370、Illumina 610-quad以及Affymetric 6. 0等，使研究者可以同时对人类基因组常见SNP和CNV进行分析。

二、数据的质量控制

（一）分型率和分型准确性

在得到所有分型结果之后，首先要计算每个SNP的分型成功率，常以95%、98%或99%作为界值，剔除分型率低的SNP。之后，我们还要检验分型准确性。一般有两种方法验证分型结果是否准确，一是对同一个体的2份样品的结果进行比对；二是选取5%～10%的样本，用不同的分型平台（如taqman等）对一些SNP进行分型，并与芯片结果进行比对，以此验证芯片分型的准确性。一般芯片分型的准确性都应在99%以上。

（二）次要等位基因频率（MAF）

一般来说，每个SNP有2个等位基因（allele），在不同人群中，2个等位基因的频率不同。频率高的等位基因称为主要等位基因（major allele），反之为次要等位基因（minor allele）。GWAS中，如果次要等位基因频率（minor allele frequency，MAF）很低时，一方面说明该变异在该研究人群中分布频率很低，另一方面，在样本量不够大的情况下，该SNP与所要研究的疾病或性状关联性检验的统计学效能也很低。例如，在病例对照研究中，同样是1000个病例和1000个对照，MAF分别是0. 01和0. 20时，检出理论OR = 1. 5的检验效能分别为16. 8%和97. 0%，可见，MAF对检验效能有比较大的影响。因此，在一般的GWAS中，常会以界值0. 01～0. 05剔除MAF较低的SNP。

（三）连锁不平衡（HWE）

连锁不平衡（Hardy-Weinberg equilibrium，HWE）是群体遗传中的重要法则，在没有进化影响下，当基因一代一代传递时，群体的基因频率和基因型频率将保持不变，两者的关系也保持不变，且前者可以确定后者。不满足HWE的群体，说明可能存在近亲婚配、遗传漂移、严重突变、人群分层等，代表性差，不能作进一步分析。由于疾病的发生可能导致遗传不平衡，因此，在一般的GWAS中，常以对照组中HWE检验10 ^-4～10 ^-6为界值，剔除不符合HWE 的SNP。

（四）个体缺失率

个体SNP的缺失率是反映DNA样本质量及芯片数据质量的重要指标。尽管所有DNA样品在用芯片检测前都会统一进行严格的质量控制，保证其DNA浓度、总量、260/280比值、260/230比值等指标符合芯片标准，但仍会有个别DNA样品的分型成功率较低。如果分型不成功的SNP很多，则不能进入下一步的数据分析。因此，在一般的GWAS中，常以0. 01、0. 02或0. 05作为界值，剔除缺失率大于界值的个体。

（五）个体间的独立性

无论是病例对照研究还是随访研究，都需要满足有一个统计学假设，即研究个体间是相互独立的（independent）。如果研究个体间不独立，例如研究样本中包含了有血缘关系的一、二级亲属，则分析时需要考虑剔除这些非独立的个体。个体间是否有血缘关系可以用同源（identical-by-descent，IBD）等位基因的概率分布来判断。利用该方法，还可以判断重复的个体，送检样本相互污染的个体等。

（六）性别核查（sex check）

是基于各SNP在x染色体上的杂合率（heterozygosity rates）来进行的。如果调查表中报告的性别与基于x染色体估计的性别不一致，则需要进一步复核。当报告性别与估计性别不一致时，如果所研究的疾病或性状与性别关系不大，则可以考虑用估计的性别替代（impute）报告性别；如果有关，则需剔除性别不一致的个体。

（七）地域差异和人群分层

在病例对照研究中，研究样本的地域差异（geographicalvariation）和人群分层（population stratification. PS）是种族混杂（confounding by ethnicity）的表现，将导致虚假关联。因此，GWAS中需要阐述是否存在PS。PS的判别常用膨胀系数（genomic inflation factor，k）表示，它是所有SNP检验统计量（例如Cochran-Armitage趋势检验的f值）的中位数（或均数）与理论分布中位数（或均数）的比值。λ=1表示没有人群分层。GWAS中也常用QQ图（quantilequantile plot）来帮助判断是否存在人群分层（图4-2）。

图4-2　某胰腺癌全基因组关联研究的QQ图

当存在PS，且可以获得个体种族的地域信息时，应该根据种族或地域信息进行分层分析。事实上，实际工作中很难确切知道个体种族或地域信息，在一般的GWAS中，常用Eigenstrat等软件估计样本的主成分并校正PS。该法是利用相对独立的SNP（连锁度较低）估计主成分，在关联性模型中增加主成分作为协变量，从而达到校正PS的目的。该方法可以用在Linux系统下实施 ^［16］。

此外，结合HapMap或1000GENOME中不同人种的分型信息，利用Eigenstrat软件还可以检测研究对象中的种族差异者，例如检出可能的混血儿，这些有人种差异的个体在GWAS的质量控制中也要被剔除（图4-3）。人群分层不仅仅存在于不同的种族之间，在同一人种中也有可能存在此问题。如祖先同为来自欧洲的高加索人（Caucasian），基因型频率常存在南北差异（north-south gradient）。相比而言，我国汉族人群分层现象虽然不是很突出，但有研究表明，汉族人的基因型频率也同样存在着南北梯度。当考虑少数民族时，PS就更明显了。如果样本存在人群分层，不校正则将增加假阳性；而不必要的校正常导致检验效能降低。因此，应正确判断是否需要校正，以及如何校正的问题。

图4-3　某胰腺癌全基因组关联研究的主成分分析图

三、数据关联分析

经过严格的质量控制后，我们就可以对整理后的数据进行关联分析。关联分析中主要考虑统计学模型的选择、协变量的选择以及多重比较之后验证阈值的选择等问题。

1.统计学模型的选择

在一般病例对照GWAS中，常用CochranArmitage趋势检验，当需要校正协变量和PS时，用logistic回归模型，在生存研究中，一般用生存分析（如Cox）模型，当结果变量为数量性状时，用多重线性回归模型。

2.协变量的选择

由于GWAS是探索性研究，因此其统计学模型仅仅考虑最基本的（年龄、性别等）协变量校正，而不去深入探讨协变量的选择。在有些研究中甚至不校正任何协变量。但在研究设计时，需要考虑病例组和对照组的均衡性，以控制偏倚，提高可比性。

3.GWAS结果的图形表达（曼哈顿图）

由于GWAS分析的SNP较多，为了便于更加清晰、直观的观察，GWAS的结果常以图形的方式表示。一般用Haploview软件，以横轴按各个SNP的染色体位置顺序排列，纵轴按SNP与疾病关联性检验的P值的-log ₁₀值绘制成散点图，称为曼哈顿图（Manhattan plot）（图4-4）。

图4-4　某胰腺癌全基因组关联研究的曼哈顿图

4.GWAS的验证阈值选择

这是GWAS中比较突出的问题。从统计学的角度分析，当每一次假设检验控制I类错误为a时，K次独立的假设检验总的I类错误就是1-（1-a） ^K，如果要将总的I类错误率控制在0. 05，则每一个SNP检验的水准就要控制得非常小。控制I类错误的方法很多，常用也是最方便的方法是Bonferroni法。如GWAS中检验50万个SNP，则按照Bonferroni矫正，检验水准应为0. 05/500000=10 ^-7。

实际上，这一标准也被认为过于保守，为了发现更多的疾病/性状相关SNP，有许多研究也采用较宽松的检验水准，例如10 ^-4～10 ^-6等。事实证明，采用更为宽松的验证阈值，扩大验证的SNP数目，确实可以发现更多的遗传易感位点。

四、GWAS结果的验证

GWAS是探索性研究，其结果必须经过验证，以控制假阳性。在GWAS设计中，常常采用多中心、多阶段的研究策略，即在第一阶段的GWAS后，筛选出可以进入验证阶段的SNP，在另外一个或几个独立的研究样本中进行验证（validation phase）。验证阶段一般是在与探索阶段相一致的人群中进行，也可以同时包含不同人群或不同人种；验证可以是内部验证（internal validation），也可是外部验证（external validation）。可以借助于已有的同类GWAS资料进行验证，也可以是针对小规模高发区人群或在某一DNA区段中采用更高密度的SNP分型。无论如何，多阶段研究既能有效控制假阳性结果，提高检验效能，又可以降低研究成本。2007年美国国立癌症研究所（NCI）和国立人类基因研究所（NHGRI）就将验证研究定为GWAS中必不可少的一部分 ^［17］。最终，多阶段研究的结果可以采用分层分析或Meta分析的方法进行综合，这样既提高了检验效能（power），又可以控制不同阶段研究的异质性（heterogeneity）。