上QQ阅读APP看书,第一时间看更新
第三节 基因-基因及基因-环境交互作用
全基因组关联性研究(genome-wide association study,GWAS)取得的成果表明,对于复杂性疾病,基于单位点的分析只能解释很小的遗传力。目前,越来越多的研究开始关注多个基因之间,基因与环境之间交互作用。对于基因-基因及基因-环境交互作用的分析,有助于了解基因、环境等相互作用导致疾病的生物学机制,发现与疾病有关的通路,从而解释“消失的遗传力”,并且探索研究间异质性的原因,增加预测模型的精度。
对于GWAS等高维芯片数据的交互作用分析,传统的基于模型的参数方法遇到了较大的挑战。以一个基于Illumina 610k Quad芯片的全基因组关联性研究为例,若通过质控的SNP有50万个,以高速计算机工作站每分钟能运行50万次计算,则遍历所有的一阶基因-基因交互作用需要4. 76年!一方面对计算机的运算能力提出了极大的挑战,另一方面,膨胀的多重比较(multiple comparisons)次数将大大影响统计效率。
因此对于GWAS数据,交互作用分析的一般策略是先进行单位点分析,选择边际作用强的位点进入下一步的交互作用分析。然而值得注意的是,交互作用有可能游离于边际效应而存在,因此分别检验每个位点时,交互作用将有可能被忽略。
对于高维基因组学数据的交互作用分析,主要是从以下几个角度出发,一方面充分利用计算机技术的发展,综合采用图形加速器(GPU)、平行计算等手段,提高运算速度和计算效率;另一方面,综合采用降维、特征选择等手段,在交互作用分析中减少空间维度,从而避免“维数的诅咒”,降低多重比较校正的力度。本节将简单介绍目前常用的一些基因-基因及基因-环境交互作用的分析方法。
一、基因-基因和基因-环境交互作用的分析方法
从统计学角度出发,基因-环境交互作用,是指一个或多个基因及环境因素间联合作用的效果超过了单独效应的累积。类似的,基因-基因交互作用,是指多个基因间联合作用的效果超过了单独效应的累积。相对于分析基因单独效应的研究,基因-环境交互作用的识别往往需要大量的样本。一般认为,检验交互作用所需要的样本量至少是检验单独效应所需样本量的4倍。
(一)交互作用的logistic回归模型
对于基因环境交互作用的识别,传统上是采用病例-对照设计,并采用logistic回归模型,
可采用Wald检验来检验交互作用。对于研究与预后有关的队列设计,可采用Cox比例风险模型来分析交互作用。也可以采用上述logistic或者Cox回归模型,在方程中添加基因的主效应和交互作用项来对基因-基因环境交互作用进行检验。
(二)基于穷举的多因子降维法
穷举式检测遍历所有变量组合的情况,对交互作用进行检测。设位点总数为 p,检测 k-1阶交互作用时,假设检验次数达到 。由此可见,穷举式检测计算负担极重,实际应用时需要极高的计算效率。此外,穷举所有组合交互作用,涉及多重比较。常采用Bonferroni法校正检验水准,以控制一类错误。
MDR广泛用于检测多变量间的交互作用。以一阶交互作用为例,其核心思想是根据两个位点不同基因型组合下病例对照频数比值,将样本划分为“高危险组”、“低危险组”,以此达到降低分析变量维度的目的。通过交叉验证获得当前一对位点预测精度,衡量位点的重要性。在遍历所有2位点组合后,MDR可进一步遍历所有3位点组合、4位点组合,直至 p位点组合,确定每种组合下的最佳模型。作为一种非参数方法,MDR不需要假设任何遗传模型,这提高了MDR使用的灵活性,但同时也导致了MDR的结果可能难于寻找生物学解释。
(三)基于树的机器学习方法
近年来,一些基于树(tree)理论的机器学习方法,在交互作用分析中得到了越来越广泛的应用。以分类与回归树(classification and regression tree,CART)为例,对于一棵树,首先按照某种准则,从所有基因中寻找一个最具有区分能力的位点,生成2个分支,对于每一个分支,再各自寻找一个位点,能最好地区分该分支下的病例和对照,依此类推,直到所有的分支均无法被延伸为止。当树生长完全后,需要对树进行一定的“修剪”,即将一些末梢的分支去除,以避免过度拟合。
例6 Zhai等在2010年的Journal of Clinical Oncology杂志上报道了凋亡(apoptosis)通路基因、食管反流(reflux)及BMI等因素与食管癌风险间的关系 [2]。CART的分析结果如图5-2。
图5-2 食管癌危险因素的CART分析结果
可见,食管反流征位于根节点上,说明其具有最高的判别能力;在有食管反流的个体中, IL1B C3954T多态性具有最高的判别能力。而在没有食管反流的个体中,BMI具有最高的判别能力。不难发现, IL1B C3954T的效应在食管反流征的不同水平上有所不同,即两者间存在着交互作用。这一结论也被logistic回归分析所支持(交互作用OR = 0. 06,FDR Q = 0. 0421)。
在CART的基础上,Breiman提出了随机森林法(random forest,RF)。可以将RF看成是由若干棵CART组成的。对于某一棵树,RF首先从总样本中有放回地随机抽取一部分样本(称为袋内样本),剩下的样本称为袋外样本[out of bagging(OOB)sample]。这棵树便用该袋内样本来完成。对于树的每一个节点,RF从变量中随机抽出一部分出来,从中选择最能增加子节点的“纯度”的变量(这里的纯度可以理解为病例或对照在子节点中的比例)。该树将会被生长到所有的末端节点的纯度均不能提高为止。重复若干次后得到一片随机森林。OOB样本中的每个个体将用相应袋内样本所建立的树来进行预测。对于整个森林而言,该个体的预测结果将由整个森林中该样本每次作为袋外样本时得到的预测结果汇总而得。袋外样本的平均错判率可以称为OOB error rate,可以作为评价随机森林的指标。对于每个变量,随机森林可以根据其对森林预测能力的贡献度给其一个重要性评分。评分越高,该变量重要性越高。随机森林提供两种评分,分别基于Gini得分和Permutation。对于高维基因组数据,一般建议使用Permutation得分。
如前所述,RF筛选出的重要变量,既有可能是具有主效应,也可能具有较强的交互作用。对于筛选出的变量,可以使用CART和logistic回归模型来进一步探讨这些变量间交互作用的模式。由于RF随机挑选节点的候选变量,故RF属于一种随机式检测(stochastic search)。在位点总数很低时,在可接受的重复次数内,能够覆盖所有变量。若位点总数极大时,则很难覆盖所有位点。因此,有易遗漏交互作用之嫌。
计算机技术的飞速发展,使得一些计算密集型的交互作用分析方法成为可能。例如,Chu等利用一种基于布尔运算的筛检方法(Boolean operation-based screening and testing,BOOST)对汉族人非小细胞肺癌GWAS的数据进行了分析,该方法通过对两个对数线性模型(一个带有交互作用项,另外一个没有)进行比较,有效地提高了运算效率 [3]。利用BOOST方法,结合logistic回归,筛选阶段共发现了4对可能存在交互作用的SNP对;外部验证的结果表明,rs2562796和rs16832404的交互作用与非小细胞肺癌的风险存在关联性。除此之外,有研究者提出了基于启发式搜索的SNP收割机法、基于信息论的信息熵法,等等。限于篇幅,这里不再赘述。
二、基因-环境交互作用研究中的设计问题
常见的病例-对照研究、横断面调查或队列研究中获得的资料均可用于分析基因-环境间的交互作用。在传统的病例-对照设计研究基因环境交互作用时,对照组的选择非常重要。受试者是否被选中应当仅仅决定于其是否患病,而与是否暴露无关。但在实际研究中,病例是从所有的患者中随机抽样所得,可能包含多重暴露,而对照往往来自于某一群体,暴露相对较为单一。因而病例组与对照组间在除了所研究的暴露因素外的其他暴露因素上存在着不均衡,即所谓“人群分层”,从而干扰研究结果。同时对照组患者往往不愿意提供遗传信息,造成这部分受试者基因信息缺失,或者提供错误的信息,导致无法进行分析或得出有偏的结论。鉴于传统的设计方法的不足,有研究者提出其他类型的设计方法,如单纯病例研究、不完全病例-对照研究等。
1.单纯病例设计 以Piegorsch等提出的单纯病例设计(case-only design)为例,它是以某一患病人群作为研究对象,收集研究对象的环境暴露资料,采集患者的生物标本,应用分子生物学技术检测基因型 [4]。以具有某一基因型的病例作为类病例组,以无该基因型的病例作为类对照组(当基因型较多时,也可以分成多组资料),采用非条件Logistic模型等估计二者在疾病发生中的相乘效应交互作用。单纯病例设计主要用于估计遗传与环境暴露的交互作用,也可以用来估计基因与基因之间的交互作用。
考虑一个简单的情况。研究对象考虑两种因素:环境因素( E)和基因因素( G)。患者的基因型分为高危险基因型( G=1)和低危险基因型( G=0);研究对象环境危险因素的暴露分为暴露( E=1)和未暴露( E=0)。见表5-11。
表5-11 单纯病例研究基因和环境交互作用的分析
当没有其他混杂因素时,且人群中基因型与环境暴露之间是独立的,交互作用的OR估计的公式为
标准误为
对交互作用的识别也可以通过logistic回归来进行。以基因作为应变量,环境作为自变量,建立的模型为
logitP(G=1)=α+βE
则相应回归模型中环境( E)的回归系数β之反对数即为 ORI的估计值,其对应的假设检验结果即为单纯病例研究中交互作用的假设检验结果。
单纯病例研究与传统的病例对照研究相比,交互作用估计精度提高(同样检验效能等条件下,所需样本量少),且可以因避免遗传背景不同所造成的选择性偏倚。但应用时要求基因型与暴露无关,且只能估计交互作用,不能估计基因和环境因素的主效应。且无法调整其他协变量的作用,即无法控制混杂导致的偏倚。
2.不完全病例-对照研究 由于对照组的基因信息不易获得,在病例-对照研究中,当对照组缺乏基因信息时,称为不完全病例-对照研究(partial case-control study)。表5-12为一个简单的不完全病例-对照研究资料的示意。在对照中,由于没有遗传信息,只能获取环境暴露的信息,故得到的数据是不完全的。
表5-12 不完全病例-对照研究基因和环境交互作用的分析
交互作用的估计值为
标准误为
此时还可以估计环境的主效应
标准误为
利用对数线性模型(log-linear model)也可以对不完全病例对照研究的资料进行分析
ln(μ)= m0+α0E+m1D+βED•E+βGD•G+γD•G•E
在估计出回归方程后,基因-环境交互作用的OR可以通过下式估计
ORI=exp(γ)
不完全病例-对照研究与传统的病例对照研究相比,在估计交互作用、环境的主效应方面精度得到提高(同样检验效能条件下,所需样本量少)。与单纯病例研究相比,它除可估计交互作用外,还可估计环境的主效应,且可调整协变量的作用。但同样要求基因型与暴露无关,且亦不能估计基因的主效应。
不管是传统的研究设计方法,还是单纯病例研究、不完全病例对照研究等新设计方法,从中发现有统计学意义的交互作用均只是给出了基因、环境相互作用的联系线索,不能作为直接证据。