预防肿瘤学
上QQ阅读APP看书,第一时间看更新

第六节 筛查项目的循证综合评价

本章第二~五节,分别对筛查方法准确性、生物学效果评价和卫生经济学评价三个方面的研究内容、设计方案、影响因素进行了阐述。但是在收集了大量的研究证据后,如何将研究证据连接起来,形成对筛查项目的综合评价,这是研究者面临的新的挑战。随着20世纪90年代循证医学革命的兴起,公共卫生服务项目(包括病因预防和疾病筛查)的决策也进入了新的发展阶段,研究者应用循证的方法(evidence-based approach)对大量的预防效果研究证据进行收集、汇总及定量评价,最终为制定或修订公共卫生服务项目的指南提供决策依据。2001年,美国预防医学服务工作组(The U. S. Preventive Services Task Force,USPSTF)针对筛查项目制定了具有操作性的评估框架和评价层次,本节该框架为例,介绍筛查项目评价的循证医学思路和原则。

一、USPSTF筛查项目评估框架介绍

(一)评价框架(图14-7)

图14-7 筛查项目评估框架(USPSTF)
USPSTF制定的筛查分析框架明确给出筛查项目评价应收集8方面的研究证据,并且强调,在所有研究证据应该串接起来形成证据链,证明筛查项目能改善疾病的结局。在分析框架中,证据链分为核心证据链和间接证据链。两种证据链的起始端均需要先确定筛查的目标人群,即发病风险高的人群(问题②),其次,应有研究证据表明所采用的筛查方法具合理的准确性(问题③:灵敏度、特异度;稳定性;人群早诊率、早治率等);如果设计严格、研究质量高的RCT研究结果(问题①,直接因果证据)证明筛查能降低肿瘤的归因死亡风险,即形成了该筛查项目的直接证据链②→③→①,;如果缺乏直接证据,则筛查效果的评价需要搜集次要证据链②→③→④→⑤或⑥各环节的证据,包括筛查是否能降低疾病中间结局的发生率(问题④);早期治疗是否有助于降低疾病的死亡风险(问题⑤);中间结局与死亡结局之间是否相关(问题⑥)。此外,评价框架还包含搜寻筛查和早期治疗不良效应的证据(问题⑦,⑧)。

(二)评价步骤

筛查效果的系统评价遵循循证医学研究的基本思路步骤。第一步是研究质量评价,第二步是效应定量综合。

1.质量评价

在分析框架的指导下,筛选和评价合格的研究证据是首要环节。USPSTF制定的证据质量评价方案包括三个层次,一是对单个研究的评价;二是对证据链的评价;三是在前二者的基础上对整个筛查项目进行综合质量评价。
对单个研究的质量评价根据研究设计类型确定了三级证据标准,其中Ⅱ级包括三个亚级,共5个等级(表14-3);并对每个研究的内部真实性确定了“好,尚可,差”3个评价等级。单个研究的质量评价包括研究设计和内部真实性两类信息,共有15种评价级别,如一项设计完好,实施过程控制了各类偏倚的病例对照研究,质量评价级别为Ⅱ-2-良好。
对证据链的评价是在对单个研究质量评价基础上进行的,针对每条证据链的完整性和证据质量的评价。评价内容包括直接或间接证据链上各研究的总体内部真实性、外部真实性和研究结果一致程度三方面,分为“好,尚可,差”3个评价等级。这部分的评价没有简单量化的标准,只能通过评价者专题讨论来确定。
表14-3 单个研究的质量分级
对筛查项目研究证据的总体质量评价是对分析框架中所有证据链的综合评价,即评价根据现有证据和证据链,是否能建立起实施筛查与最终结果(如降低死亡率)之间的因果联系。评价的内容包括:每条证据链的质量评价结果;证据链的完整程度;证据链中各环节的“吻合”程度,即研究人群一致;以及是否有“直接”的证据链。简单说来,总体评价质量为“好”的证据群是有大人群高质量的直接证据链的证据(RCT试验);如果缺乏直接证据,则需要搜集更多的证据来完善证据链。总体评价质量为“尚可”的证据群是间接证据链完整有效,但缺乏直接证据链。总体评价质量为“差”的证据群是,既没有直接证据链,间接证据也不充分。

2.效果综合

总的说来,以上三个层次的研究质量评价只是对研究设计及研究结果真实性的评价。在筛查项目研究的研究证据群质量“好”和“尚可”的基础上,还需要对筛查的效果进行定量综合,综合的指标如前所述,包括归因死亡率、生存率、生存年等,综合方法一般采用meta分析或采用大人群RCT随访研究的结果。同时,筛查项目的卫生经济学评价也至关重要。此外,还需要对筛查方法及早期处理方法所造成的负面影响进行评价,并权衡有利和不利的方面,最终评价筛查项目的净效益。科学家团队通过参考循证评价的证据,集体讨论后才能对一项筛查项目的净获益进行综合评价,评价的尺度一般分为:明显有效;中等有效;效果较弱和几乎无效四个等级,再在此基础上制定或调整筛查项目指南。

二、宫颈癌筛查项目研究实例

宫颈癌在大多数国家不是主要的癌种,但宫颈病因和自然史明确(图14-1),检查技术简便成熟,如果在CIN3期以前发现早期病变,可采用局部治疗的方案阻止癌变发生,且有符合低成本高效益的各级筛查方案供不同资源水平国家选择。自1998年起,以中国医学科学院肿瘤研究所为首,全国十多家医院参与的研究团队开展了多项大样本多中心的人群宫颈癌筛查试验研究,评价了多种宫颈癌筛查技术在我国人群汇总应用的准确性和卫生经济学效果。本节以其中两个研究为例,来说明大人群筛查方法准确性研究和多方案比较的卫生经济学研究的设计原则和研究特点。

(一)自我采样HPV DNA法筛查宫颈癌的准确性研究 1.研究目的

为评价简便易行、受检者依从性较高的自我取样HPV DNA检测是否能在医疗资源不发达地区作为宫颈癌筛查方法推广。

2.对象与方法

1999—2007年,中国医学科学院肿瘤医院和克利夫兰医学中心在中国开展了农村地区宫颈癌筛查多中心(山西襄垣县、阳城县,河南新密县,新疆玉田县)的横断面筛查研究,共筛查13 140名17~56岁女性(表14-4)。

3.待评价的方案

①自我取样HPV DNA检测(self-HPV testing);②医生取样HPV DNA检测(physician-HPV testing);③宫颈液基细胞学检测(liquid-based cytology,LBC);④宫颈醋酸点染法检测(visual inspection with acetic acid,VIA)。

4.观察结局

上述四种方法宫颈细胞不典型增生CIN2/3及以上病变的检出率,重点比较自我取样-HPV检测与其他三种常用方法评价结果的差异。

5.评价指标

各方法真实性指标,单个或联合试验方法的灵敏度、特异度;自我取样与医生取样结果一致程度(kappa值);利用ROC曲线观察自我取样-HPV检测截断值变化对灵敏度和特异度的影响。各组间灵敏度、特异度的比较采用配对卡方检验。采用meta分析的方法,将各项目点的研究结果进行合并。
表14-4 各阶段研究基本情况汇总

6.结果

经过资料前期整理,共13 004例研究对象纳入本次分析。其中507例(3.9%)被确诊为CIN2 +,273例(2.1%)确诊为CIN3 +,37例(0.3%)确诊为宫颈癌。
(1)自我取样-HPV检测的阳性检出率最高(15.6%),LBC阳性检出率最低(6.0%)。自我取样-HPV和医生取样-HPV诊断结果一致性较高(kappa =0.67)。
(2)相对于VIA,自我取样-HPV检测灵敏度较高,特异度较低( P<0.001)。自我取样-HPV检测诊断CIN2 +的灵敏度高于LBC,但诊断CIN2/3的特异度均明显低于LBC (P<0.05)。医生取样-HPV检测诊断CIN2/3的灵敏度均高于自我取样-HPV检测(P<0.001),两种方法特异度间无统计学差异。(表14-5)
(3)自我取样-HPV检测串联细胞学检测、自我取样-HPV检测串联VIA的灵敏度均降低,特异度均升高( P<0.001),阴道镜检转诊率分别为4.8%和4.5%。
(4)自我取样-HPV检测截断值从1.0pg/ml上升至2.0pg/ml时,诊断CIN2 +和CIN3 +的灵敏度分别降低3%和1.9%,特异度均升高3.3%。
表14-5 单个或联合试验灵敏度、特异度

7.结论

相对于LBC和VIA,自我取样-HPV检测具有较好的灵敏度。在医疗卫生资源缺乏不便于全面开展细胞学筛查的地区,自我取样-HPV检测可以考虑作为其宫颈癌筛查方法之一,以提高宫颈癌筛查人群覆盖率。

8.本研究特点

该研究是横断面筛查的多中心研究。优点是病例和非病例均来源于自然人群,对目标人群具有较好的代表性;且多中心的研究证据使结果更可信,外推性准确性也大大增加。但值得注意的是,在三个时间段的筛查工作中,采用的“金标准”不同。第一阶段的所有研究对象均进行了组织病理学检查。第二、三阶段研究对象只有筛查阳性者进行组织病理学检查,筛查阴性者划入对照组。因此,该研究的对照组中可能存在假阴性的情况。鉴于此,研究者用第一阶段的CIN2 +、CIN3 +构成比推算了第二、三阶段可能的CIN2 +和CIN3 +病例数,并重新计算了各筛查方法调整的灵敏度和特异度。

(二)我国农村地区采用careHPV筛查宫颈癌的卫生经济学评价 1.研究背景和目的

人类乳头瘤病毒筛查技术(careHPV)与传统的醋酸/碘染色后肉眼观察(VIA/VILI)相比,能更快速地对筛查宫颈上皮内癌样病变进行筛查,具有较高的灵敏度和价格低廉的优势。为评价careHPV能否在医疗资源不发达地区作为宫颈癌筛查方法推广,本研究通过构建子宫颈癌Markov模型,对我国山西省农村地区开展的20种子宫颈癌筛查方案的效果进行卫生经济学评价。

2.研究设计

所构建的子宫颈癌Markov模型包括两部分:①HPV传播、子宫颈癌子宫颈癌自然史模型;②子宫颈癌筛查、诊断、治疗的干预模型。其中,HPV传播和子宫颈癌的筛查、诊断、治疗与评价人群的经济、卫生水平以及行为因素密切相关,因此该部分模型参数来源于山西阳城(子宫颈癌高发区)的现场数据,包括人群特异性参数,子宫颈癌及其癌前病变的筛查、诊断、治疗成本参数,和筛查和诊断技术的准确性参数。模型内疾病状态间转归概率及效用参数,由于国内发表的前瞻性研究数据极其有限,因此通过查阅大量文献确定上述参数。

3.比较方案

在农村地区开展的20种子宫颈癌筛查方案为4种筛查技术:VIA、VIA/VILI、careHPV@1.0pg/ml、careHPV@0.5pg/ml,和5种筛查频率:终生一次(35或45岁)、终生两次(35和45岁)、每10年一次(30~59岁)、每5年1次(30~59岁)、25~49岁每三年和50~64岁每5年一次(国际癌症研究机构IARC推荐)的两两组合。对照方案:未开展子宫颈癌筛查。

4.资料分析方法

Markov模型能预测出20种筛查方案对子宫颈癌发病率、死亡率和终生发病风险的流行病学影响;与未筛查组相对应的成本效果和不同方案之间的增量成本效果,包括每挽救一个生命年( LYS)和每增加一个质量调整生命年( QALY)的成本,据此来比较各筛查方案在流行病学和卫生经济学层面的优劣。

5.结果

Markov模型的主要运行结果包括:①筛查技术对子宫颈癌发病、死亡和终生发病风险的下降幅度由大到小为careHPV@ 0.5pg/ml、careHPV@ 1.0pg/ml、VIA/VILI 及VIA;②子宫颈癌死亡率下降幅度随筛查频率的增高而减小;③和未筛查组相比,20种筛查方案每挽救一个 LYS和每增加一个 QALY的成本均低于当地人均国内生产总值(2008年山西省人均GDP为2975美元);④筛查方案间比较,肉眼观察的增量成本效果比值最低;⑤35~50岁是实施终生一次筛查的最佳年龄(表14-6)。
表14-6 筛查方案成本效果的模型预测值*
*删减了部分结果

6.结论

肉眼观察技术在农村地区筛查子宫颈癌可行且经济有效; careHPV因能更大幅度地降低疾病负担且成本效果显著,待将来上市后会是更理想的选择。建议妇女在35~50岁年龄段进行终生至少两次以上的筛查。

7.本研究的特点

本研究充分体现了Markov模型在选择筛查方案上的优势。目前在我国开展筛查实际效果的评价条件不足,一是我国没有开展大人群的宫颈癌筛查研究,不能根据实际随访结果进行评价;二是,需评价的方法较多,难以实现多组筛查队列的随访研究。Markov模型能够利用有限数据和模拟恶性肿瘤在人群中的发生、发展的过程,评价了在我国农村地区开展的多种子宫颈癌筛查方案的成本效果。值得提出的是,Markov模型评估的效果并不等同于筛查的实际效果,建模的作用是为初步选择适宜我国农村地区子宫颈癌筛查方案提供依据,后续还需要在筛查实施后开展大人群的随访研究来验证效果,调整筛查方案,最终为制定中国宫颈癌筛查指南提供依据。

(李佳圆 赵方辉)