第四节 检查与测量方法的评估
任何康复评定技术和设备应用于临床必须具有临床实用性和科学性。临床实用性要求其具有临床价值,易为医患接受;科学性要求信度、效度好,灵敏度高。测量工具的性能直接影响测量质量。因此,设计、评估或选用测量工具时必须首先评价工具的性能。信度和效度是考察测量工具或方法优劣的重要指标。许多临床康复工作者对于如何评价某一种评定工具缺乏认识。本节将对相关概念进行讨论。
一、信度
信度(reliability)又称可靠性,是指测量工具或方法的稳定性、可重复性和精确性。一种测量方法的高信度在测量结果的可靠性和多次测量结果的一致性上得以体现。以尺子为例,用一个由弹性材料制成的皮尺测量一张桌子的长度时,即便是由一个人测量,每一次用它都可以测量出不同的结果;如果用一把木制的尺子测量一张已知长度为1m的桌子时,即使分别让100个人测量,也会得出相同的测量结果。由此可见,测量工具的可靠性将影响测量的结果。如果一种功能评定方法、测量工具(如评定量表、电子关节角度计)或分析方法(如步态观察表)不可信,患者的真实情况或治疗效果就会被掩盖起来。因此,在使用一种新的测量或评定方法之前,尤其当为观察治疗效果而需要进行多次评定,或在治疗过程中不得已而由多人进行评定时,有必要首先对该测量工具或方法的可信度进行检验。临床中常用的信度检验包括测试者内部信度检验和测试者间信度检验。
(一)测试者内部信度检验
测试者内部信度检验(intra-rater reliability),是通过同一测试者在间隔一定时间后重复同样的测量来检验测量结果的可信程度。该检验是检验时间间隔对评定结果稳定性的影响,因此,重复测量时,要注意两次测量的时间间隔要恰当。如果时间间隔太久,可能会发生一些变故,如两次步态分析期间因发生膝关节损伤而影响被检查者的结果,导致前、后两次测量结果出现很大的差异,而这种差异并非测量工具本身的因素所致。
(二)测试者间的信度检验
测试者间的信度检验(inter-rater reliability)是检验多个测试者采用相同的方法对同一种测试项目进行测量所得结果的一致性。在测量工具的标准化程度较低的情况下尤其要进行该检验。不同测试者的结果存在较大差异时,提示该测量方法的使用将受到质疑或限制。设计康复评定量表时最容易出现忽视测试者间信度的问题。
一种测量方法的可信程度用信度相关系数表示,系数越大,说明测量方法的可信程度越大,测量结果越可靠、越稳定。一个好的测量方法,无论由一个测试者对一个项目进行多次测量,还是由多个测试者测量同一个项目,测试结果之间都应当具有高度的相关性。例如,用电子角度计测量一个关节角度,结果为60°,如果连续两个月在每周一的早上测量,其结果均为60°,说明该角度计具有高可信度。反之,如果第一周测量结果为60°,第二周为30°,第三周为40°,则说明这个角度计是不可靠的,信度极低。要使一个评定量表达到高稳定性、高重复性和高精确性,设计和使用时必须做到:①评分标准要明确并具有相互排他性;②量表适用范围明确;③评定项目的定义严谨、操作方法标准;④测试者应当定期接受应用技术的培训,以确保操作熟练和一致。
二、效度
效度(validity)又称准确性,指测量的真实性和准确性,即测量工具在多大程度上反映测量目的。效度越高,表示测量结果越能显示出所要测量的对象的真正特征。效度根据使用目的而具有特异性。仍以尺子为例,用尺子测量物体的长度会得到很准确的结果。然而,如果用它测量物体的重量,则因为它和待测物之间毫无关系而使得这把尺子变得无效。由此可以看出,不同测量工具用于不同的目的,测量工具的有效性亦随之变化。因此,在选择测量方法时,应根据使用的独特目的选用适当的效度检验。
效度是一个多层面的概念,它相对于特定的研究目的和研究侧面而言。因此,检验效度必须针对其特定的目的、功能及适用范围,从不同的角度收集各方面的资料分别进行。常用效度检验的方法大体有三种,即效标关联效度、内容效度和构想效度。
(一)效标关联效度
效标关联效度(criterion related validity)是指测量结果与效标的相关程度。所谓效标就是检验某种检查或测量有效性的一种参照标准,通常用一种公认的、比较可靠或权威的测量结果(又称黄金标准)表示。在对同一种现象或概念进行测量时,可以使用多种测量工具,每种测量工具与效标的一致性就成为效标关联效度。在康复评定中,效标关联效度检验将新提出的评定方法的评定结果和用效标评出的结果相比较。效标关联效度采用测量结果和效标测量结果间的相关系数来表示。通过效标关联效度,可以对被检测现象进行定量化的分析比较,其意义直观,易于被理解和接受。
根据时间跨度的不同,效标关联效度可分为同时效度和预测效度。同时效度(concurrent validity)探讨评分或测量结果与公认标准或已知效度的测量工具所测结果的关系即相关程度。在检验一项新测量方法的有效性时多采用同时效度检验,即将新方法与已知高效度的测量方法进行比较。例如,一个新的ADL评定方法可与Barthel指数进行比较以验证新方法的效度。
预测效度是指测量结果与未来的相关能力(指标)表现之间的相关程度。故对患者的预后判断可提供重要的信息。例如,ADL量表评定得分高的患者,其功能恢复也好,两者的相关程度高。
同时效度和预测效度在取得效标值的时间上有所不同,前者的效标值已经存在或与新测量方法的数据同时收集,后者则在新法测量隔一段时间之后收集获得;此外,两种检验的目的亦不同,前者估计当前的状况,后者预测未来的表现。
(二)内容效度
检验内容效度(content validity)旨在系统地检查内容的适当性,即测量内容反映某一种主题的程度。换言之,内容效度是说明所选项目是否有准确性、代表性和真实性的指标。康复评定中,所选的项目要与评定目的相符合。例如,治疗师欲测量安装上肢假肢患者的日常生活活动能力状况,必须首先确定哪些活动应当作为检查项目。如果他仅调查了患者起床、穿衣活动就做出结论,则该调查是无效的,因为反映日常生活活动能力的许多其他活动在该调查中被忽略。因此,内容效度实质上是判断:①测量工具所测量的是否正是测试者所想要测量的内容;②测量工具是否提供了有关测量内容的适当样本。以设计问卷为例,为了建立具有内容效度的问卷,研究者必须遵循相关理论框架,收集所有相关问题与参数,并从中选择能够完整涵盖所界定的研究范围的问题,如此才能够使问卷具备充分的内容效度。内容效度没有量化的指标,它的确定主要是由专家采用逻辑分析方法进行判断。
(三)构想效度
构想效度(construct validity)寻求和检验理论概念与具体测量工具或测量方法的一致性。构想效度反映编制某种测量工具所依据理论的程度,即测量结果能够依据某种理论框架加以解释的程度。这种方法常常在理论研究中使用。构想效度是效度的理论形式。由于它是通过与理论假设相比较来检验的,因此构想效度也被称为理论效度。构想效度分为会聚效度和区分效度。因此,构想效度通过会聚效度和区分效度进行检验。会聚效度(convergent validity)检验理论基础相同或相近的两种测量方法之间的相关程度。具有相同理论基础的检查或测量方法之间应当具有高度的相关性。例如,一项以运动功能概念为基础的运动功能检查应当与其他以相同概念或相近概念为基础的检查和测量具有高度的相关性(如灵巧性和协调性)。两者间的高相关性就是会聚效度的证据。会聚效度用于欲测量现象缺乏黄金标准参考时。区分效度(discriminate validity)检验无共同或相关理论基础的两种测量方法之间的相关程度。理论基础不相同或不相近的两种测量方法之间一般呈低相关性。例如,一个以关节活动范围理论或概念为基础的检查或测量与一个以有氧运动理论为基础的检查与测量之间必然存在低相关性。因此,区分效度通过检验新测量方法与不同性质的其他测量的无相关性,验证新测量方法没有受到无关因素的影响。
采用多项特性-多项方法(multitrait-multimethod approach)分析建立会聚效度和区分效度。此外,相关分析、前后两次测量对照比较、内部一致性分析、因素分析亦可以获得构想效度的证据。
在上述三种方法中,如能找到效标或黄金标准宜首选;如无适当的效标,可采用构想效度检验;在上述两种方法中的参照标准均无的情况下,则采用内容效度检验方法。
三、信度与效度之间的关系
信度是效度的必要条件,但不是充分条件。两者之间的关系归纳如下:
1.信度低,效度不可能高 因为如果测量的数据不精确,也就不能有效地说明所研究的对象。
2.信度高,效度未必高 例如,一个体重计指针在零体重情况下总是指在2公斤处,因而每次所测得体重都要比实际高出2公斤。结果虽然一致、稳定,但它却是错误的。换言之,一种测量工具无效或效度低时,其信度却可以很高。
3.效度高,信度也必然高 信度与效度两者之间的关系可以用打靶射击的例子生动地来说明。当手枪射击者的10发子弹虽然都击中靶子但弹落点四处分散时,说明该手枪既不准确也不精确;如果弹落点均在一个直径3cm的范围内,虽然未集中分布在靶心,说明手枪不准确但十分精确;如果10发子弹均落在10环内,则手枪的质量最好,既准确又精确。
四、灵敏度与特异性
(一)灵敏度
应用一种评定方法评定有某种功能障碍的人群时,可能出现真阳性(有功能障碍且评定结果亦证实)和假阴性(有功能障碍但评定结果未能证实这一结论)两种情况。灵敏度是指在有功能障碍或异常的人群中,真阳性者的数量占真阳性与假阴性之和的百分比。灵敏度检验也是检验效度的一种有效方法。
(二)特异性
应用一种评定方法评定无某种功能障碍的群体时,可能出现真阴性(无功能障碍且评定结果亦证实这一结论)和假阳性(无功能障碍但评定结果显示有功能障碍)两种情况。特异性是指在无功能障碍或异常的人群中,评为真阴性者的数量占真阴性与假阳性之和的百分比。特异性检验也是检验效度的一种有效方法。
五、临床研究结果的可靠性分级
根据循证医学的观点,在康复临床评定、诊断、制订治疗方案和选择最佳治疗方法的决策过程中,应最大限度地利用科学的证据去指导康复临床实践,通过寻找最新、最佳的研究成果和临床证据,来帮助康复医师和治疗师选择最佳的检查与治疗方案。循证医学强调真实、可靠的临床证据。因此,检验临床证据的质量就成为能否将研究成果应用到实践中去的关键环节。循证医学专家根据美国肿瘤临床协会提出的分级方法,将临床证据的可靠性分为下列5个级别(表1-3),其中Ⅰ、Ⅱ级被认为是“金标准”。
表1-3 临床证据的可靠性分级