第二节 从经典测量理论到项目反应理论
一、经典测量理论的优势和不足
经典测量理论(classical test theory,CTT)围绕着真分数(true score)的概念建立了第一代心理测量学理论架构,认为测量所得观察分数等于真分数加上误差分数,真分数包括目标真分数和非目标真分数(系统误差分数),误差分数是随机误差影响的结果。目标真分数是研究者希望测量到的心理特质的实际水平值,记为V;随机误差分数是在测量过程中由于各种随机误差因素影响而产生的分数,记为E;非目标真分数是由于系统性误差的影响产生的分数,记为I。随机误差分数和非目标真分数都是误差分数,是测量者要严加控制乃至希望消除的测量值。测量学还将目标真分数与非目标真分数合在一起称为真分数,记为T。真分数是使用测量工具实际观察到的稳定的测量值,真分数中不含随机误差分数,但它含有我们主观上不想测量但实际上却测量到了的非目标真分数。经典测量理论进一步假设:真分数T是目标真分数V与非目标真分数I的线性组合,观察分数X是真分数T和随机误差分数E的线性组合,即
经典测量理论还假设目标真分数、非目标真分数与随机误差分数都是相互独立的。由此推得以下两个公式:
上面公式中的符号分别代表各种相应分数的方差。方差代表的是分数离散程度的大小,同时也说明了相应因素(心理特质、随机误差、系统误差)对分数取值影响的大小。方差越大表示该因素对被试的评价结果所起的作用越大。将目标真分数方差、非目标真分数方差与随机误差分数方差三者相比,我们显然希望目标真分数方差越大越好,而非目标真分数方差与随机误差分数方差都越小越好。根据以上公式可知,三者大小取决于各自在观察分数方差中所占的比例。
经典测量理论的核心概念包括真分数、信度和效度。这些概念的操作性定义主要是基于相关分析技术的。比如,真分数就是使用同一方法对被试同一心理特质进行多次重复测量后获得的一致分数,该一致性程度通过信度系数来表示,而信度系数就是多次测量结果之间的相关性程度。经典测量理论从建立起到现在一直是指导各类测量活动或研究的重要理论,该理论的主要优势是基于经验的分析方法和简单易懂的分析技术。
经典测量理论由于简单易懂和效果良好而成为应用最为广泛的一种心理与教育测量学理论。然而,在测量学研究走向精细化时,经典测量理论一些不足的方面就表现出来了:首先,被试水平是通过观察分数总分来评价的,这个分数只能表示被试在本次测试中的相对地位(通过导出分数)和对内容掌握的程度,无法进行更精细的定位和描述;其次,数据分析结果依赖于样本,也就是说,被试水平描述和项目参数特性会随着测试样本的变化而变化,获取的参数无法迁移应用到其他测试情境中;再次,被试参数和项目参数不在同一度量单位系统,被试水平和项目作答结果之间没有内在的关联通道;最后,测量标准误被定义在测验整体质量的评价上,无法评价单个项目对单个被试的测量质量。
二、项目反应理论的优势和不足
影响被试在项目上的作答结果的主要因素有两个:一是被试自身的能力水平;二是项目的计量学属性,如项目难度、区分度、猜测性等。按照一般经验来说,在同一个项目上,能力水平越高的被试,答对这个项目的可能性就越大;而对于同一个被试来说,越容易的项目就越可能被答对。
作为现代测量理论代表之一的项目反应理论(item response theory,IRT),它的特点是以概率函数的形式来描述项目作答反应结果是如何受到被试能力水平和项目特性联合作用的影响的。具体来说,就是依据被试在各个项目上的实际作答反应结果,经数学模型的运算,统一估计出被试的能力(abilities)水平或潜在心理特质(latent traits)水平,以及项目的计量学参数。描述被试能力水平、项目参数与项目作答结果之间关系的数学模型称为项目特征函数(item characteristic function,ICF),以图形表示则称为项目特征曲线(item characteristic curve,ICC)。图1-1为典型的项目特征曲线:横轴表示被试的能力水平,纵轴表示概率。例如,曲线上有A、B、C、D、E 5个点,它们分别代表了5位不同能力水平的被试在该项目上的答对概率。由图可知,在一定范围内,能力值(θ)越大,答对该项目的概率(p)就越大。
图1-1 典型的项目特征曲线图
项目反应理论将项目视为测量被试能力水平的基本单位,项目的属性通过项目参数来描述。项目一般包含以下3个典型的计量学参数:①a参数,即区分度参数,它的值越大表示项目对不同被试能力水平的鉴别力越强;反之,则鉴别力越弱。在项目特征曲线图中,a参数反映了项目特征曲线的斜率,其理论值介于-∞和+∞之间,但在实际应用中的取值一般介于0和3之间。②b参数,即难度参数,它的值越大表示项目越难,在项目特征曲线图中,它反映了项目特征曲线位于能力量尺上的位置,因假定被试的能力值介于-∞和+∞之间,所以b参数的理论值范围亦然。不过,在实际应用中,被试能力值取值一般介于-3和+3之间。③c参数,就是猜测参数,代表了被试仅凭猜测答对项目的可能性,它的值越大表示不论被试能力水平高低,均更容易答对这个项目;值越小,则表示光凭猜测不易答对这个项目。c参数反映项目特征曲线的左下渐近线(lower asymptote)的高度,其理论值介于0与1之间。但是,在实际应用中,c参数过高的项目经常不被接受。
项目反应理论以项目特征函数来描述项目作答反应结果与被试能力水平及项目参数之间的关系,因所包含的参数个数不同,函数可被区分为不同的模型。常用的数学模型有单参数模型、双参数模型及三参数模型3种。各模型的项目特征函数如式(1-6)至式(1-8)所示。
单参数模型:
双参数模型:
三参数模型:
式子中:D为常数1.7;e为自然对数的底;j为被试编号;θj为第j位被试的能力值;i为项目编号;ai,bi,ci分别表示第i题的区分度参数、难度参数、猜测参数;Pij(θj)表示能力值为θj的被试答对第i题的概率。当然,也可以将函数式用图形表示,称为项目特征曲线。
项目反应理论弥补了经典测量理论主要的不足,在指导测量实践方面体现了更大的优势,同时也一直是测量学领域研究的主要方向之一。项目反应理论在对被试群体进行总结性评价(summative assessment)时具有明显的优势,在各类竞争性选拔测试中如入学、入职、晋升、荣誉授予等方面得到广泛应用。然而,项目反应理论研究者一直没有足够重视对被试潜在特质的精细化分析。虽然多维项目反应理论将测试的潜在特质引向了精细化的方向,但研究者一直没有充分地关注对测试的特质内容本身的意义的分析。