测量篇
第3章 测量与测验的基本问题
第一节 测量和量表
一、测量
在日常的生活、学习和工作中,运用测量的现象随处可见。例如,买蔬菜水果要用秤称一称分量,做衣服要用皮尺量一量肩宽和胸围,学生去学校上课要看钟表指示的时间,感冒发烧了要用体温计测体温等等。
现代科学的研究和发展更是离不开测量。测量不仅是物理、化学、生物、地理等自然科学最基本、最重要的研究方法,而且这种方法正越来越广泛地应用于社会、经济和教育等领域,促进这些学科的发展。如今,心理测量也在特殊教育领域中发挥越来越重要的作用。
为了更好地将心理测量应用于特殊儿童的心理评估,我们先来讨论一个最基本的问题——什么是测量(measurement)?
一谈到测量,人们很容易就会想到各种仪器。例如,测量重量用的秤,测量大气压用的气压计,测量时间用的钟表,体检时常用的听诊器、血压计、X光透视仪等。由此令人联想到,特殊儿童的心理测量是不是也要使用仪器?只有使用了仪器,才能称得上测量吗?什么是测量的本质特征?
观察一下周围的人平时如何进行测量,我们发现,其实有些时候不用仪器也可以进行测量。例如,人们通过目测,可以了解楼层的高低;用手掂一掂物品,就知道物品的轻重等等。由此可见,仪器的使用并不是测量的本质特征。我们认为测量的本质特征是对事物进行区分,并用数字表示区分的结果。
美国测量学家斯蒂文斯(S.S.Stevens,1951)曾经说过:“就其广义而言,测量是根据法则给事物指派数字。”这个观点目前已被国内的大多数学者所接受。目前国内学者给测量下的定义一般为:所谓测量,就是依据一定的法则(有时需使用量具)对事物属性进行定量描述的过程。
从这个定义不难看出,测量包含以下三个要素:
(1)测量的对象 即事物的属性或特征。根据所测量事物的属性不同,测量分成若干个分支,包括物理测量、化学测量、生物测量、心理测量和教育测量等。物理测量的对象是事物的各种物理属性,如长度、温度、时间、速度等;化学测量的对象是事物的各种化学特性,如化合物的酸碱度、溶液的导电性等;心理测量的对象是人的各种心理属性,如知识、能力、性格、兴趣、动机等。
虽然心理属性既看不见又摸不着,显得非常抽象,但是它们一般都会在具体的活动和行为中表现出来。只要给所要测量的某种心理属性下一个明确的操作定义(即说明如果具有某种心理属性,就一定有什么行为表现),就可以创设一定的条件来引起这些行为,通过对这些行为的观察和测定,可以推断受测者是否具有这种心理属性。
(2)测量的结果 即描述事物属性的数字。在物理、化学、生物、地理等自然科学中,测量所获得的数字基本上都有量的含义。例如,通过测量得知,某张桌子的高度是80厘米,某种溶液的PH值是6等等。然而,在心理测量中,测量所获得的数字有时有量的含义,如智商分数、记忆测验分数、数学测验分数等;有时却没有量的含义,例如,用数字表示不同的民族(如1代表汉族,2代表回族,3代表壮族……)、不同的性别、不同的残疾类型等,这些数字只是一些用来区分的符号。由此可见,心理测量中的数字具有多层含义。
(3)测量的法则 就是测量的规则或方法,即测量时给事物的属性指派数字的依据。例如,测量房间的高度是有一定规则的,必须先把皮尺的零点对准地面,把皮尺拉直并垂直于地面,看皮尺刚到达房顶时的刻度,即可测得房间的高度。皮尺悬空,不把皮尺拉直,皮尺不垂直于地面,或不看皮尺刚达到房顶的刻度,都属于不遵守测量规则,不可能得到表明房间高度的准确数字。
在测量过程中,制定法则是一件最难的事情。法则制定得好,就可以得到准确的测量结果;法则制定得不好,测量结果就会有偏差。例如,物理特性(重量、长度、体积等)是比较简单、稳定的,人们对物理特性及其规律的了解相对来说也比较透彻,因此,测量法则的制定就比较完善,也易于执行,测量结果一般会比较准确。而心理特性是复杂、多变的,目前人们对心理特性的了解还远远不够深入,所以还很难制定出比较完善且易于操作的法则,测量结果就容易出现比较大的误差。当然,随着心理学的不断发展,测量法则会不断地完善,心理测量结果也会越来越准确。
任何测量都包括测量对象、测量法则和数字三个要素。例如,要测量儿童的智力水平,测量对象就是儿童目前已达到的智力水平;测量法则包括为量表的编制、实施、记分及分数的解释等环节制定的各种操作规则;数字就是受测者最后获得的智商分数。这三个要素若缺少任何一个都不能构成一个完整的测量。
二、量表
(一)量表的定义
从根本上说,测量就是根据一定的法则给事物的某种属性指派数字的过程。不过,这些数字不是随便分派的,给不同的属性指派数字时要参照不同的数量体系,而同一种属性只有用同一个数量体系的数字表示出来才有意义。在测量学中把定有参照点和单位的数量连续体叫作量表(scale)。
进行测量时,先要把事物的某种属性与能够衡量这种属性的数量连续体相对照,看它处于数量连续体的什么位置上,然后根据这个位置与参照点的距离确定其测量值。例如,皮尺就是一个能测量高度的数量连续体,要测量某个儿童的身高,就让他赤脚站立,足底对应着皮尺的零点,看身体的最高点对应着皮尺的什么位置,从该点到零点的距离就可以测出他的身高。期末考试用的语文试卷也是一个量表,从0分到100分构成一个数量连续体,每个学生的成绩如何,要看他答对几道题,得了多少分,从得分的高低就可以判断他的语文水平。
任何量表都包含两个基本要素,即参照点和单位。
(1)参照点 就是计量的起点,也叫零点。要使测量结果能够相互比较,必须让所有的测量都建立在同一个参照点上。如果参照点不同,测量结果的意义就完全不同,也就失去了可以比较的共同基础。例如,摄氏温度计和华氏温度计的参照点是不同的,同样是100度,在不同的温度计上有不同的含义,所以不能等同;又如,一个二年级学生在语文考试中得了80分和一个五年级学生在语文考试中得了80分意义是不同的,也是这个道理。
参照点有两种:一种是绝对零点,即以要测量的那种属性绝对没有的那一点作为测量的起点。例如,对长度、重量等的测量,其参照点都是绝对零点。另一种是人为确定的参照点,叫作相对零点。我们平常一般用摄氏温度计来测量温度。摄氏温度计是以水刚刚能够结为冰的温度作为测量的起点,这是人为确定的,而真正的零点是-273摄氏度,所以,摄氏温度计的参照点是相对零点;再如,对地势高度的测量,是以海平面为测量的起点,其参照点也是相对零点。一座山的高度实际上是指山顶与海平面的垂直距离,这只是它的陆地高度。
理想的参照点当然是绝对零点,因为它意义明确,而且固定不变,易于比较,但在心理测量中很难找到绝对零点。例如,对某儿童实施了一项思维能力的测验,他得了零分,我们一般很难就此说他完全没有思维能力,而只能说,在本次测试中他什么都不会做。又如,我们对某儿童进行一项智力测验,这个儿童在所有测查的项目上都得了0分,我们只能说对于所测的内容他什么都不会,而不能说他的智力为0。因为心理测量中所用的参照点基本上都是人为确定的,不同的编制者有不同的标准,所以,各个测量的结果一般不能直接比较。无绝对零点是心理测量一个最重要的局限性。
(2)单位 就是计量事物的某种属性的标准量名称。单位有许多种类,不同的测量所用的单位是不同的。测量长度有长度单位,如毫米、厘米、分米、米、千米等;测量重量有重量单位,如毫克、克、千克、吨等;测量时间有时间单位,如秒、分、时、日、月、年等。没有单位,数量的大小、多少就无法比较。例如,测量两个物品的重量,一个是10千克,另一个是100克,如果不写出单位,就不知道10是指10千克还是10克,100是100千克还是100吨。如果单位都是千克或克,前者比后者轻;如果10是指10千克,100是指100克,则结论正好相反。
理想的单位应当具备两个条件:①有确定的意义,即对同一单位,所有人的理解都是相同的,也就是说有一个公认的标准;②每个单位是等值,即相邻的两个单位之间的距离是相等的,比如,第一个单位与第二个单位之间的距离等于第二个单位与第三个单位之间的距离,依此类推。自然科学中许多测量的单位都符合这两个条件,例如,测量长度以米为单位。1米有多长,全世界有一个公认的标准;2米到3米之间的距离与6米到7米之间的距离是相等的,与9米到10米之间的距离也相等。所以说,米是一个很好的长度单位。然而,在心理测量中却很难找到能够满足这两个条件的单位。首先,在心理测量中没有一个有确定意义的单位。有些心理测量学家喜欢以分为单位,但1分的价值是多少谁也说不清楚。其次,两个相邻单位之间的距离也不相等。例如,在数学能力测验中以分为单位,根据经验我们知道,每道题的难度不等,或者说每1分是不等值的,从85分提高到86分比由39分提高40分的难度要大很多。单位不等值是心理测量又一个重要的局限性。把心理测量的结果运用于特殊儿童心理评估时,应当认识到这种方法的局限性。
(二)量表的分类
对于不同的测量对象,编制量表时所采用的参照点和单位是不同的。参照点和单位不同,其测量水平和精确度也不同。斯蒂文斯根据不同的测量水平以及测量中使用的不同参照点和单位将量表分为四类。不同水平的量表各有其特点,下面分别予以介绍。
1.命名量表(nominalscale)
又叫名称量表或类别量表,指的是根据事物的某种属性对事物进行分类,并用数字表示不同类别的数量连续体。例如,用“1”表示学业性学习障碍,“2”表示发展性学习障碍;又如,用“1”表示构音障碍,“2”表示声音障碍,“3”表示语流障碍。
命名量表是一种最简单、测量水平最低的量表,主要用于分类和符号化。量表中用来描述事物的数字只起标记和区分的作用,不能用于数量化分析。例如,由表示类别的数字1、2、3,可以知道言语障碍分为几类,但不能根据这些数字的大小推断语流障碍比构音障碍和声音障碍都严重;也不能用这些数字进行加、减、乘、除运算,如构音障碍与声音障碍之和等于语流障碍。由于命名量表中的数字没有数量的意义,因此,有人认为运用这类量表进行的测量不能算作真正意义上的测量。
对这类量表只能统计各类事物的频数和百分比。
2.顺序量表(ordinalscale)
又称等级量表,指的是根据事物具有某种属性的程度,对事物进行分类,并用数字表示不同类别的大小或等级的数量连续体。例如,将视障儿童的社会适应能力分成优、良、中、差四个等级,优用“1”表示,良用“2”表示,中用“3”表示,差用“4”表示;又如,根据智力测验分数和适应行为评定的结果,将智力障碍儿童分成四类,轻度智力障碍用“1”表示,中度智力障碍用“2”表示,重度智力障碍用“3”表示,极重度智力障碍用“4”表示。
顺序量表的测量水平比命名量表高一级,它不仅区分出不同的类别,而且还指明不同类别的大小或等级关系。例如,由智力障碍儿童的分类结果可知,第1类儿童的缺陷程度比第2类轻,第2类儿童的缺陷程度比第3类轻,依此类推。在顺序量表中,既无绝对零点,又无相等的单位,数字只表示等级或大小顺序,并不表示某种属性的真正量值,因此,这类量表的数字也不能进行加、减、乘、除运算。
对这类量表除了可以统计各类事物的频数和百分比之外,还可以计算中位数、百分位数、等级相关系数等。
3.等距量表(equalintervalscale)
指的是有相对零点和等值的单位的数量连续体。例如,摄氏温度计就是一个等距量表。它有一个相对零点,而且,当两个温度之差相等时(如10°C与20°C之差对于20°C与30°C之差),温度升高或下降的幅度是相等的。又如,日历也是一个等距量表,它有等值的单位和一个人为确定的参照点。
等距量表的测量水平比顺序量表又提高了一步。这类量表的数字是一个真正的数量且单位是等值的,所以,量表上的数字之间可以进行加、减运算。两个数字的差距只要数量相同,就具有同样的意义和价值。不过,由于没有绝对零点,这类量表的数字不能进行乘、除运算。
对这类量表可以统计算术平均数、标准差、积差相关系数等。
4.比率量表(ratioscale)
又称等比量表,指的是有等值的单位和绝对零点的数量连续体。这类量表在心理测量中很难找到,而在物理测量中十分常见。例如,磅秤就是一个比率量表。它有相等的单位,当测得物品A是15千克,物品B是5千克时,就可以知道A比B重10千克。它还有一个绝对零点,因此,由这两个物品的重量就可以推算A的重量是B的3倍;又如,尺子也是一个比率量表,当测得甲、乙两个物品的长度分别是2米和4米时,不仅可以知道甲比乙短2米,而且还可以知道甲的长度是乙的一半。
比率量表是测量水平最高的量表。由这类量表上的数字,不仅可以了解一个事物与另一个事物的差距是多少,还可以了解它们之间的倍数关系。这类量表的数字不仅可以进行加、减运算,还可以进行乘、除运算。
对这类量表,除了可以运用前面几类量表使用的统计方法外,还可以计算几何平均数、偏态量、差异系数等。
第二节 心理测量的性质
在上一节里,我们讨论了什么是一般意义的测量,那么作为特殊儿童心理评估中运用的心理测量又有什么含义和特性呢?下面我们就来探讨这两个问题。
一、心理测量的含义
所谓心理测量,就是依据一定的心理学理论,使用测验对儿童的心理特质进行定量描述的过程。
和其他领域的测量一样,心理测量也要依据一定的法则给事物的属性指派数字。不过,在心理测量中,测量的对象是儿童的各种心理特质,所遵循的法则基本上都体现在测验的编制、实施和测验结果的应用上,因此,心理测量具有和其他测量不同的特性。
二、心理测量的特性
1.间接性
心理测量的对象主要是个体所具有的相对稳定的心理特征,如智力、学习能力、感觉运动能力、创造力、兴趣、爱好、适应性等。这些特征在心理学中又叫作心理特质。心理特质本身是一些非常抽象的概念,不可能像物质实态,如物体的长度、重量、体积等那样,可以直接测量。只能从与这些心理特质有密切关联的外显行为入手,通过观察受测者的行为,推断受测者是否具有某种心理特质或具有某种心理特质的程度,所以心理测量具有间接性。
其实,在物理测量中有时也进行间接的测量。比如,测量温度用的就是间接测量法,即根据热胀冷缩的原理,通过观察水银柱的涨落来判断温度的高低。不过,在物理测量中一般不需要进行间接的测量,而在心理测量中,由于测量对象的内隐性和复杂性,这种方法则被广泛地运用。
为什么心理特质可以进行间接的测量呢?这里依据的是心理学的特质理论。特质理论认为,每个人身上都会表现出许许多多的行为和特点,这些行为和特点不是孤立存在的,而是组成一群一群的行为,每一群行为都比较相似,而且有内在联系。心理学中就把每一群相似的、有内在联系的行为叫作一种特质,并用一个概括性的术语来称呼它。例如,有些人喜欢唱歌、听音乐、参加各种音乐活动等,这些行为是有内在联系的,它们构成了一种特质,可以用“音乐爱好”这个词来称呼它;又如,有些人对数学知识学得快,领悟得深,记得牢,并能灵活地运用,我们可以把这组行为后面的那个内在特质叫作“数学学习能力”;我们可以用智力、创造力等术语去称呼另外一些类似的行为。这样,我们就可以通过观测受测者表现出来的行为,间接地测量他们的这些特质。
2.相对性
斯蒂文斯根据测量的精确度不同,由低到高把量表划分成四级水平。严格地说,心理测量属于第二级即顺序量表水平。心理测量的对象是诸如智力、言语能力、学术能力倾向、动机、兴趣、品德之类的心理特质,对这些心理特质的测量很难找到绝对零点,它们的参照点几乎都是人为确定的,也就是说只有相对零点,所以,它们不可能属于最高水平的比率量表。心理测量的量表也没有等值的单位,虽然有些测验以分为单位,似乎是等值的,但实际上每一分的价值是不相等的。例如,60分与65分的差距与85分与90分的差距看似相等,而实际上后者的差距比前者大,因为分数越高,每一分的“含金量”就越高,提高一分的难度就越大,所以,心理测量也不属于等距量表。经过心理测量之后,一般来说只能给人排列个顺序,分出个等级高低来。由此可见,心理测量具有相对性。
3.多元性
和自然科学中的测量相比,心理测量的对象要复杂得多。一方面,各种心理特质之间有千丝万缕的联系,很难将不同的特质截然分开,只对其中的一种特质进行测量;另一方面,即使测量了单一特质,这个特质很可能有多个维度,形成一定的结构,也需要从多个侧面进行测量并予以组合。所以说,心理测量具有多元性。例如,到目前为止,人们还很难编制出一种“纯粹的”能力测验,只测量了能力,而没有测量知识或其他的东西。又如,一些号称为文化公平的智力测验,其实仍然受某种主流文化的影响,只是相对于其他测验而言,这种影响比较小罢了。
4.随机性
包括变异性和规律性这两方面的特性。心理测量不可能完全排除无关因素的影响,诸如情绪、健康状况、应试动机、周围的环境以及主试的干扰等都会引起测量结果的波动,表现出变异性来。不过,这些波动并不是杂乱无章的,总是有一定的规律性。因此,心理测量还具有随机性。
第三节 测验的定义和分类
测验是心理测量的工具。出于各种不同的目的,每年有成千上万的人使用或参加各式各样的测验和考试,然而,很少有人能准确地说出测验的定义,能对测验做适当的分类。
为了更好地把测验运用于特殊儿童的心理测量和评估,有必要对测验的概念进行严格的界定。
一、测验的定义
对于什么是测验这个问题,每个人根据自己的经验会有不同的解释。这个看似简单的问题,在学术界至今也没有取得一致的意见,不过目前大多数心理测量学家赞同美国心理与教育测量学家布朗(F.G.Brown)和安娜斯塔西(A.Anastasi)提出的定义。
布朗认为:“测验是指对一个行为样本进行测量的系统程序。”在这个定义中,测验包含了三层意思。
(1)测验测量的是人的行为。因为心理特质不能直接测量,所以,需要通过对与之密切相关的外显行为的测量来作出推断。
怎样测量人的行为呢?这需要用测验项目作为刺激,引起受测者一定的反应,通过观察受测者对测验项目的反应情况,就可以推断他是否具有某种心理特质。在这个过程中,编制什么样的测验项目作为标准刺激来引出受测者的反应是非常关键的。如果测验项目不能引出要观察的行为,或者所引出的行为与所要测量的心理特质无关,都会造成测量结果的偏差。
(2)测验测量的是一个行为样本,而不是所要测量的某个行为领域的所有可能的行为。每一个心理特质都包含许许多多的行为,一个测验不可能包罗万象,测量所有的行为。一次测量只能就所要测量的心理特质设计一组测验项目,这组测验项目假定能引出一群有内在联系的行为,这群有内在联系的行为假定与所要测量的心理特质密切相关并代表了要测量的心理特质,受测者在测验题目上的表现能够反映他是否具有这种心理特质或具有这种心理特质的程度。既然心理测量是以这种方式进行,那么测验项目的覆盖面是否全面,是否具有代表性等就会影响测量结果的准确性。比如,我们打算测量儿童的智力,首先要论证什么是智力,智力的高低应该从哪些方面表现出来,然后编制一些测验项目来测定这些行为。由于每次测验的时间是非常有限的,不可能把所有与智力有关的测验项目都放在一个测验中,就需要对这些项目进行筛选,选择那些与智力直接有关并且质量很高、有代表性的测验项目,经过适当的搭配构成一个测验。这样编制出的测验测得的结果才能反映受测者的智力水平。再比如,要测量普通小学四年级学生的数学能力,测验编制者应该从整数、小数、分数、几何初步知识、统计初步知识、量与计算等内容中挑选有代表性的测验项目进行测量,而不应当把代数的内容包括进来,也不应当只包含整数运算的内容。
(3)测验不仅仅指一份试卷,而是指一个系统的程序,包括测验的编制、实施、评分和分数解释等环节,编制试卷只是其中的一个环节。在编制和使用标准化测验的过程中,每一个环节都有严格的操作规则,只有按照这些规则去做了,测得的结果才是客观、准确的。
安娜斯塔西的定义与布朗的定义基本上是相同的,只是侧重点有所不同。布朗的定义比较强调测验是一个系统程序,而安娜斯塔西的定义强调测验的客观性和标准化。
安娜斯塔西给测验下的定义是:“心理测验实质上是对行为样本的客观和标准化的测量。”所谓客观的测量,是指测量过程中无主观随意性。它是衡量测验或测量是否科学的根本标志。标准化的测量,是指在测验的编制、实施、记分以及分数解释等环节都控制无关因素的干扰,使测量条件对所有受测者都相同。
另外,美国心理学会(APA)、美国教育研究会(AERA)和全美教育测量委员会(NCME)的联合委员会还对测验和施测做了区分,认为测验(test)是“在标准化条件下呈现的一组任务或项目,目的是引出某些行为,以便给出符合心理测量学要求的分数”,而施测(testing)是“向某个人或团体实施一组测验项目,分数就是施测的最后结果”。
二、测验的分类
自上个世纪初以来,为了满足测量工作的需要,心理测量学家已编制了大量的测验。由于测验的用途十分广泛,根据目的及应用情境的不同,测验就有了不同的名称和类别。到目前为止,还没有一种分类方法能把所有的测验都归纳进去,并能概括测验的全貌。目前对测验的分类是多种方法并存,各具特色,有时多种分类方法还交叉使用。一般来说,每一种分类方法都突出了测验的一种或几种特征。下面就介绍几种常见的分类方法。
(一)按测量对象不同来分类
按照所测量的心理特质的不同,可以分为智力测验、能力倾向测验、学业成就测验和人格测验四大类。
1.智力测验
目的在于测量个人一般能力的高低,测量结果一般用智商(IQ)来表示。由于智力有各种各样的定义,所以各个智力测验的内容和形式也不一致。若按适用的年龄范围来分类,又可以分为以下三种。
(1)婴幼儿智力测验 在这类测验中,目前比较常用的有格赛尔发展量表、丹佛发展筛选测验、韦克斯勒学前儿童智力量表、贝利婴儿发展量表等。
(2)儿童智力测验 常用的儿童智力测验有斯坦福—比内智力量表、韦克斯勒儿童智力量表、瑞文彩色推理测验等。
(3)成人智力测验 常用的成人智力测验有韦克斯勒成人智力量表、瑞文标准推理测验、瑞文高级推理测验等。
2.能力倾向测验
目的在于测量个人的潜在才能,预测个人在未来的教育或训练中发展的可能性。能力倾向测验又可以分为两种。
(1)一般能力倾向测验 用来测量个人多方面的潜在能力。测验结果一般用剖面图来表示,通过分析剖面图中各项分数的高低,可以进行个体内和个体间的比较。目前比较著名的一般能力倾向测验有学术能力倾向测验、区分能力倾向测验、一般能力倾向成套测验等。
(2)特殊能力倾向测验 用来测量个人在某一方面是否具有特殊的发展潜能,为升学或就业指导提供依据。在这类测验中,比较著名的有西肖尔音乐才能倾向测验、梅尔艺术鉴赏测验、明尼苏达空间关系测验、本纳特机械理解测验等。
3.学业成就测验
主要用于测量个人经过正规教育或训练之后对知识和技能掌握的程度。成就测验又可以分为两类。
(1)单科成就测验 如语文测验、数学测验、常识测验等。在学校里经常会进行这类测验。
(2)综合成就测验 测量受测者在各学科上的综合成绩。常见的综合成就测验有斯坦福成就测验、都市成就测验、加里福尼亚成就测验等。
学业成就测验是教育领域里用得最多、最广泛的一类测验。
4.人格测验
主要用来测量个人在诸如兴趣、态度、动机、气质、性格、价值观、品德等方面的个性心理特征。人格测验可以分为以下四类。
(1)自陈量表 常见的自陈量表有明尼苏达多相人格调查表、爱德华个人偏好量表、艾森克人格问卷、卡特尔16种人格因素问卷等。
(2)评定量表 常见的评定量表有勒氏内外倾评定量表、文兰适应行为量表、阿肯巴切儿童行为量表等。
(3)情境测验 这类测验包括哈特逊-梅诚实测验、情境压力测验等。
(4)投射测验 比较著名的投射测验有罗夏克墨迹测验、主题统觉测验、完成句子测验、画树测验等。
(二)按编制测验的材料不同来分类
根据编制测验时使用的是文字材料还是其他材料,可以分为文字测验和非文字测验两大类。
1.文字测验
其项目是用文字材料编成的,一般也要求用文字做书面回答。这类测验也叫作纸笔测验。
这类测验的优点在于实施方便、可以团体施测,所以学校里经常使用的成就测验、人格测验等通常都以这种形式来编制。其缺点是容易受受测者的文化水平及是否认识测验的文字所限制。例如,对不识字的文盲、幼儿、外国人或认知水平很低的智力障碍儿童不适用。
2.非文字测验
其项目是用图片、模型、实物等材料编制而成的,一般要求受测者通过实际的操作来应答。这类测验有时也叫作操作测验,像瑞文标准推理测验、绘人测验、明尼苏达空间关系测验等均属于这一类。
非文字测验的优点是受测者不需要阅读文字,也不用写字,因此,受文化因素的影响较小,适用的人群非常广。其缺点是不宜做团体施测,在时间上也不经济。
另外,还有一些测验属于混合型的,即测验中既有用文字材料编制的项目,又有用非文字材料编制的项目,如丹佛发展筛选测验、韦克斯勒儿童智力量表等。
(三)按测验人数的多少来分类
1.个别测验
是指在某一段时间里由一位主试与一位受测者面对面进行的测验。像斯坦福比内智力量表、韦克斯勒儿童智力量表、韦克斯勒成人智力量表、罗夏克墨迹测验等均属于这一类测验。
此类测验的优点很多,例如,在施测过程中主试能仔细地观察受测者的反应,为心理评估提供许多有用的信息;若发现受测者不按要求去做,可以及时地予以纠正;能代替受测者记录其行为反应等等。这类测验非常适合于年幼的儿童、不会写字的人,以及自我控制能力很差的特殊儿童。其缺点是对主试的要求比较高,若以前没有受过适当的培训,主试很难胜任此项工作。另外,这类测验一般比较费时间。例如,用韦克斯勒儿童智力量表来测查儿童的智力,每测查一位儿童大约需要1.5小时。假若一天工作9小时,那么测查40个儿童,大约需要7天才能完成测查工作。若用它来做普查,工作效率可能就太低了。
2.团体测验
是指在某一段时间里由一位主试(受测者比较多时可以配备助手)对多位受测者同时进行的测验。像瑞文标准推理测验、艾森克人格问卷、卡特尔16种人格因素问卷等都属于这一类测验。
这类测验的优点是比较省时,例如,对某班40名学生实施某项语文能力测验,用团体测验的方式进行,总共只需2个小时。其缺点是不能观察和监控每个受测者的应答过程,因此,收集的信息一般比较少,产生的测量误差可能比较大。
(四)按测验的功能不同来分类
1.描述性测验
是指用来对个人或团体的能力、知识水平、个性特征等进行描述的测验。例如,学期快结束时,学校举行的各种学业成就测验就属于这一类。
2.诊断性测验
是指用来发现个人或团体在某些能力上的优势,以及诊断学习或行为问题的测验。例如,诊断学习障碍时经常会用到的伊利诺斯心理语言能力测验、数学诊断测验等就属于这一类测验。
3.预测性测验
是指用来推测一个人将来在某方面是否能够获得成功的测验。例如,在超常儿童教育班或一些特长班的招生中经常会用一些特殊能力倾向测验来做预测,这些测验就属于预测性测验。
(五)按对受测者的要求不同来分类
1.最高表现测验
要求受测者尽可能地表现出最好的状态,以测量他们的能力、学识等的最高水平。像韦克斯勒儿童智力量表、瑞文标准推理测验,以及各种学业成就测验等均属于这一类测验。
2.典型表现测验
要求受测者按照平常习惯的方式来作出反应,以测量他们一些有代表性的行为特征。像明尼苏达多相人格调查表、爱德华个人偏好量表、主题统觉测验等都属于这一类测验。
(六)按对编制的要求不同来分类
1.标准化测验
是指依照严格的程序和要求来进行测验的设计、编题、预测、实施、记分及分数解释的测验。像斯坦福—比内智力量表、韦克斯勒儿童智力量表、艾森克人格问卷、皮博迪个人成就测验等都属于这一类测验。
这类测验的优点是:①通常是由专业人员用了大量时间编制的,因此测验的质量比较有保障,一般可以使用很长时间;②在内容取样上通常都围绕着某个已被普遍接受的理论或教学大纲来进行,因此,一般能得到广泛的应用;③在测验编制和使用过程中对因各种无关因素的影响而产生的误差进行了严格的控制,并有数据资料证明其信度和效度;④为测验使用者提供了常模,这样分数的意义就比较明确,不同个体之间就能够进行比较。
其缺点是:①编制的时间比较长,不能及时地满足教育教学的需要;②对编制技术的要求比较高,一般人难以掌握;③费用比较高。所以,这类测验一般只在正式的评估中才编制和使用。
2.非标准化测验
又称教师自编测验,是指教师根据自己的经验,对所教的某个单元学生的掌握程度或对某个学科所规定的课程目标已取得的进展等进行评估时自行编制的测验。像课堂中经常进行的单元测验、期中或期末考试等均属于这一类测验。
这类测验的优点是:①通常由教师根据教学的需要自己来编制,因此,可以非常灵活且及时地为教学提供反馈信息;②在内容取样上一般是根据本地区的课程要求和本人所使用的教材来进行,所以,测验结果有助于教师对教学内容和进度做适当的调整;③对各种无关因素的控制没有很严格的要求,因此,这类测验的编制相对容易,使用方法也比较简便。
不过,这类测验的设计不如标准化测验周密,对信度和效度也没有进行过检验,而且没有常模,因此,在正式的评估中不宜使用这一类测验。