第二节 资料类型
统计学中需要处理的数据统称为资料(data)。资料由变量及其变量值组成,资料类型与变量类型相对应。
变量(variable)为随机变量(random variable)的简称,表示随机现象的某种特征或属性,即研究的项目或指标。例如,患者的呼吸、脉搏、体温、血压、脉象等症状体征指标就是变量。变量值(value of variable)又称观察值(observed value),是指变量的测定结果。如对研究确定的每个患者进行上述指标观察或测定,得到的结果就是相应变量的变量值。
统计资料按观察指标即变量的性质分为计量资料、计数资料和等级资料。
1.计量资料(measurement data) 又称定量资料(quantitative data)或数值资料(numerical data),是由仪器、工具或其他定量方法测定的某项指标量的大小所得到的资料。例如测量100名男大学生的身高所获得的资料就是计量资料。
2.计数资料(enumeration data) 又称定性资料(qualitative data)或无序分类资料(unordered categorical data),是将事物按不同的属性归类,清点每一类的数量多少所得到的资料。根据类别数的不同,计数资料分为二分类资料(binary data)和无序多分类资料(unordered categorical data)。例如将100名大学生按性别分组:男37例,女63例,此资料就是二分类资料;按ABO血型分组:A型39例、B型22例、O型15例、AB型24例,此资料就是无序多分类资料。
3.等级资料(ordinal data) 又称半定量资料(semi-quantitative data)或有序多分类资料(ordered categorical data),是将事物属性按组别之间程度或等级差别进行归类所得到的资料。例如用某中药治疗某种疾病患者50名,按临床疗效等级分为痊愈23例、显效15例、好转7例、无效5例,此资料为等级资料或有序多分类资料。
根据分析的需要,资料间可进行相互转化。可将计量资料转化为计数资料或等级资料;反过来,计数资料和等级资料可通过数字编码即数值化方式,转化为计量资料。需要注意的是,计量资料变为计数资料或等级资料时信息量将减少,因此在收集数据阶段应尽量收集计量数据,并用原始计量资料建立数据集。
对资料作统计处理的许多方法是来自对随机变量的研究。随机变量有连续型随机变量(continuous random variable)和离散型随机变量(discrete random variable)。连续型随机变量是指在某一区间内可取任意值的变量,如身高(cm)、体重(kg)、血压(kPa)等;离散型随机变量是指在某一区间只可取有限的几个值的变量,如家庭人口数、脉搏(次/分)等。
计量资料对应的变量可以是连续型随机变量,也可以是离散型随机变量;计数资料和等级资料对应的计数变量和等级变量只能是离散型随机变量。
另外,计数变量又称名义变量(nominal variable),是指各种被命名的分类,在各种分类中没有隐含的顺序,这与等级变量不同。但是,等级变量中各分类之间的差异不能被认为是相等的。
统计资料除上述类型外,还有圆分布资料(呈周期性变化规律或表示在圆周位置上的资料)和随访资料(随访观察对象远期效果常用未达到预定观察终点的不完全数据的资料)等。