上QQ阅读APP看书,第一时间看更新
第五章 数据的统计学处理
第一节 医学论文中的统计描述
撰写医学论文的目的是报告医学实验或观察结果,通过分析结果提出新发现、新见解、新观点等,无论是实验结果、观察结果、还是分析结果,或多或少地都会用到统计描述,常用的统计描述方法有统计指标和统计表。
一、统计指标
统计指标是表示数据分布特征、有特定统计学意义的一个或一组数值。统计指标是统计分析的基本依据。
(一)描述计量资料的统计指标
描述计量资料的统计指标主要有平均数指标(算术均数 、中位数M等)和变异指标(标准差s和四分位数间距Q等),在进行统计描述时,只有将平均数指标与变异指标共同使用才能较全面地描述一组数据的分布特征。
1.频数表的编制
对于定量测量结果,当样本例数较大时,通常不一一列出各测量值。此时,应将所有测量值中最小值与最大值之间的范围划分成若干等长度的组段,以各个组段内的变量个数作为频数编制频数表。由于样本量有限,组段的数目不宜过多或过少,通常取10个左右,组段长度(组距)的选取以方便阅读为原则。各组段首尾相接,每个组段的上限U等于下一个组段的下限L,测量值x的归组统一规定为L≤x<U。起始组段的下限和最后一组的上限应分别包含最小值和最大值。
2.算术均数简称为均数,记为 。算术均数的计算要求资料近似服从正态分布。计算均数的方法是将各观察值 X 1, X 2,…, X n,相加,除以观察例数,即:
3.中位数记为M,适用于各种分布类型的资料,计算方法是将一组数据从小到大排列后居中的数据值。
4.四分位数间距记为Q,是75%分位数 P 75和25%分位数 P 25之差,即 Q= P 75— P 25,所谓百分位数 P X是将全部观察值分为两部分,理论上 X%的观察值比它小,(100— X)%的观察值比它大,中位数M是50%分位数 P 50。在频数表上,百分位数的计算公式为
其中 P X为百分位数, L为欲求的百分位数所在组段的下限, i为该组段的组距, f X为该组段的频数, n为总频数, 为该组段以前的累计频数。
四分位数间距常与中位数一起描述偏态分布资料的分布特征。
5.标准差标准差记为S或SD,计算公式为
在实际应用时一定要注意统计指标各自的适用范围,否则统计描述是不准确的甚至是错误的。一般地,正态资料或对称资料用
描述,偏态资料用M和Q来描述。在不能确定数据的分布类型时,应选用M和Q进行统计描述。
(二)描述计数资料的统计指标
计数资料即定性观察结果,描述计数资料的统计指标有绝对数和相对数。绝对数是原始资料经汇总得到的小计或总计数。相对数是两个有关的绝对数之比,主要包括率和构成比。
1.率
说明某现象或某事物发生的频率或强度。可用100%(百分率)、1000‰(千分率)、100 000/万(万分率)、1000 000/10万(十万分率)来表示。
比例基数的选用一般依习惯,计算结果保留1~2位小数。
率的正确使用需要注意以下几点:
(1)分子为阳性数,分母为(阳性+阴性数)。通常先确定分母作为观察对象后,再在一定条件下清点某现象的实际发生数,如阳性发病数、死亡数等。当公式(5-4)中分母较大时,率近似等于概率。
(2)当计算麻疹这样具有终生免疫力的传染病发病率时,分母不应该包括已患过麻疹的那部分人。
(3)率只与本身的频率或强度有关,而不受其他数据的影响。如某地红眼病的流行不会导致该地肝癌死亡率下降或上升。
2.构成比
表示部分在全体中所占的比重,又称百分比。各组成部分所占比重之和必为100%。
式中
3.相对数的应用问题
医学论文中相对数应用的主要问题之一是误将结构百分比当作率来使用,因为计算结构百分比的数据比较容易得到。以表5-1资料为例,各科感染结构百分比以呼吸内科组最高(22.2%),这只能说明所调查的感染人数中,呼吸内科的人数最多,但不表明呼吸内科发生院内感染的情况最严重。表5-1的感染率说明,血液内科感染率最高(20.0%),感染的情况最严重。
表5-1 某医院部分科室院内感染发生情况
医学论文中相对数应用的主要问题之二是分母较小。分母较小时,相对数的可靠性不能保证,在这种情况下,宜直接用绝对数进行描述而不宜计算相对数。如表5-2资料按AFP值分组后,各组例数较少,尤其是AFP值约为200组,只有4例,由此计算出的好转率50%和死亡率为50%没有实用价值。
表5-2 重型肝炎38例AFP值与预后的关系
二、统计表
在许多医学论文中,作者对于临床资料的一般情况、受试对象的情况及实验(观察)结果多用大量文字描述,繁琐且不明了,若改用统计表描述,则会使读者一目了然。例如,为考察蝮蛇抗栓酶治疗慢性肝病残留黄疸的疗效,将34例慢性活动型肝炎(CAH)及14例肝炎后肝硬化(LC)病人随机分为治疗组和对照组,对两组在病型、性别、年龄、病程、TBiL值等方面的情况及治疗结果用文字叙述较烦琐,若用统计表描述,则简单明了,见表5-3,表5-4。统计表的应用不仅可避免冗长的文字叙述,还可把相关的数字列在一起,既便于作者进行计算、比较和分析,也便于读者阅读。
表5-3 34例CAH病人及14例LC病人随机分组结果
注:数据来自人民军医,2000,43(1):37
表5-4 表5-3资料的治疗结果
注:数据来自人民军医,2000,43(1):37
从外形上看,统计表主要由标题、标目、线条和数字几部分组成。标题一般不超过20字,应简单扼要地说明统计表要表达的内容;标目有横标目、纵标目和总标目三种。横标目用来说明横行的数字,如表5-4中的“治疗组”“对照组”等。纵标目用来说明纵行的数字,如表5-4中的“显效”“有效”等。总标目用来概括若干个纵标目,如表5-4中的“例数”“百分比(%)”等。线条一般为3~4条横线;数字必须行、列对齐,且同一纵标目下数字的精确度应一致。
从内容上看,每张统计表都有主辞和宾辞。主辞为被研究事物,通常列在表的左侧横标目位置,宾辞用来说明主辞,通常列在表的右侧纵标目位置,主辞和宾辞不能混淆或倒置。一张好的统计表,主辞和宾辞连起来能读成一句完整而通顺的话。