19 在临床研究中记录并处理日期变量的技巧
19.1 絮叨一下
日期的记录在临床研究中经常用到,如就诊日期、手术日期、患者出生日期、急性疾病的发病日期、预产期等等。对原始日期的记录能够为后续的数据分析带来很多方便。比如,对患者出生日期的记录,其精确性及信息量就明显优于年龄:由出生日期可以计算出患者当前的真实年龄,而由年龄则无法逆向计算出精确日期(前提是要考虑到对患者隐私的保护)。其他日期变量也是如此。
19.2 CRF中日期变量的设计格式
在一个研究中,如果日期资料需要通过额外的填写来收集,其收集方法也存在一些技巧,主要体现在设计临床资料的收集方案和病例报告表(CRF)里面。日期填写看上去很简单,但实际操作过程中,由于医生理解的问题、临床工作紧张、患者不配合等原因,会出现各式各样的填写问题。比如,在缺乏经验的研究者设计的CRF中经常出现这样的日期填写方法“手术日期: ”。这样的空格和说明虽然提示了填写的是患者接受某一“手术”的“日期”,但并未对日期的格式、日期的精确度、填写内容、是否需要填写其他信息等进行限定。因此,在实际操作中有可能出现如下的填写情况(血泪教训):
手术日期:2002/12/31
手术日期:2002年12月31日
手术日期:12-31-02
手术日期:2002年12月
手术日期:大概在2002年到2003年之间
手术日期:2002年做了一次手术,2004年11月又做了一次手术
手术日期:阑尾炎
上面的填写实例中,很多都让人欲哭无泪,为后期的数据录入、数据整理、统计分析带来了麻烦,增加了缺失数据的数量。正因为研究中可能出现各种复杂情况,所以在设计收集方案或CRF时就要对可填写部分进行严格限定,如果您参加过规范的多中心临床研究或药物试验,就能看到用“手术日期□□□□年□□月□□日”的方式设计日期采集栏。通过格子的形式限制了填写的数值位数,并且限制了内容长度和类别,有利于数据有效记录,为后期处理和分析提供了方便。
19.3 日期变量的录入方法
通过数据录入软件进行日期录入时通常有两种方法,一是用一个日期变量录入整个日期(如设置变量“OpData〈yyyy/mm/dd〉”),二是分别设置三个数值变量,分别记录年、月、日信息(如设置变量“OpY ####”、“OpM ##”和“OpD##”)。在这里,我们推荐第二个方法,因为如果仅设置一个变量,当日期填写不完整时,在很多录入软件中都无法继续录入残缺的日期变量,加重了变量缺失的程度,而分别录入年、月、日,则能够保证收集到所有尚可使用的日期。
19.4 SPSS中日期变量的处理和计算
19.4.1 通过年、月、日生成日期变量
分别录入了年、月、日三个变量之后,在数据整理阶段就会面临新的需求,首先就是将三个数值变量合并为一个日期变量。在SPSS中可以通过“转换(T)”菜单的“日期和时间向导”模块完成。
进入向导后,选择“使用包括部分日期或次数的变量创建一个日期/时间变量”日期/时间变量创建界面。
之后如下操作即可。
19.4.2 从日期变量中提取年、月或日的数值
有时,分析者想忽略掉月、日等信息,或仅需要月份/季节等变量进行分析。此时就需要在一个完整的日期变量中抠出一部分数值,也同样可以使用“日期和时间向导”完成该操作。
19.4.3 两个日期变量的计算
我们常常需要计算两个日期变量间相差的天数、月数或具体年数,这些功能也可以通过“日期和时间向导”简单的实现。