第二章 数据收集、样本概况与质量评价
一 调查数据收集和清理情况
(一)数据收集和核查
2007年调查问卷由调查项目县自行录入,录入完成后项目组于2007年3~6月对双录数据进行检查,查阅问卷修改录入错误,并对结婚年龄、夫妻婚龄差、兄弟姐妹数量、现有子女的年龄和性别等变量进行逻辑检查,检查结果提交项目县进行核对,根据核对结果对数据进行修订。数据清理中特别检查了孕产情况中的活产子女情况与现有子女情况的匹配。
基线调查数据原始样本量为18638例,其中125份为重复调查,最终有效样本为18513例。清理中共发现458例样本出现逻辑错误,占全部样本的2.47%。其中主要问题包括:(1)孕产情况中填写的活产子女与现有子女的性别或年龄不一致,特别是子女性别不匹配,这一问题主要是由于调查员填写问卷时出现疏漏,经过事后核查,所有此类情况均得到解决。在子女性别不匹配和年龄差异较大的样本中,有一部分情况是被调查妇女的活产子女因离婚或子女死亡等原因未填写在现有子女中,同时现有子女并非其亲生子女。针对这一情况,课题组在2010年设计跟踪调查问卷时,特别在现有子女问项中增加了“是否为亲生子女”的选项。(2)兄弟姐妹数量与兄弟姐妹具体情况不一致。例如兄弟姐妹数量只填写了1个,但是却填写了3条兄弟姐妹的具体信息,经过事后核查,多数情况是兄弟姐妹数量的填写有误。(3)结婚年龄填写错误,部分再婚的被调查者填写的结婚年份是其再婚年份,导致初婚年龄偏大或者与其孕产情况不匹配,针对这一问题,在跟踪调查问卷中具体区分了初婚和再婚时间。
2010年跟踪调查数据统一在北京进行双录,由两家录入公司分别录入,双录比对后再分别交给两家录入公司修改录入错误。具体工作流程是:2010年3~5月进行问卷双录;6~7月查找缺失值和逻辑错误,翻问卷修订;8~9月进行第一次匹配,将两次调查中WIS重号及没有匹配上的样本提交项目县核查;10~11月根据各县反馈结果对WIS号进行修订,并在此基础上进行第二次匹配,将两次调查中姓名、年龄、兄弟姐妹数量3个变量差异较大及“是否符合二孩生育政策”两次调查不符的样本提交项目县核查;12月利用反馈的核查结果对数据进行修订,并合并两次调查数据形成最终数据文件。
(二)匹配清理情况
两次调查的匹配主要依据育龄妇女信息系统编码(WIS号)。经问卷核查和匹配,2010年跟踪调查最终获得有效样本20827例,其中15837例为跟踪样本,4990例为新进样本(见表2-1)。从表2-1可见,各地匹配情况略有差异。
表2-1 2007年调查和2010年调查的样本量
资料来源:“江苏生育意愿和生育行为”调查,2007年,2010年。
图2-1给出了各县分年龄的匹配情况,用以检查失访会否给数据分析带来系统性偏误。从图2-1可以发现,太仓市的分年龄跟踪率没有呈现固定的模式,不同年龄的跟踪率都在90%左右。而在其他项目县中,21~26岁的育龄妇女跟踪率相对较低,其中海安县该年龄组的跟踪率在60%以下。
图2-1 各县/市按2010年年龄分的跟踪匹配率
资料来源:“江苏生育意愿和生育行为”调查,2007年,2010年。
图2-2为失访原因。从图中可以看出,造成失访的最主要原因是县内搬迁和跨县搬迁,两者合计占全部未跟踪调查者的64%,占填写未调查原因的被调查者的85%。搬迁的主要原因分别是拆迁搬家(30%)、婚姻嫁娶(30%)、务工经商(12%)和学习培训(10%)。而其中婚嫁和学习培训都主要发生在低龄调查对象上,这也是低龄组失访率较高的主要原因。
图2-2 失访者原因和迁移原因
资料来源:江苏生育意愿和生育行为调查,2007年,2010年。
为了进一步确定失访对数据分析可能造成的影响,表2-2给出了跟踪样本和失访样本在一些关键变量上的分布情况。从表2-2给出的数据可以看出,跟踪样本和失访样本在农业户口比例上不存在显著差异。失访样本中高中以上文化程度、基线调查时没有工作、未婚和已婚未生育的比例相对较高。不过由于本次调查总体的跟踪率较高,因此少量的失访样本对样本总体分布的影响不大,表现为全部样本和跟踪样本在各个变量上的分布较为一致(见表2-2)。
表2-2 跟踪样本与失访样本的主要变量分布
资料来源:“江苏生育意愿和生育行为”调查,2007年,2010年。
(三)匹配数据质量检查
为了检验跟踪样本的基本信息是否会有较大的不一致,在数据清理中检查了跟踪样本的出生年月和兄弟姐妹数量,检查结果如表2-3和表2-4所示。从表2-3和表2-4中可以看出,跟踪样本两次调查出生年月的一致率较高,六县/市合计有96.7%的跟踪样本出生年月误差在12个月以内,仅有1.8%的样本误差在2年以上。兄弟姐妹数量的准确率略低于出生年月,有4.1%的样本兄弟姐妹数量的误差在2个及以上,其中东台和大丰的数据质量低于其他项目县。考虑到两次调查出生年月误差超过2年和兄弟姐妹数量误差超过2个的变量可能会给分析带来一定的影响,课题组通过与项目县进行复核,确认了这些样本的出生年月和兄弟姐妹数量,分别对两次调查的数据进行了修订,并在合并的数据后增加了两个变量,p112a1为核查后的被调查者兄弟数量,p112a2为其姐妹数量。但是经过修订后,这些样本在合并的数据中至少有一次调查的兄弟姐妹数量与其具体结构不一致。
表2-3 匹配样本出生年月误差情况
资料来源:“江苏生育意愿和生育行为”调查,2007年,2010年。
表2-4 匹配样本兄弟姐妹数量误差情况
资料来源:“江苏生育意愿和生育行为”调查,2007年,2010年。
另一个数据分析中可能用到的关键变量为被调查者(特别是已经生育过一个孩子的被调查者)是否符合二孩生育政策。由于两次调查中该问题均为调查员根据被访者情况进行判断,因此可能存在一定误差。数据清理中发现有7.1%的被调查者在两次调查中符合政策的情况不一致,对此课题组利用项目县的WIS系统复核了被调查者是否符合二孩生育政策的情况,并对相关数据进行修订。
在数据清理和数据匹配完成后,课题组在合并数据中增加了一项利用未修订数据生成的跟踪调查数据质量评价指标(pipei),其具体赋值如下:“1”为匹配较好(年龄误差2岁及以下、兄弟姐妹数量误差1个及以下,教育程度差异1个级别及以内,政策变量没有问题);“2”为匹配一般(政策变量没有问题,年龄误差2岁以上、兄弟姐妹数量误差1个以上,教育程度差异1个级别以上,这几个条件任意满足一个);“3”为匹配较差(上面的几个条件有2个以上不匹配);“4”为政策变量有疑问,但其他变量匹配较好或一般。在全部跟踪的15837个样本中,有84.7%匹配较好,7.5%匹配一般,0.7%匹配较差,7.1%政策变量有疑问。由于数据中已经根据项目县的WIS系统对政策变量做出了修订,因此如果只分析被调查者是否符合政策可以直接使用修订后的数据。
二 调查数据质量评估
(一)年龄结构
由于调查采用的是整群抽样,因此样本对于调查项目县具有较好的代表性。从表2-5给出的数据可以看出,除低龄组样本略有偏低外(主要原因可能为被调查者外出打工或上学),样本总体的年龄结构分布均与WIS系统高度一致。同时,从表2-5中还可以看出,项目县农业户口25~34岁育龄妇女比例低于非农户口,由于调查样本中村委会和居委会的抽样比例为1∶1,而项目县农业户口的育龄妇女占全部育龄妇女的3/4以上,这也意味着基线调查中非农业人口的抽样比显著偏高,因此不分城乡的样本无法代表项目县的总体情况,在相应的研究中应根据实际情况分城乡或分户口性质分别进行分析。
表2-5 2007年调查WIS系统和抽样样本的年龄分布
注:由于样本中有一定数量的40岁人口,为便于与WIS系统数据比较,这里只比较了39岁及以下人口。
资料来源:项目县2006年底WIS系统汇总数据,“江苏生育意愿和生育行为”调查,2007年。
(二)婚姻状况
在6个样本县/市的全部WIS数据中,农业户口和非农户口的18~39岁未婚人口比例分别为22.1%和20.1%,而样本中同年龄组未婚人口比例分别为14.9%和18.4%。简单对比可知,非农户口样本与WIS系统的数值较为接近,而农业户口样本中未婚比例明显偏低。从图2-3给出的WIS系统与样本的分年龄未婚比例同样可以看出这一趋势,农业户口从20岁开始,未婚比例即显著低于WIS系统数据,表明调查样本遗漏了部分未婚样本。未婚样本在调查中比例较低并不仅体现在基线调查中,前面分析的失访人口特征也表明未婚人口的跟踪率也显著低于已婚人口。这一现象应该与未婚人口流动更加频繁有关。此外,WIS系统数据中登记为未婚的人口也可能存在更新不及时的问题,这也会造成WIS系统中未婚人口比例偏高。
图2-3 WIS系统与样本数据的分年龄未婚比例
尽管调查中对未婚人口的抽样有一定偏误,但是考虑到调查主要分析育龄妇女的生育意愿和生育行为,未婚人口比例偏低对调查的总体影响并不大,只是在专门针对未婚人口的分析时需要注意防止可能的偏误问题。
(三)生育状况
为了比较样本数据与WIS系统数据的育龄妇女生育子女的情况,表2-6计算了20~39岁样本总体及分年龄组的育龄妇女生育子女数量。从表2-6可以看出,样本数据中一孩率高于WIS系统数据,但是非农户口和农业户口的原因不同。非农户口样本数据中生育2个及以上子女的比例显著偏低,而且随着年龄的增加,样本数据与WIS系统数据的差异也随之增大。农业户口样本中生育2个及以上孩子的比例与WIS系统相当,但是通过分年龄组的数据仍然可以看出,每个年龄组样本数据中生育2个及以上孩子的比例也有所偏低。从表2-6中还可以发现,农业户口中样本数据的无子女比例也显著低于WIS系统数据,这同样与抽样样本中农业户口的低龄组样本偏少有关。具体的分县数据分析表明苏北地区的样本偏误要大于苏中和苏南地区,这一情况可能与苏北地区人口流出较多有关。总的来看,尽管样本数据中一孩样本的数据抽样比有所偏高,但是,偏误水平尚在可接受范围之内。由于样本地区生育水平本身就极低(35~39岁育龄妇女生育2个及以上子女的比例不到10%),抽样误差对分析的影响可能并不突出。
表2-6 WIS系统与样本数据20~39岁已婚育龄妇女的分年龄组子女数量
注:样本中包括一些20岁以下和40岁的样本,但由于不是完整的5岁年龄组,不利于比较,这里只比较了20~39岁的4个5岁组数据。
(四)其他变量
前面主要分析了样本数据与WIS抽样框的一致性问题,这里利用2010年调查新增的父母兄弟姐妹变量来粗略探讨数据的可靠性。历次普查数据表明,太仓市的生育水平在20世纪60年代就已经开始下降,因此,问卷中太仓样本的父母兄弟姐妹数量应该低于其他项目县,图2-4给出按被调查者父亲年龄分组的兄弟姐妹数量。从图2-4可以看出,太仓市父母的兄弟姐妹数量明显低于其他项目县/市,各年龄组中被调查者父亲的兄弟姐妹数量一直保持在3个以下,平均比其他项目县低1个左右。此外,国家统计局与东西方中心给出的中国1975~2000年分省生育率的变动情况的估计结果表明,江苏省生育水平下降早于全国,在1980年总和生育率就已经降低到略低于更替水平。从图2-4同样可以看出,父亲来自外省的被调查者在较低年龄组(44岁及以下)的平均兄弟姐妹数量确实要高于父亲来自江苏省内的样本。这一结果可以从一个侧面说明调查数据的可靠性。
图2-4 按调查对象父亲年龄分的父亲兄弟姐妹数量
资料来源:“江苏生育意愿和生育行为”调查,2010年。
三 小结
本章主要介绍了调查样本的数据清理过程、结果及简单的数据质量评价。结果表明,2010年调查跟踪率达85.5%,尽管失访样本在年龄分布、婚姻状态以及受教育程度等方面与跟踪样本有所差异,低龄、未婚、较高受教育程度者比例偏高,但由于跟踪率较高,跟踪样本的相关变量分布与总体差异不大。
通过基线调查数据与WIS系统数据的对比可以发现:在年龄结构方面,调查样本与WIS系统总体数据的一致性较好,但是考虑到城乡之间并非等概率抽样,在分析时应按居住地或户口性质分别进行,在城乡差异较大的变量上,样本对6县/市育龄妇女的代表性可能会受到影响。在婚育结构方面,调查样本中未婚人口及高龄组生育2个及以上孩子的样本偏低。其中未婚人口比例偏低主要体现在农村户口样本中,特别是苏北的2个县,这可能与苏北地区人口流出有关。而生育2个及以上子女比例偏低的主要为非农户口样本,特别是35岁及以上样本。但是较低年龄组(25~29岁)调查样本与WIS系统数据的差异不大,数据误差在可接受的范围内。此外,被调查者申报的父亲兄弟姐妹数量与现实情况吻合较好,可从侧面佐证数据的总体质量较高。
附录:2014年电话跟踪情况与数据评估
课题组委托复旦大学社会调查中心于2014年上半年对接受过2007年或2010年调查的受访者进行了电话跟踪调查,跟踪调查对象为已生育一孩,符合二孩生育政策的妇女,共计3588人。其中成功访问1266人,占35.3%。为便于比较,将号码更新、号码有误和空号定义为“号码错误”;将无人接听、占线、拒访、被访者不在家、不方便访问定义为“访问失败”。六县/市被调查者跟踪情况如附表1所示。从六县/市跟踪情况看,太仓跟踪率较高,东台和大丰偏低,其余三县跟踪率居中。
附表1 六县/市跟踪调查情况
被调查者年龄分布见附图1,总的来看,成功访问的被调查者与号码错误、访问失败的被调查者在年龄分布上不存在显著差异(卡方检验不显著)。从户口性质看,农业户口2812人,访问成功率为34.7%,非农户口627人,访问成功率为35.9%。其他户口类型149人,成功被访率45.0%,总体差异不大。
附图1 被调查者的年龄分布
从被调查者的受教育程度看,大专及以上被调查者访问成功率相对较高(见附表2)。从被访者职业类型看,国有单位职工成功访问率最高,为41.7%;个体或私营企业主成功访问率最低,为30.3%,主要原因是其号码错误的比例偏高(为45.7%)。其他职业类型成功访问率差别不大。
附表2 被调查者受教育程度
子女的性别和年龄对访问率均没有显著影响,其中一孩为男孩的成功访问率为34.8%,一孩为女孩的成功访问率为35.8%。一孩出生年份与被访问率的卡方检验不显著,从附图2也可以看出,成功访问与访问失败或号码错误的被调查者子女出生年份没有显著差异。此外,被调查者兄弟姐妹数量、被调查者丈夫兄弟姐妹数量等变量与是否成功电话跟踪的卡方检验均不显著。
附图2 被调查者子女出生年份分布
在全部成功接受电话调查的1266名育龄妇女中,截至调查时点生育了二孩的为104名,占8.2%;另有10名左右的被调查者目前已经怀孕或已申请二孩指标。总的来看,这些符合政策的育龄妇女实际生育二孩的比例不到10%。分地区来看,海安、张家港和东台生育二孩的比例相对较高,分别为11.4%、11.0%和9.7%;大丰、太仓和如东较低,分别为5.5%、5.9%和6.4%。
分年龄看,由于被调查中有相当部分人群年龄较大,因此在一定程度上压低了二孩生育水平。但即使是2010年的20~24岁和25~29岁年龄组,在2014年电话追踪时生育二孩的比例也仅分别为8.7%和12.3%;35~39岁和40岁及以上符合政策的育龄妇女生育二孩的比例仅分别为2.2%和1.1%。