第四节 数据说明与研究方法
一、数据说明
本书收集了CFPS、中国家庭收入调查(CHIP)以及中国健康与营养调查(CHNS)三大数据库的调查问卷与相应的各调查年份的数据资料。其中,CFPS数据库包括个体、家庭及社会三个层次2008—2018年8次调查数据,CHIP数据库包括1988—2013年6次数据,CHNS数据库包括1989—2015年10次调查数据。对不同数据库数据进行甄别与清洗,剔除调查数据过少、调查对象单一、信息不匹配等年份,结合本研究需要,主要采用CFPS数据库中2010年、2012年、2014年、2018年相关数据,将CHIP、CHNS数据库用于辅助研究。
CFPS数据库是由北京大学中国社会科学调查中心(ISSS)发布的旨在追踪调查个体、家庭、社区三个层次的数据,涵盖社会、经济、人口、教育及健康等方面的信息,为学者们的各项研究及政府部门制定相关政策提供有力的数据支持。CHIP数据库包含城乡一体化常规住户信息,涵盖收入、消费、就业、生产等层面,根据数据库中的城市代码进行识别,可以获取城市层面的数据。CHNS数据库中涉及居民的收入、支出、健康、营养、财产等方面有价值的信息,为居民家庭成员健康等方面的研究提供强有力的数据支持。
本书对所使用数据库中的样本再次进行清洗,剔除数据缺失或无效信息样本后,将子代作为参照并分离出对应的父代数据,并根据相应的家庭和个体编号对子女样本进行配对,包括同一个家庭中有多个子代的样本,再次剔除关键信息不匹配的样本、剔除父代离职退休及大于65岁的样本和子代年龄小于16岁及仍在上学的样本,并对父代、子代总收入进行上下1%的缩尾处理。整合的配对样本以子代收入变量为因变量,父代收入和各个影响因素为自变量,城乡、年龄等为控制变量的配对样本。本书第五章对我国居民代际收入的弹性测度进行研究,将CFPS、CHNS和CHIP三个数据库的数据作为研究样本。使用CFPS(2008—2018年)数据分析我国居民代际收入弹性的变化趋势;同时,以CHNS(1989—2015年)数据为主样本、CHIP(1988—2013年)数据为辅样本得出更加稳健的弹性测量结果。第五章至第九章以CFPS数据库的数据为样本,研究人力资本、社会资本、财富资本、自然禀赋对居民收入差距代际传递影响程度的测度。