三、实证模型的设定与数据来源
(一)模型设定
本文重点考察地区代际流动性对居民家庭消费及消费结构的影响,借鉴已有研究,首先将基础模型设定为:
其中lnci为居民i的消费总量、生存型消费支出、非生存型消费支出,Igm_pro为地区代际流动性,Xki是影响居民消费总量、生存型消费支出和非生存型消费支出的控制变量。∈i表示随机干扰项。
其次,将被解释变量更改为收入差距变量,使用基尼系数作为中介变量,测度收入差距,探究代际流动对收入差距的影响:
最后,在基础模型中加入收入差距变量,同时探究地区代际流动性和收入差距对居民家庭消费的影响:
如果式(1)中系数Igm_pro的系数c显著,则说明地区代际流动性显著影响居民家庭消费。进一步检验式(2),若系数a不显著,说明收入差距不具备中介效应;反之若系数a和式(3)中系数b都显著,则必定存在中介效应,其中中介效应占总效应的比例为。
(二)指标构建
本文借鉴阳义南、连玉君(2015)依据自评的社会地位来测度地区代际流动性。
和分别代表子代社会地位和子代14岁时家庭的社会地位,中国综合社会调查(CGSS)将受访者的阶层认同划分成1~10个等级。proij是省份的虚拟变量,当第i个个体所属省份为第j省时,proij赋值为1,否则为0。通过方程得到的回归系数βj即为j省的子代社会地位受父代社会地位影响相关程度,1-βj即式(1)中的Igm_pro为该省份的代际流动性,代际流动性越高意味着子代发展受父辈影响越小。
(三)变量选取
1.被解释变量
本文的研究对象是家庭消费及消费结构,为进一步考察地区代际流动性对不同消费类型的影响,参照已有文献,将消费分为生存型消费和非生存型消费两类。CGSS2017调查问卷中包含了10类支出,其中生存型消费包括居民家庭的衣、食、住、行消费;文化娱乐、教育培训、耐用品消费等为非生存型消费。
2.核心解释变量
本文重点研究地区代际流动性对居民家庭消费的影响,所以本文的核心解释变量就是地区代际流动性。现有文献中对于代际流动的测度方法众多,学者通过父子两代人的收入测算代际收入弹性来表征代际流动性大小,但由于永久收入无法准确测度,学者又针对如何正确测度代际流动性提出了诸多方法,其中具有代表性的有如下测度方法:刘小鸽等(2018)认为,个体受教育程度与个体永久收入高度相关,通过教育程度测度代际流动性是通过代际收入测度的理想代理变量;阳义南、连玉君(2015)采用主观法测量代际流动性,根据被调查者自评的社会地位和14岁时家庭的社会地位来测度代际流动性。除此之外,还有学者采用国际社会经济地位指数(ISEI)来测量个体的社会地位,这种测量方法是一种可以客观测量代际流动的方法,它综合了职业、收入等多种社会经济因素进行赋值从而得到个体的社会经济地位。由于CGSS2017在数据清理后关于子代的职业缺失值较多,删除缺失值后,会极大减少样本量,所以本文借鉴了连玉君的主观测量法来测度地区代际流动性。
3.中介变量
本文采用基尼系数作为中介变量来衡量收入差距,考察地区代际流动对居民家庭消费的影响中的收入差距是否具有中介效应。
4.控制变量
本文重点探究地区代际流动对居民总消费水平及不同类型消费的影响,因此选取地区代际流动为核心解释变量。除此之外,影响居民消费的因素还有年龄、性别、是否党员、个人收入、健康、婚姻以及是否购买商业性医疗保险、是否使用互联网、居住地是农村还是城市等。
(四)数据来源与描述性统计分析
本文使用的数据来源于中国人民大学实施的中国综合社会调查。该调查始于2003年,每年对全国各地一万多户家庭进行抽样调查,是我国第一个全国性、综合性和连续性的学术调查项目,定期、系统地收集了社会、社区、家庭、个人等多个层次的信息,数据具有较强的代表性。本文使用的数据是CGSS最新的2017年数据,此次调查以多阶分层抽样的方法进行,调查内容分为四个部分,主要涉及人口属性、家庭特征、社会态度、消费支出等。本文研究内容主要涉及A部分的核心模块和D部分的家庭问卷。
根据研究需要,本文对原始数据进行了清理。首先依据本文的被解释变量居民消费水平、消费结构以及测度核心解释变量地区代际流动的变量“社会地位”,删除了缺失值,同时删除了对问题“拒绝回答”“不知道”的样本,且对家庭消费支出的离群值做了缩尾处理。对被解释变量家庭总消费支出、生存型消费和非生存型消费分别取对数。对被调查者2016年收入也取对数。对婚姻状况的调查,根据调查情况分为单身和非单身两类,分别赋值0和1。将同居、初婚有配偶、再婚有配偶视为非单身,其余视为单身。对是否使用互联网,依据使用频次划分,从不使用赋值为0,其他使用频次归类赋值为1。对身体健康状况中比较健康和很健康赋值为1,其余情况赋值为0。被采访者户口性质分为城市和农村,分别赋值1和0。性别分为男和女,分别赋值1和0。政治面貌分为党员与非党员,分别赋值1和0。最后删除不符合条件的样本,经过筛选最终保留2608个有效样本作为本文的重点观测对象。主要变量的描述统计如表1所示。
表1 描述性统计分析
续表