1.4 数据来源
本书实证研究需全国性调查数据支撑,前期成果基于麦可思中国大学毕业生求职与工作能力调查,本书因而继续采用麦可思调查数据。麦可思是一家第三方权威数据机构,自2009年以来,连续八年编著出版的《中国大学生就业报告》(就业蓝皮书)被各大主流媒体报道,所公布数据也多次被国务院、教育部等引用。麦可思2007届大学生毕业半年后的抽样调查于2008年2月完成,回收问卷约20.3万份。麦可思2007届大学生毕业三年后职业发展的抽样跟踪调查于2011年2月完成,回收问卷约10.95万份。调查共覆盖了全国31个省、直辖市和自治区的2006所高校的1197个专业;覆盖了毕业生能够从事的600个职业和300个行业。较之国内同类调查,麦可思调查在大学生毕业半年后和三年后进行抽样调查,能够比较真实地反映大学毕业生的就业和工资状态,同时还涉及了毕业生对工作认知、工作能力要求及差距等丰富信息。
本书数据是麦可思2007届大学生毕业半年后的抽样调查和麦可思2007届大学生毕业三年后职业发展跟踪调查的一个随机样本,样本量为4059个,这对于麦可思所抽样调查的总体数据来说,具有很好的代表性。表1.2初步呈现了本书数据与麦可思《2011年中国大学生就业报告》公布数据的一致性。将麦可思2007届大学生毕业三年后的抽样调查分布与国家统计局网站数据计算的毕业生实际分布相比较,很显然,两者大体上是一致的。从中我们不难发现,东南沿海发达省区的毕业生占比最多,中部地区次之,西北地区的毕业生占比最少。由此可见,长三角、渤海湾、珠三角地区是大学毕业生的首选之地。
表1.2 本书样本的省区分布与实际分布比例对比
资料来源:麦可思研究院.2011年中国大学生就业报告 [M].北京:社会科学文献出版社,2011.
表1.3还呈现了本书样本的代表性分析,即将省区分布与麦可思2007届大学生毕业三年后抽样调查分布和毕业生实际分布进行对比分析后发现,配对相关系数呈现显著相关性,配对样本均值差异的t检验均不显著,这表明本书样本对麦可思抽样调查数据和全国实际情况具有很好的代表性。由于本书样本中毕业半年后和三年后仍没有就业的大学毕业生仅为76人和61人,占当年调查总数的1.93%和1.56%。样本量较少,使得失业持续期研究受限。本书第五章将以麦可思2008年调查的山东省2007届毕业生为潜在样本,研究工资期望落差对于失业持续期的影响,选择对象是毕业离校时和毕业半年后均无全职工作的失业大学毕业生。在剔除缺失值和异常值后,共计508人。
表1.3 本书样本的代表性分析
注:∗和∗∗∗分别代表在10%和1%的水平下显著。