前言
人口数据是社会和经济发展关注的核心基础数据之一,传统的人口普查数据时空分辨率较低,存在可变元、时空尺度差异、调查单元不稳定等问题,难以满足科学研究和社会深入应用研究的需要。因此,深度开发人口普查数据,构建多尺度、高精度的人口普查格网数据集,对于正确认识人口分布,分析其与资源、环境、社会、经济发展间的相互作用机制,从而提高社会综合管理能力的意义重大。如何打破人口普查数据行政单元的束缚,提高其时空分辨率,是学术界关注的热点问题之一,其中最具代表性、最活跃以及成果最突出的研究则聚焦于“人口数据空间化”(也称为“人口数据格网化”,或简称为“人口空间化”)的研究上。
在人口数据空间化模型日益丰富,精度不断提高,人口格网数据集不断增多的情况下,由于人口分布规律的复杂性和建模方法的局限性,现有研究成果主要集中在人口数据空间化的模型方法上,而对人口空间分布规律和机理、精细尺度人口数据空间化模型、人口属性信息空间化及应用等方面的研究还需加强和深入。因此,为满足科学研究和社会应用对人口普查数据的新需求、适应大数据新技术发展、创新人口普查数据及其属性空间化方法、提升人口普查数据开发与应用层次,本书对人口数据及其属性信息空间化的模型方法及应用展开了深入研究。
本书的研究逻辑如下:
首先,系统梳理了人口空间分布研究与人口空间化的相关文献,总结了城市人口空间分布特征,以及自然、人文、社会、经济等因素与人口分布的关系与作用机理;总结了人口空间化研究的多源建模指标与模型方法,并从实证视角,基于我国超大城市街镇尺度,采用空间统计分析方法和地理探测器模型,对城市人口空间分布的时空特征及影响因素进行实证研究,为后续人口空间化指标选择与模型方法选择奠定了理论与实践基础。同时,综合人口数据空间化方法和统计学发展前沿,进行了基于空间计量模型的人口空间化模型研究、人口空间化时空分辨率提升方法研究,以及基于机器学习的人口空间化模型研究。
其次,基于“自下而上”的建模思想,借鉴人工人口合成方法,采用合成重构法中的迭代比例拟合法、迭代比例更新法,以及组合优化法中的改进遗传算法,以国际微观人口共享数据与国家统计局试点人口微观数据为基础,进行人工人口的合成研究,以及探索智能化模型视角下的人口属性空间化途径。
再次,以上述研究生成的多尺度人口格网数据和人工人口数据集为基础,以我国超大城市成都和武汉为例,展开城市人口空间分布特征、人口分布影响因素识别、人口收缩时空格局、社会空间分异格局,以及传染性疾病仿真模拟等多视角的应用研究。
上述人口普查数据格网化理论与应用研究的主要结论有以下几个方面:
第一,经过近30年的快速发展,关于人口空间化建模指标与方法、人口空间分布规律与机理的研究,已经形成了成熟的建模思想和常用的全球、中国人口空间化数据集;建模方法也从单纯的、静态的格网化方法,逐步向自然、经济和社会因素综合影响下的空间模型过渡,并朝着精细化和动态化模型方向发展。自然地理和社会经济因素是影响人口分布的重要因素,但是其作用效应及途径存在显著的空间异质性与尺度依赖性,因此在进行大范围区域人口空间化建模时,首先需要充分研究空间化区域人口的分布特征及其影响因素的异质性。只有将理论研究共性结论与实证研究特性结果相结合,然后再选用适当的多源数据和模型方法,才能生成高精度的人口格网数据集。
第二,对于本书选取的研究对象——超大城市成都而言,其人口空间分布不均衡且悬殊,人口密度以五个主城区为中心,呈同心圆状向郊区急剧降低的态势,人口集中性及不均衡性较强。虽然近年来主城区的人口集聚能力有所减弱,次中心的人口集聚能力逐渐增强,但人口多中心结构仍处于发展阶段,呈零星点状分布,尚未成熟。社会经济因素、自然地理因素均对成都市的人口空间分布具有驱动作用,但自然地理因素对人口分布的驱动作用弱于社会经济发展因素,影响因素之间存在显著的交互作用,特别是当经济因素与社会因素交互时,其对人口空间分布的影响较大。
第三,基于空间计量模型的人口空间化研究发现,相较于多元线性回归(OLS)、地理加权回归(GWR)和时空地理加权回归(GTWR)模型,多尺度地理加权回归(MGWR)模型具有较优的拟合效果和较高的生成精度,表明成都市的人口空间分布是多因素空间异质性与多尺度共同作用的结果。同时,具备体现微观个体实时位置特征的位置服务数据,以及建筑物、住宅小区等AOI数据,与传统人口空间化建模指标相结合,可以有效提高人口空间化结果的时空分辨率,为构建高精度时空分辨率人口数据探索了新的途径和方法。
第四,较为精确地获取和利用多源地理数据,同时利用机器学习的方法能够实现高精度的人口空间分布拟合,而在机器学习模型中,基于RF-XGBoost-MGWR堆叠学习模型拟合的人口空间分布的结果更好,即以多尺度地理加权回归模型作为次级模型,对机器学习捕捉到的影响因素与人口分布的非线性影响进行精度修正,可以实现非线性影响与人口分布的空间分异拟合融合建模,能够最大程度地还原人口在空间中的实际分布。
第五,构建“自下而上”的人口数据集是人口空间化的前沿研究,基于迭代比例更新算法的人口属性空间化研究,在能够获取人口微观样本数据的情况下,其总体的收敛速度和拟合精度也都能够满足进一步研究的需要,尤其是在家庭层面的拟合中,迭代比例更新算法能够有效与属性信息的边际分布匹配;在个人层面虽然有一定的误差,但也能够满足一定的精度需求。在人工人口数据生成的基础上,面积权重模型可以较好地在中小尺度实现人口空间化建模,基于人工人口微观数据的格网化过程既能在数量上与实际情况接近,又能够包含人口的属性信息,是人口属性空间化研究的一种有效方法。
第六,基于迭代比例拟合算法的人口属性空间化研究发现,城市人工人口的生成质量主要取决于微观人口数据源的质量,微观人口数据的属性信息越全面,合成的人工人口数据集的稳定性与精度越高;微观数据的样本量越多,合成的人工人口数据集的精度也越高。经过测试比较发现,由于国家统计局试点开放的人口普查微观数据中的人口属性信息详细、样本量多,因此其合成的人工人口数据集较以世界微观人口数据库生成的数据集稳定性更高、精度更优。合成方法的选择也会影响合成的人工人口数据集的精度。相比于简单随机抽样法与矩匹配法,迭代比例拟合法在家庭户规模分布与户主民族分布的联合约束下,所合成的人工人口属性分布在全市整体与区(市)县层面更接近真实的人口统计特征,且结果更稳定。
第七,基于遗传算法的人口属性空间化研究发现,遗传算法具有的搜索空间范围大,能够进行并行计算等特点,为高效构建人工人口数据提供了有效的可选择方案。在利用标准遗传算法构建人工人口数据的基础上,采用模拟退火算法对初始解进行优化,并选择增加精英保留策略来提高算法的生成精度。对生成数据的误差进行分析可知,采用优化策略的遗传算法生成的数据更稳定且误差更低,但生成过程耗时变长。通过与传统合成方法做比较,也进一步验证了遗传算法用于解决人工人口合成问题的可行性。
第八,针对人口普查格网数据及人工人口数据集的应用研究发现,基于人口普查格网数据的相关分析与上述基于行政区划统计人口的分析比较而言,局部地区的人口空间分布在细节表达上更准确,整体的人口空间化分布的边缘跳跃性较小;人工人口数据集则因其属性更接近城市人口统计特征,在建模时保证了个体的异质性与群体的联动性,因此在疫情防控仿真等基于多智能体的城市微观仿真模拟研究中具有更高的应用价值。
最后,针对当前我国人口数据的管理、人工人口数据的生成与应用情况,本书从政府统计视角,提出提高人口数据的公开性与多样性,加强人工人口数据库建设,提升高时空分辨率人口数据集与人工人口数据集的应用价值,以及积极探索构建高时空分辨率的社会经济数据集等针对性对策建议。
本书分析人口空间分布所用的图均为示意图,仅用作对文字进行辅助说明。本书基于多源数据和前沿研究对人口空间化进行了系统的分析,但由于受到数据可得性的限制,相关问题还存在巨大的研究空间,且笔者学术水平有限,本书仍存在诸多不足之处,恳请广大读者批评指正!
张红历
2024年4月