1 绪论
1.1 研究问题与意义
1.1.1 研究问题及现状
人是社会活动的主体,因此在探讨社会经济发展重大问题时,人口信息是主要的数据和变量。人口普查数据、人口抽样调查数据是国家官方统计机构以各级行政区划为单元对外发布的权威人口信息,为科学制定国民经济和社会发展规划、统筹安排人民生活提供了科学准确的数据支持。但是,只有人口普查数据和人口抽样调查数据远远不够,还需要对这些数据进行深入系统的分析与开发,才能较好实现上述目标。随着科学研究和社会应用的不断深入,人们对于精细尺度的人口数量信息,人口属性信息,人口与自然、环境、社会、经济等数据综合集成分析的需求日益强烈。
当直接使用国家统计部门提供的人口普查数据、人口抽样调查数据等进行如上研究时,可能存在如下不足:①人口分布信息被行政单元匀质化。人口统计所依赖的行政单元与自然单元不一致,在行政单元边界易出现突变(地学研究中的“可变元问题”),不能准确详细地展现人口空间分布特征,不能反映空间属性与人口分布之间的相关关系。②空间分辨率较低,当前能公开获取的人口统计数据多是区县级别的,乡镇街道(以下简称“街镇”)级的人口统计数据根据地区不同酌情公开,人口数据地理精度无法达到科学研究和社会应用的深层次要求,也难以满足社会精细化管理的需求。③对于空间运算和分析的支持较差,不利于可视化和时空对比研究。④与自然、资源以及环境等数据存在空间尺度差异,不能叠加,不利于与多源数据融合,无法进行精细尺度的空间模拟、预测研究。⑤时间分辨率较低,全国人口普查每10年进行一次,时效性较差。⑥调查单元不稳定,行政边界随着时间而变化,使得人们对人口统计数据进行动态时间比较分析变得困难。
对人口普查数据进行深度开发,构建多尺度、高精度的人口空间数据库,对于正确认识人口分布,分析其与资源、环境、社会、经济发展间的相互作用机制,提升社会综合管理能力意义重大。如何打破行政单元对人口数据的束缚,以及提高人口数据的时空分辨率,是学术界相关领域关注的热点问题之一。
因此,针对如上不足,研究人员以愈发强大的现代空间信息技术、海量和快速更新的对地观测(遥感)信息为支撑,以人口普查数据为基础,依据人口分布指示因子,反演出人口在一定时间和空间中的分布状态。同时,将基于行政区划的人口统计数据与自然单元数据共同转换到高分辨率的统一地理格网中进行融合,生成多尺度的人口格网数据集,为深入发掘和展现人口统计数据中隐含的空间信息提供了简捷而精细的空间数据模型,这一过程被称为“人口统计数据空间化”“人口数据空间化”,或简称为“人口空间化”。简言之,人口空间化是指利用一定的方法,对基于较大空间尺度统计的人口特征汇总数据进行空间维度的离散化处理,以得到更小空间尺度上的人口特征。它是“社会数据空间化”和“空间数据社会化”研究的典型代表和重要领域,是其中最活跃、成果最突出的部分。
人口数据空间化的成果是人口格网数据集,它可以有效弥补人口普查数据的不足,并在空间维度对其形成有益补充,具有重要的科学意义和应用价值:①有效打破了行政单元的边界束缚,更为直观真实地反映了人口空间分布规律,并且易于在时间上形成可比数据序列;②具有高空间分辨率,提高了人口分析的地理精度;③空间化后的人口数据以栅格为单位进行存储,与大多数遥感数据一致,因此易与自然地理、夜间灯光等多元数据融合、构建和表达人口空间模型,为从人文、经济、地理系统过程进行分析、模拟、预测提供了统一的空间基准、分析体系和技术支撑。
高精度的空间化人口数据在自然和社会领域中的研究和应用,如灾害风险评估、疫情防控、贫困识别、资源环境与人口交互作用、城市规划等领域,以及加强基层治理体系,统筹推进街镇和城乡社区治理等方面都有重要意义 。人口数据空间化是新时代研究人口空间分布的新方法,是探究人口分布与内部分异特征、探索人口与自然地理要素和社会经济要素关联的重要手段。
因此,以格网为基础的“人口数据空间化”“社会数据空间化”“空间数据社会化”理论、分析方法及其应用,已成为测绘科学、地理学、社会学、人口地理学等学科共同关注的焦点问题之一。但是,当前统计学界和统计学者对“人口数据空间化”的模型方法及应用研究,只有个别定性讨论与展望,系统深入的定性定量结合研究较少。
此外,大数据发展也为测绘科学、地理学、人口学、统计学等的研究带来了巨大机遇和挑战。智能终端,特别是手机、穿戴设备和互联网信息采集等新技术的广泛应用,为人们提供了感知人口分布的多种直接手段,对个体信息的收集变得便捷,丰富的人口/地理空间大数据随之产生。目前研究采用较多的有手机、公交卡、出租车轨迹、社交媒体、兴趣点(points of interest,POI)等数据,它们记录了大量的个体微观位置、行为及各类地面设施信息,具有粒度细、范围广、更新快等特征。这种从微观个体层面感知人口及其分布的方法,建立了人口空间化新模型和人口研究的新范式,但是相关研究才出现不久,还处于探索阶段。
国家和全球大尺度区域人口空间化的理论、方法及数据库建设,在20世纪90年代后期得到大力发展。1994年,全球人口制图研讨会达成共识,认为统一的全球栅格人口数据对跨学科研究具有重要意义,从而诞生了一批全球及国家尺度的人口格网数据集,如中国公里网格人口分布数据集。进入21世纪后,随着地理定量化研究的不断深入,为满足新时代社会、区域规划及其动态管理的需要,国内外对人口空间化理论、方法、应用研究,以及格网数据库建设的需求更加强烈。
人口空间化的概念起源于20世纪末,其本质是基于反映人口分布的因素和模型方法,对一定区域内的人口时空分布情况进行模拟。近30年相关研究成果丰硕,由早期人口空间分布规律定性或半定量简单函数模型,发展到多尺度多源数据综合的复杂模型,按照时间脉络,主要的建模方法有如下几种:
(1)人口密度模型
人口密度模型是早期人口空间化研究常用的模型,基于“人口围绕城市中心呈圆形分布,且人口密度随着人口与城市中心的距离的增加而减小”这一假设展开。由于人口空间分布密度衰减函数的不同,人口密度模型又分为Clark负指数模型、基于高斯分布的Smeed模型和Newling模型等。
(2)空间插值模型
空间插值的理论基础是假设空间位置上越靠近的点,越可能具有相似的特征值。依据空间插值法在人口数据空间化中不同的应用范式,可将其分为点插值法和面插值法。点插值法的基本原理是,用一定抽样规则的点代替表面,然后进行插值加密。面插值法假设人口在各行政单元内均匀分布,基于区域的重叠面积或依据地形、交通等辅助信息将目标区域按性质分类,将人口分布分成能够反映空间变化的地理格网单元,从而生成精细尺度人口分布数据,该方法简单清晰、易于实现,能够保证源区域与目标区域人口总量的不变性,适合精细尺度的人口数据空间化模拟。
(3)统计模型
在人口数据空间化理论的发展过程中,影响人口分布的自然、社会和经济等因素被给予越来越多的关注。统计建模法主要基于遥感信息(remote sensing,RS)和地理信息系统(geography information system,GIS)技术的快速发展,通过土地利用/地表覆盖类型、夜间灯光、居民点、POI等蕴含人口分布的指示信息,遵循“无土地则无人口,不同土地利用类型的人口密度不同”“夜间灯光强度和居民点、兴趣点密度与人口密度呈显著正相关关系”等原则,构建人口分布的多元线性或非线性回归模型,以实现人口数据空间化。该模型所需参数少、易于建模、结果可控,适合中大尺度人口数据空间化模拟。但是,在实际应用统计建模法时,要注意不同尺度下应考虑的影响因素存在差异,如在省级尺度下应主要考虑地形地貌等因素,在城市尺度下则应重点考虑土地利用类型、居民点、POI等因素。
近年来,高维复杂大数据的分析方法得到了快速发展,人口空间化模型开始向着机器学习模型发展。当前,在人口空间化中常用的机器学习模型有浅层机器学习单模型,如随机森林(random forest,RF)、神经网络、极限梯度提升(extreme gradient boosting, XGBoost)、 Cubist模型等;集成模型,如加权平均集成模型和堆叠集成模型;以及深度卷积神经网络、深度神经网络和深度随机森林模型等。与多元线性回归、地理加权回归相比,机器学习模型具有无须考虑多元共线性问题、能够避免出现过拟合问题、模型结构灵活多变且适合处理高维特征数据等优点,适合城市地区精细尺度人口分布模拟,易于描述城市内部的人口分布特征,具有强大的复杂计算和时空动态模拟功能。在人口空间分布的预测上,近年来的研究也有出色表现,如Stevens和Ye都认为,由于机器学习模型具有灵活的算法和强大的管理能力,因此能够有效处理复杂的非线性数据关系。
(4)智能化模型
上述三种人口空间化的建模过程都是“自上而下”的“粗尺度”向“细尺度”下推的过程。相较而言,人口空间化的智能化模型方法简单,但较依赖于样本,普适性较差;并且通常直接将较大统计单元获得的模型用于小尺度人口估算,较少考虑尺度效应;自动化程度较低,难以分析人口分布成因,且因精细尺度的人口样本较难获取,所以不太适用于高空间分辨率人口分布模拟。柏中强等认为,想要用单一的思想及模型准确表达人口空间分布的内在机理是不可能的,人口空间化理论的前沿研究是集成了影响人口分布的多要素,进行的多模型的人口空间化自适应、智能化方法研究。近年来,迅猛发展的移动位置服务产生了海量的地理空间大数据,为人口空间化模拟提供了新的数据源;同时,有关研究人员借助计算机多智能体仿真模拟技术优化算法,并进行人工人口合成,构建出“自下而上”的建模方法。人口空间化的智能化模型不仅能获得微观上的人工人口个体数据,而且能够汇聚成宏观上的人口分布模式 。
综上所述,近年来人口空间化研究呈现出“建模因素综合化、数据获取多元化、模型应用实用化”等发展趋势。建模因素综合化,是指人口空间化模型从简单负指数、核密度估计模型,向综合考虑自然、经济因素影响下的分区密度、多元回归、多因素融合模型发展。数据获取多元化,是指数据来源从采用单一的人口密度、距离、土地利用类型、夜间灯光等数据,到综合考虑地形地貌、交通、城市规模、居民地等,到引入建筑物轮廓及体积、公共设施等多源数据,再到引入机载激光雷达(LiDAR)点数据、社会感知数据等新型数据。模型应用实用化,是指当前的人口空间化模型都基于某一格网尺度(如1km)、某一年份人口普查数据,因此需要加大格网尺度效应研究,构建多尺度人口格网动态数据集,特别是精细尺度城市人口格网数据集,拓展其在人文、社会地理研究、应急管理、城市规划等领域的深入应用。
在人口空间化模型日益丰富,结果精度不断提高,人口格网数据集不断增多的情况下,由于人口分布规律的复杂性和建模方法的局限性,现有研究成果主要集中在利用传统数据对人口数量(或人口密度)进行空间化模拟上,对人口空间分布规律和机理、精细尺度城市人口数据空间化模型、人口属性数据空间化、长时间序列数据、数据集验证、人口数据空间化应用等方面的研究还需加强和深入 。特别是在诸多社会和经济特征中,人口数量的时空分布研究最为成熟,它经历了从单一数据源到多种数据源、从一般格网化到带有空间信息的格网化、从低时空分辨率到高时空分辨率的发展。虽然城市人口的性别、年龄、民族和受教育程度等特征可基于社交媒体数据预测得到,但尚不成熟,还需进行深入研究。
因此,为应对科学研究和社会应用对人口普查数据的新需求、适应大数据新技术发展,我们应创新人口数据及其属性的空间化方法,提升人口普查数据的开发与应用层次。本书从统计学的视角出发,以“人口普查数据”的深度应用为研究对象,不仅对人口数据空间化的创新模型进行了研究,而且对人口属性信息空间化的方法与应用进行了深入探讨。