2.2 空间数据不确定性概念模型
1. 概述
地理空间数据(Geo-Spatial Data)主要包括三个方面的内容,即位置数据、属性数据和时间数据,三位一体构成地理实体在特定位置、特定时间和特定属性含义的空间数据特征。由于现实世界中地理现象本身的不确定性,以及人类认识、抽象和概化地理现象中所存在的不确定性,作为空间信息载体的空间数据在认知、使用过程中都具有不确定性。
空间数据的不确定性按照研究内容可分为位置不确定性、属性不确定性、时间不确定性、逻辑关系不确定性、模型不确定性等,按照研究内涵可以分为四个方面,即:误差、模糊、歧义和不一致。在空间数据不确定性模型研究上,总体的研究程度较低,一般是针对具体某个领域或过程的误差建模。
空间数据的不确定性在数据采集过程中就存在,贯穿于数据的整个流程,有的差错可能被发现,并得到校正,但新的差错又会产生。因此,不确定性问题存在于空间数据的生命周期全过程,只要有空间数据就可能有不确定性存在。空间数据的整个生命周期过程,也就是空间数据不确定性的生命周期过程。Goodchild概要给出了空间数据生命周期流程图[3],如图2-1所示。
图2-1 空间数据生命周期流程图
基于空间数据生命周期的思想,下面从空间数据不确定性的产生、建模、表达和控制给出空间数据不确定性研究的概念模型。
空间数据在其生命周期内的每一个环节都有不确定性产生,如何认识每个环节中不确定性产生的原因和机理,并用具体的模型表达且进行不确定性评价,是空间数据不确定性研究首要的也是核心的问题。空间数据不确定性研究的最终目的,是对其不确定性进行控制,所有这些都最终服务于空间数据质量。空间数据不确定性概念框图如图2-2所示。
图2-2 空间数据不确定性概念模型图
(1)空间数据不确定性来源:该单元给出来空间数据不确定性产生、来源,包括认识过程中的不确定性,并给以简单的描述;
(2)空间数据不确定性建模:该单元包括各种空间分析过程中不确定性模型建立的一般方法和步骤;
(3)空间数据不确定性表达:该单元包括空间数据不确定性的产生、传递,不确定性评价结果的图表、文字及可视化表达;
(4)空间数据不确定性控制:该单元描述了空间数据不确定性控制的流程;
(5)空间数据质量控制:该单元描述空间数据不确定性与空间数据质量间的关系以及提高空间数据质量的概要措施。
2. 空间数据不确定性来源
空间数据在其生命周期的每一个环节都可能存在着不确定性,其来源概化图如图2-3所示。在地理现象认知、空间数据获取、空间数据预处理和空间分析等过程中都有不确定性存在。
图2-3 空间数据不确定性来源概化图
地理现象认知过程中的不确定性在空间数据不确定性来源中是最根本的。Goodchild指出,地理数据的不确定性主要是由于许多地理数据没有清楚的、符合真实情况的定义和概念,因此使得一些地理模型与实体之间出现明显差别[3]。地理现象由于其自身的复杂程度不同,其不确定性在认知和抽象过程中也不同。Francois Salge给出了一个空间数据认知的概念模型,以此为基础扩展的空间数据不确定性认知概念模型如图2-4所示。
图2-4 空间数据认知不确定性概念模型
空间数据获取过程中的不确定性:每一种空间数据采集的方法和过程都受其自身条件的限制而有一定的局限性和不确定性。目前,大量数据及时获取、更新的手段主要是从航空、航天遥感影像和大量现存的地图上采集。遥感影像数据在获取过程中与传感器自身参数、卫星轨道高度、太阳高度角等都有关系,这些因素的变化都在数据采集时带来不确定性。纸质地图在矢量化输入计算机时,由于地图本身、矢量化过程中点的采集规则以及矢量化输入者个人的差异等,会引起最终数据的不确定性和歧义性。
空间数据预处理中的不确定性,包括遥感影像中的各种预处理以及遥感影像、GIS数据格式转换过程中的不确定性等。尤其对于数据格式转换,一些数据在转换后将损失部分信息,造成转换过程中的不确定性。
空间分析过程中的不确定性包括在各种领域应用分析、GIS空间分析以及遥感影像各种分析、计算过程引起的不确定性。这个过程的不确定性与各个分析模块的建模方式、算法有关。
3. 空间数据不确定性建模
在分析了空间数据不确定性的来源之后,就可以对空间数据生命周期内各个环节内的不确定性分析建立数学模型。建模时需要对不确定性的产生过程进行抽象、简化,所以建模本身也有一定的不确定性。如何抽象、概化,以最大限度地模拟空间数据不确定性的产生过程,将直接影响空间数据不确定性的表达与控制。
GIS中的主要不确定性建模问题有:空间实体拓扑关系不确定性建模,空间位置不确定性建模,空间数据属性不确定性建模,DEM(数字高程模型)不确定性建模,空间分析不确定性建模等。遥感影像中的不确定性建模有:高分辨率遥感数据不确定性建模,遥感影像配准不确定性建模,遥感影像分类不确定性建模,多传感器、多角度遥感影像不确定性建模等。各种模型的一般建立流程如图2-5所示。
图2-5 空间数据不确定性模型的一般建立流程
4. 空间数据不确定性表达
空间数据不确定性的表达在其表达对象和内容上,主要有对空间实体点、线、面、实体空间关系以及遥感影像的表达。点的表达一般有误差椭圆,线的表达一般有ε。表达的方式有可视化表达、图表表达、概化等级表达等。用GIS进行空间数据不确定性的可视化表达是不确定性表达的主要表达方法,但空间数据的特殊性(如比例尺、空间特征、计算效率等)对空间数据不确定性的可视化表达提出了新要求。Igor Drecki给出了空间数据不确定性可视化的二元表达法[5],其基本意图是使空间数据和其不确定性能够独立或一起组合起来表达。在独立表达中,空间数据及其不确定性以一个静态图组(数据及其不确定性同时显示在不同的图上)或一个连续图组(先显示数据,后显示其不确定性)来表达,也可以交替显示图组或图顺序。
二元可视化表达的方法主要有认知法、探索法、混合法、不透明法、像元法(方格法)。认知法集中于某一单个方法的发展,一般是用几个用最优法表达不确定性的实例实现来证实该方法的可靠性。探索法给研究者提供可供选择的可视化工具,以创造不确定性表达模型,其比较成功的例子是MacEachren等1993年创立的RVIS系统。混合法提供给研究者大量代表相同不确定性信息的不同可视工具,具体选择哪一个最接近的方法由研究者的个人偏好决定。不透明法和像元法主要用于遥感影像及其不确定性的可视化表达。二元可视化显示途径主要有静态显示和动态显示。静态显示主要有颜色变换、颜色融合、聚焦、三维曲面、模糊渲染等显示方法;动态显示主要有闪烁、移动、滑杆、缩放等方法。二元可视化表达的概化图如图2-6所示。
图2-6 空间数据不确定性的二元可视化表达概化图
5. 空间数据不确定性控制
空间数据不确定性控制是空间数据不确定性研究的根本目的,将贯穿于空间数据生命周期的全过程。只要空间数据存在,其不确定性就存在。空间数据不确定性是除了其位置、属性、时间外的又一特征,它不能被消除,只能控制,即控制其有效性(Validation)、可靠性(Reliability)、适用性(Suitability)和准确性(Accuracy)。这就需要研究空间数据不确定性的控制体系、控制等级和评价标准。不同的需求和使用目的,对数据的要求就不同,最典型的例子,地图比例尺的不同对空间数据要求控制的等级和精度也明显不同。空间数据不确定性控制是个系统控制,它评价、控制数据生命周期内每一个环节的不确定性,以保证各环节数据的可靠性,并追溯验证上一环节的不确定性控制。空间数据不确定性控制的流程如图2-7所示。
6. 空间数据质量控制
空间数据质量和空间数据不确定性研究的目的,都是使得人们能够正确评估特定的空间数据集是否适宜使用。空间数据数量与空间数据不确定性彼此应该是对方在实际应用中的参照,但现在的状况是两者的研究却很少同步、互补。目前,除了空间不确定性中的误差(尤其是误差模型)的大量研究为空间数据质量的准确性提供了必要的参考和指导外,在其他方面空间数据不确定性研究与空间数据质量的研究几乎是形同陌路。
目前,空间数据质量规范是由FGDC(1998)空间数据生产者制定的。它主要模拟了学院派生产者关心的制图产品问题和空间数据转换的问题,而空间数据转换标准制定的机构主要是一些企业和研究机构。空间数据质量(Data Quality)主要有以下6个领域的内容:
(1)来源(Lineage);
(2)准确性(Accuracy):位置(Positional),属性(Attribute);
(3)完整性(Completeness);
(4)逻辑一致性(Logical Consistency);
(5)语义准确性(Semantic Accuracy);
(6)现时性(Currency)。
其中,只有“准确性”方面标准的制定得到了空间数据不确定性研究的验证、补充,其他方面则很少与不确定性的研究建立了联系、参考,使得空间数据质量研究侧重于一些标准的制定而空间数据不确定性的研究侧重于大量误差模型的研究。空间数据不确定性的研究应更多服务于空间数据质量控制,而数据质量控制只是用来保证我们所用的信息达到某一特定质量标准,并非用来说明其数据质量具体内容是什么。因此,空间数据质量控制其实是个标准和控制等级的问题,而空间数据不确定性的控制体系和等级将对空间数据质量的控制有直接的联系和参考意义。
图2-7 空间数据不确定性控制流程