1.2 DEM插值算法的适应性
1.2.1 适应性与DEM插值算法的适应性
适应性,《辞海》解释为,“生物体随外界环境条件的改变而改变自身特性或生活方式的能力。”例如,动物的保护色、警戒色、拟态等。
对于DEM插值算法而言,其适应性表现在两个层面。
一是DEM插值参数层面的适应性。George等(2008)提出的“适应性”反距离加权插值算法,就是一种根据插值点周围采样点的数据分布方式的插值参数适应性研究,即根据采样点分布方式的变化而改变权指数的取值。
二是DEM插值算法层面的适应性。影响DEM精度的主要因素包括原始数据精度、插值算法、地貌类型、采样数据分布特征和DEM结构,其中,插值算法是影响DEM精度的直接因素。原始数据的误差通过DEM插值算法传递到DEM表面,但是原始数据精度的高低并不会因为插值算法的不同而产生传递的差异。也就是说,对于同一种插值算法而言,原始数据误差大,那么传递到DEM表面的误差就大;反之亦然。但是,地貌类型、采样数据分布特征产生的误差和原始数据精度产生的误差明显不同。不同地貌类型、不同采样数据分布特征和DEM插值算法的关系是不确定的,某种地貌类型的实验数据可能适合使用这几种插值算法进行插值计算,或者某种插值算法适合这几种地貌类型的实验区域。DEM的结构特征是决定DEM表面和地形表面相互吻合程度的因素,当使用规则格网时,DEM结构对DEM精度的影响主要取决于DEM格网尺寸(尺度)。因此,DEM插值算法层面的适应性表现在:随着地貌类型、采样数据分布特征、尺度等“外界环境条件”的变化,可以选择不同的DEM插值算法。
1.2.2 DEM插值算法适应性研究现状
纵观DEM研究的发展历程,“适应性”命题很少出现在各种文献中,但是在DEM精度或DEM插值算法研究中,许多文献或多或少地涉及了“适应性”的概念和内容。只是研究角度、研究目的的差异,没有特别指明“适应性”的主体和客体。
在广泛参阅DEM插值算法相关文献的基础上,本节将DEM插值算法适应性的研究现状归纳为3个方面。
1.插值参数适应性研究
国内外关于插值参数适应性研究的参考文献较少。
王家耀(2001)在各种插值算法所需最少采样点经验值的前提下,提出了基于搜索圆和搜索正方形的自适应搜索方式,提高了插值效率。
汤国安等(2005)、武胜林等(2001)根据采样数据分布的情况,在插值算法中加入了方向改正数,使得插值结果更加符合地形各向异性的特点。
George等(2008)指出反距离加权插值算法中权值的确定,不能简单地依赖插值点和采样点之间的距离,而应当根据插值点附近的采样点的空间样式,进而提出了“适应性”反距离加权插值算法。实验结果表明,“适应性”反距离加权插值算法较传统反距离加权插值算法在多数情况下表现更佳;当实验区域的空间结构不能有效地通过实验半变异函数获得时,“适应性”反距离加权插值算法可以比普通克里格插值算法取得更好的DEM插值精度。
2.以提高DEM精度为目标的插值算法适应性研究
插值算法是影响DEM精度的主要因素之一。为了提高DEM精度,许多学者研究了插值算法对DEM精度的影响,以及插值算法在不同条件下的表现效果。因此,以提高DEM插值精度为目标的插值算法比较研究,基本上属于DEM插值算法适应性研究范畴。
吕言(1982)通过对多面函数插值算法和最小二乘配置插值算法的比较研究,认为多面函数插值算法比最小二乘配置插值算法良好,特别适合采样点稀疏的情况。
Zimmerman等(1999)指出,在不考虑地形种类和采样方式的情况下,克里格插值算法的估计精度优于反距离加权插值算法,产生这个结果的原因可能是克里格插值算法考虑了采样数据的空间结构。
Keranc-henko和Bullock(1999)以30个区域的数据作为实验数据,比较研究了反距离加权插值算法、普通克里格插值算法和对数克里格插值算法之间的差异,发现如果基础数据呈现对数分布且数据量小于200个点时,对数克里格插值算法优于反距离加权插值算法和普通克里格插值算法,否则普通克里格插值算法是最成功的插值算法。
Gao(2001)使用3个地形单元的数字化等高线数据,从格网尺寸、采样密度、最邻近高程的个数、距离衰减指数、高程缺失等方面比较了加权平均插值算法、最小曲率插值算法和克里格插值算法之间的差异。实验结果表明,当格网尺寸较大时,不管使用哪种插值算法得到的DEM精度都是相当的。其中,最小曲率插值算法创建的DEM对格网尺寸的变化最敏感;克里格插值算法几乎不受最近邻域中高程个数的影响。但是,加权平均插值算法却严格依赖最近邻域中高程的个数;最小曲率插值算法在处理由于高程缺失的地形不确定影响时,比加权平均插值算法和克里格插值算法更好。
陈联(2005)采用薄板样条函数建立了沙漠地区的DEM,认为薄板样条函数具有的连续、光滑的数学特性,特别适合地面高程没有突变的地区,如沙漠、河床、近岸海底等。
Chaplot等(2006)在研究了DEM精度和地貌类型、采样密度之间的关系后认为,如果不考虑空间结构的可变性,在采样密度足够高的情况下,已有的插值算法几乎没有显著性差别;但是,在低采样密度、强空间结构、低变异系数、弱各向异性时,克里格插值算法有较好的估计精度;在低变异系数、弱空间结构时,规则张力样条插值算法有较好的估计精度;在高变异系数、强空间结构、强各向异性时,反距离加权插值算法表现较好。
Fencík和Vajsáblová(2006)以匈牙利的Morda Harmonia地区作为实验区域,比较了基于各种半变异函数模型的克里格插值算法生成的DEM精度,认为基于线性模型的克里格插值算法最适合Morda Harmonia地区,但是文献没有描述其地形特征。
Tran Quoc Binh等(2008)研究了插值算法对DEM精度的影响,认为样条函数插值算法适合山地地形的建模,反距离加权插值算法和普通克里格插值算法适合丘陵和平原地形的插值。
Heritage等(2009)研究了5种不同的采样策略(Cross Section、Bar Outline Only、Bar and Chute Outline、Bar and Chute Outline with Spot Heights、Aerial LiDAR Equivalent)和5种不同的插值算法(反距离加权插值算法、点克里格插值算法、克里格插值算法、最小曲率插值算法、三角线性剖分插值算法)对DEM插值精度的影响。实验结果表明:对于Bar采样数据而言,三角线性剖分插值算法和点克里格插值算法总是可以提供最好的插值精度;对于LiDAR采样数据而言,插值算法没有任何区别;对于Bar-Chute-Spot采样数据而言,三角线性剖分插值算法和点克里格插值算法总是可以提供较好的插值精度。
Maidment(2009)从定性(水网套合分析)和定量(Kappa系数)两个角度分析了4种插值算法对DEM插值精度的影响,实验结果表明:TOPGRID插值算法胜过所有的插值算法,克里格插值算法和径向基函数插值算法的插值精度类似,在平缓地区反距离加权算法插值精度最差。
Caruso等(1998)认为,空间插值用于评估连续区域内的物理数据,但是依据原始数据的不同特征,许多不同的插值算法提供了不同的表现。因此,必须根据数据集的特征,为选择最好的插值算法和评估方法提供帮助。Caruso等(1998)从精度和预测两个方面运用地形粗糙度和空间分布两个指标,评估了各种不同插值算法基于原始数据集特征的表现。
此外,还有一些学者虽然没有明确给出插值算法比较研究的基准点,但是实验结论隐含了插值算法比较的结果。
靳国栋等(2003)运用交叉验证方法比较了反距离加权插值算法和克里格插值算法之间的差异,认为克里格插值算法优于反距离加权插值算法。
史文中(2005)在DEM高次插值算法的精度研究中指出:从总误差(也就是包括模型误差和传播误差的DEM误差)来看,四次插值算法和双三次插值算法的精度要高于双样条函数插值算法。
Jaakkola和Oksanen(2000)在研究基于等高线数据建立DEM的过程中发现:由于三角网在坡度发生剧烈变化的区域通常表现得极其尖锐,因此在将等高线三角化后通过TIN插值得到DEM的过程中,可能在地形形态上存在严重的偏差。他们进一步认为,三角化属于中间步骤,在DEM插值过程中是不需要的。
岳天祥(2005,2006a,2006b)为了从理论上彻底解决长期困扰数字高程模型的误差问题,经过长期和大量的理论研究、实验分析,建立了高精度曲面建模方法(HASM)。数值实验结果表明,HASM的插值精度较传统的DEM插值算法的插值精度提高了多个数量级。
王耀革(2009)认为,目前的局部插值算法和分块插值算法主要由离散的格网数据直接构造连续的地形曲面;但是直接由点位坐标推导曲面方程,不符合几何曲面构造上“由点构成线,再由线构成面”的构造机理,导致在理论上可能存在较大的地形误差。基于此,王耀革提出了基于Coons曲面的DEM表面模型。
3.以提高地形分析精度为目标的插值算法比较适应性研究
DEM插值算法是影响DEM精度的主要因素之一,因此在使用不同插值算法建立DEM并进行相关地形分析时,不可避免地影响分析结果。Fisher(1993)证实不同插值算法形成的DEM会对视场分析产生显著性影响。因此,非常有必要研究不同插值算法对于地形分析的影响,近些年来这方面的研究也在逐渐增多。
韩富江等(2007)基于不同插值算法得到的规则格网DEM,分别进行可视性对比分析和相关分析,得到了不同插值算法对可视性结果的敏感程度。
贾旖旎等(2009)研究了DEM插值算法对坡度、坡向的影响后认为:在坡度方面,样条函数插值算法得到的坡度最精确,其次依次为克里格插值算法、反距离加权插值算法、三角线性剖分插值算法;在坡向方面,样条函数插值算法内插出来的坡向最接近真值,其次依次为克里格插值算法、三角线性剖分插值算法、反距离加权插值算法。
张君(2009)研究了大多数商用软件生成的DEM,认为DEM均存在由于不同的插值算法而导致的差异,并且差异具有空间分布的规律性及负高差多于正高差的特点;进而认为三角线性剖分插值算法适合三维显示、土石方计算等应用,多项式插值算法适合粗差检测等应用。
1.2.3 DEM插值算法适应性研究的主要问题
无论是插值参数层面,还是插值算法层面,其适应性研究的终极目标都是提高DEM精度。因此,当基于原始采样数据进行DEM插值时,插值算法的选择必须非常谨慎,因为它可能对DEM的质量产生较大影响。虽然存在很多插值算法,但中心问题仍然是哪种插值算法在什么环境下最为合适,以及比较各自的插值精度。这是DEM插值算法适应性研究的最终目的,即根据原始数据的特征,选择适合的DEM插值算法,以提高插值精度。但是,在现有DEM插值算法的研究中,多数学者对“哪种插值算法精度最高”这个问题采取了模棱两可的态度,最终得到的实验结论存在较大差异,甚至截然相反。
Mitas指出,不同的插值算法会产生完全不同的空间结果,并且使用不合适的插值算法或不合适的插值变量将产生空间分布扭曲的模型,而基于错误的空间信息可能做出潜在的错误决策(Longley et al.,1999)。
仔细剖析可以发现,DEM插值算法适应性研究面临如下几个方面的问题。
(1)DEM插值算法种类的多样性,导致几乎所有的研究都以某几种插值算法为研究对象开展工作,因而实验结论存在局限性。
经过近半个世纪的发展,已经存在数十种不同的DEM插值算法,因此,没有哪一个研究能够穷尽。通常,研究人员根据应用需求选择几种值得研究的DEM插值算法作为研究对象。对于以研究DEM精度为最终目标的DEM插值算法比较研究,这没有任何问题。但是,以研究DEM插值算法为目标的研究,必须选择尽可能多的DEM插值算法,或者选择常用的DEM插值算法。
卢华兴(2008)尝试提取不同DEM插值算法的核函数,进而建立DEM插值算法的统一模型,以便在研究DEM误差模型时剔除DEM插值算法的影响。对于DEM误差模型而言,这种做法是可行的。但是,以比较DEM插值算法为目标的研究,不同DEM插值算法的核函数存在差异,不同核函数中的插值参数存在差异,插值函数的表达式存在差异等一系列原因导致了统一模型的局限性。因此,回到最简单的表达层面,也就是穷举插值算法,是较为可行的方案。
(2)忽视插值参数的重要性,导致插值算法适应性研究结论存在一定程度的差异。
插值算法通常由一系列可以影响数学函数性质的参数控制。对于用户而言,正确选择插值函数的插值参数是困难的,甚至是不清楚的,这直接导致空间插值变成了一个“黑箱”(Black Box)。因此,稳健的插值算法应当提供可以理解的插值参数,或者向用户提供尽可能多的插值参数提示信息(Jaroslav et al.,2005)。但是现有文献表明,插值算法中关于插值参数选择的研究相对较少,多数学者对于插值参数的选择一般根据经验或直接指定。这可能是得到相左实验结论的原因之一。
在实际应用中,可以使用反复实验的方法获得最佳的插值参数,但是需要很大的努力,结果却有可能不尽如人意。最好的方式是使用交叉验证方法,因为交叉验证方法是一种与用户、DEM格网尺寸无关的方法,可以让我们尽可能将注意力集中在不同的插值参数本身。
(3)地貌类型标准选择的随意性,导致实验结论的差异和相互矛盾。
现有文献表明,几乎所有的研究实验都以小范围区域或某一理论曲面作为实验区域。地貌类型判别标准的不同、测量方法的差异,以及应用层次的区别,造成了实验结论的差异和互相矛盾,这是一个必须面对的现实问题。地貌类型判别标准必须规划到统一的层面,这样DEM插值算法的比较研究才有现实意义,否则所有的比较实验依然停留在基于某个区域的数据、选择某些插值算法、运用某个度量指标、得到某个结论的基础层面。
(4)局部地形特征指标的差异,导致实验结论各不相同。
许多研究试图避开DEM插值算法对地貌类型的适应性研究,直接分析插值过程中的局部地形特征的差异,然后建立DEM插值算法的适应性关系。但是,由于局部地形特征指标的差异,导致实验结论各不相同,如Gao、Chaplot的实验。相对而言,Caruso提出的解决方案可能是比较彻底的,即首先探索性地分析原始采样数据,然后根据原始采样数据描述指标的差异,选择合适的插值算法。但是,Caruso的实验结果没有给出明显的倾向性结论。
综上所述,DEM插值算法适应性研究仍然需要继续深入。
1.2.4 DEM插值算法适应性研究的主要内容
DEM插值算法适应性研究包括4个部分的内容。
1.DEM插值参数的“优选”研究
在DEM插值过程中,在确定DEM插值算法之后,需要根据特殊用途确定一些和插值算法相关的插值选项,包括搜索方式和插值核函数,这些选项统称为插值参数。插值参数是构成DEM插值算法的基本元素,不同的插值参数产生不同的插值误差,有时插值误差的差异非常大。DEM插值参数对DEM误差的不确定性研究是合理运用DEM插值算法的第一步,是保证高精度DEM插值结果的首要步骤。
现有多数文献在涉及“插值参数是如何影响DEM插值精度”,或者“插值参数如何选择”这类问题时,多是一笔带过。例如,在DEM插值算法比较研究中,几乎所有研究者都是在“指定”插值参数的前提下进行DEM插值算法比较的。忽略插值参数对插值精度的影响,会最终导致DEM插值算法比较的准确性失真,甚至导致研究结论完全相反。
因此,DEM插值参数“优选”研究是第一个主要研究内容。
2.DEM插值算法的地貌类型适应性研究
地貌类型是具有共同形态特征和成因的地貌单元。按照地貌成因的外应力可以将其分为流水地貌、湖成地貌、干燥地貌、风成地貌、黄土地貌、喀斯特地貌、海岸地貌等;按照地貌的形态类型可以将其分为平原地貌、丘陵地貌、低山地貌、中山地貌和高山地貌。
地貌类型直接反映地表形态特征,不同地貌类型区域采集得到的采样点数据具有不同表现,反映在等高线的疏密程度和陡峭平缓程度、局部区域内地形特征点、特征线的位置等方面,或者反映在不同的地形特征因子方面,如坡度、坡向、地形起伏度、平面曲率、剖面曲率等。
地貌类型作为影响DEM插值精度的主要因素之一,不同的插值算法适应不同的地貌类型数据,并产生不同的插值结果。因此,在DEM插值过程中必须考虑地貌类型的因素,根据不同的地貌类型选择合适的插值算法。但是,在实际插值过程中,由于需要事先了解原始采样数据的地貌类型,才有可能进行地貌类型和插值算法之间的适应性匹配,这导致在实际插值过程中都使用确定性(根据需要的地貌类型选择相应的实验样区)的例子。不同学者使用不同的分类标准,因此即使同一实验样区也可能存在不同的分类结果。对于插值算法的比较研究而言,这样得出的实验结果差别巨大,甚至截然相反,其根本原因就在于实验区域的地貌类型判别标准的差异。
因此,地貌类型与DEM插值算法的适应性研究(不同插值算法适合何种地貌类型,即插值算法的适应性;何种地貌应当采用哪种或哪几种插值算法,即地貌类型的选择性)的首要任务是,建立不同地貌类型数据的统一判别标准,实现地貌类型和DEM插值算法的适应性研究,这是第二个主要研究内容。
3.DEM插值算法的采样数据分布特征适应性研究
采样数据分布特征包括采样数据的分布方式和密度。
采样数据的分布方式一般可以分为规则采样分布和不规则采样分布。规则采样分布是指采样点在空间上不考虑地形的特征,以规则的几何形状在区域范围内均匀分布采样点。不规则采样分布是指采样点的选择需要兼顾地形的特征。例如,在地形变化缓慢的地区,采样点分布相对稀疏;在地形变化剧烈的地区,采样点分布相对密集。
采样数据的密度指在同一区域内采样点数目的多少或密集程度。对于同一地区,采样点越多,DEM对地形的表达程度就越真实;否则就越粗糙。
采样数据分布特征和DEM插值算法存在较强的相关关系。对于绝大多数DEM插值算法而言,插值过程都是在局部范围内进行的,这在很大程度上依赖局部范围内采样点数据集的特性:一种插值算法可能适合某一个数据集,而对于其他的数据集可能不适合。如果建立局部范围的采样点数据集的特征指标,就可以判断不同DEM插值算法的适应性,即预先判断哪些DEM插值算法适合哪种形式的局部地形,或者哪种形式的局部地形适合采用哪些DEM插值算法进行插值计算。
因此,建立局部地形特征描述模型(采样数据分布方式和密度的统一描述模型),选择最合适的DEM插值算法,保证最佳的插值精度是第三个主要研究内容。
4.DEM插值算法的尺度适应性研究
尺度问题是DEM研究的主要问题之一。作为地形表面的数字化表达,DEM在通过离散方式表达连续变化的地形表面过程中,存在尺度依赖性。这表现在:①原始采样数据的尺度特性影响着插值生成的DEM尺度,即使用某种尺度的原始数据并不能建立任意尺度的DEM数据,因而存在最适宜的尺度范围;②DEM数据的尺度转换问题。经典等级理论认为,每个尺度上的数据都具有其特定的约束体系和临界值,尺度转换必然超越这些约束体系和临界值,尺度转换后所获得的结果可能很难理解。DEM数据的尺度转换可以分为DEM尺度上推和DEM尺度下推。因此,无论是DEM尺度的上推还是下推,都涉及一个合理的、能够理解的尺度范围。这是DEM插值算法尺度适应性研究的重要内容之一。
DEM插值算法的尺度适应性研究的另一个内容是,在建立多尺度DEM时,使用不同插值算法的差异性,即运用不同DEM插值算法建立的多尺度DEM,在插值精度上是否存在显著性差异。
1.2.5 DEM插值算法适应性研究的意义
1.DEM插值算法适应性研究有助于提高DEM插值精度
DEM是地理信息系统中重要的基础空间信息数据源,是GIS、遥感、虚拟现实等领域进行三维空间数据处理与地形分析的核心数据。Goodchild和Dubuc曾经指出,没有以准确数据为基础的GIS是不健全的,并将其比喻为“一位体魄健壮如青年运动员,但智力低于幼儿的决策者”。Alber则十分尖锐地指出,由于现有的GIS不能处理数据、模型和空间操作中的不确定问题,虽然它能以相当快的速度生产各种表面上看来精美无比的产品,但实际上是一堆废物。随着DEM在各行各业的深入发展,人们对高精度DEM产品的需求也越来越强烈。因此,研究DEM插值算法的适应性,验证产生DEM插值误差的各主要因素及其显著性影响,为GIS分析、决策与应用的可信度提供科学、合理的质量标准,为精确制导武器系统和重点目标精确定位提供高精度的DEM产品,为数字城市建设提供高精度的三维地理环境,具有十分重要的理论意义和实际应用价值(王光霞,2005)。
2.DEM插值算法适应性研究有助于建立插值算法评价体系,实现插值算法的“优选”
随着DEM插值技术研究的不断深入,数十种较为完善的插值算法已被提出,这为广大用户进行插值分析提供了简单有效、灵活多样的手段和方法。然而,插值算法的多样性,在一定程度上给用户带来了困扰:如何选择插值方法?如何确定各种插值参数?如何得知插值结果的精度,并进行进一步分析……
正如ESRI Using GeoStatistical Analyst一书所描述的,利用数据探索分析充分地对插值数据在数据采集、数据格式、数据精度、空间分布、空间相关等各方面的知识挖掘,再加上操作分析人员对插值方法特点的熟悉和使用经验,即可成就最为可靠的数据插值结果。但是,纷繁复杂的实际情况往往不能尽如人意:数据的使用者无法得到采集的详尽背景信息;同时,随着GIS应用范围的扩大,实际操作人员亦可能并不具备足够的相关专业知识和经验。这一切都为操作人员和插值结果数据的使用者带来了一定的困扰。
因此,为用户特别是非专业人员或初学者提供足够的辅助决策信息,进而在不同的DEM插值算法之间实现“优选”,是DEM插值算法适应性研究的重要意义所在。