空间内插三大方法介绍
(2014-05-03 22:13:14)转[资源共享] 【学习笔记】空间内插三大方法介绍
插值为栅格数据
什么是插值(Interpolation)?
插值从有限的样本点数据来预测栅格数据中单元的值。它能够用来预测任何地理点数据的未知值如高程、降雨量、化学物浓度、噪声级等等。
由点插值生成的栅格数据,红色加亮的单元表示的是输入的点数据集的值左上图为已知的点数据集。而右上图为通过这些点插值得出的栅格数据。其中,那些未知的单元值通过数学公式利用邻近的已知点的值进行运算来预测。
为什么要插值生成栅格数据?
到研究区的每个地点去测量高度、数量或一种现象的浓度等常常是非常困难或非常昂贵的。取而代之的是,将选择的已知样本点的值按照一定方法扩散开来,给其它的所有点赋予一个合理的预测值。输入的点可以是随机的亦可以是有规律地间隔开的,如包含高度、浓度或数量等测量信息的点。
空间插值的假定条件是空间上分布的地物间的空间相关性。换句话说,距离较近的地物间趋向于拥有相似的特征。比如,如果街道的一边在下雨,你可以在很高的置信度上预测街道的另一边也在下雨。你对城镇的那边是否也在下雨就不那么确定,至于相邻县的天气状况的预测的置信度就更小。依此类推,很容易看出距离样本点较近的点的值比距离样本点较远的点的值更接近样本点的值。这就是空间插值的基础。
应用空间点插值的一个典型范例就是通过一组已测得的高程数据来插值生成一个高程表面。在点图层中的每个符号代表所在位置的已测量的高程值。通过空间插值,对这些输入点间的值进行预测。
距离权重倒数函数
什么是距离权重倒数函数(IDW)?
距离权重倒数插值通过对邻近区域的每个单元值平均运算来获得单元值。距中心愈近的点,其估算值愈受影响。这是一个均分过程,这一方法假设从样本点起的距离对其影响是可变的。例如,当做一个零售点分析时插值生成一个顾客购买力的表面图,距离越远处的顾客购买力受距离影响越小,因为人们更喜欢到离家近的商店买东西。
幂(Power)
利用距离权重倒数插值,可以根据输出点到样本点的距离来控制已知样本点在插值过程中的作用。通过定义高幂,可以将注意力放在最近处的点,预测结果的表面将有更多的细节(即拟合面不够光滑)。通过指定低幂,则可以将注意力放在远处的点,这样,可以得出一个较为平滑的表面。将幂设为2是最常用的,这也是缺省值。
搜索半径(Search
radius)
插值表面的特征也受所选用的搜索半径(固定半径或可变半径)的控制,这一点限制了用于计算每个内插单元值的输入样本点的数目。
固定搜索半径
固定搜索半径需要规定插值时的样本点的最小数目和距离。距离指环形邻域的半径(指的是地图单位)。半径的距离是一个常数,因此,对于每一个插值单元来说,用于寻找输入样本点的环形区的半径都是一样的。而最小数目是指邻域内可用已测点的最小数目。所有落入搜索区内的已测点都将用于每个插值单元的插值运算。当邻域内已测点的数目少于指定数目时,搜索半径将扩大以便能够包含更多的已测点以达到所规定的最小数目。指定的固定搜索半径将用于研究区内每个单元的插值(指的是单元中心)。这样,如果已测点没有均匀散布(有些地方比较稀少),那么,就很容易出现不同的邻域有数目不等的已测样本点来预测结果。
可变搜索半径
利用可变搜索半径,在计算内插值时已测点的数目是给定的,而用于获得内插值的单元的半径距离是可变的。这取决于求算单元到周围指定数目的样本点的搜索距离。因此,有些邻域可能较小而有些较大,这取决于插值单元周围样本点的密度。可以指定一个搜索半径不能超出的最大距离(地图单位),如果某一邻域的搜索半径在获得指定数目的已测样本点之前已达到了最大距离,这一处的插值运算就通过最大距离内的已测样本点来完成。
中断线(barrier)
中断线是指用来限制搜索输入样本点的中断的多段线数据集。一条多段线可以代表悬崖、山脊或其它的中断地形或景观的边界条件。在处理过程中,只能考虑这一边界线同侧的样本点。
注释:距离权重倒数插值操作有两个选项:固定搜索半径类型和可变搜索半径类型。
对于固定搜索半径选项,为每个单元插值运算而用于寻找样本点的搜索环形半径是一样的。通过指定一个最小数目,可以确信在指定的固定搜索半径内,至少有这个数目的输入样本点来进行每个插值单元的运算。
设置高幂是计算更强调最近的一些点,将生成一个更加注重细节却不够平滑的拟合表面。而设置低幂则使较远的点也有较大影响能力,将生成一个较为平滑的拟合表面。
利用中断线来对输入样本点的进行限制,使其仅搜索在与插值单元在中断线(如悬崖、山脊)同一侧的样本点。
运用可变搜索半径,数字代表在计算插值单元值是输入样本点的数目。
样条函数
什么是样条函数?
样条函数通过一个使表面整体曲率减为最小的数学函数来估计单元值,所得表面较为平滑,其拟合表面通过输入点。
形象地说,样条函数就如同拉伸一片橡皮膜一样,使之通过所有样本点并保证整体曲率最小。样条法通过调整数学函数使之适应指定数目的最邻近输入点并通过所有样本点。这种方法最好地模拟了象高程、水位高度或污染物浓度这样的渐变曲面。
样条函数插值的方法
样条函数插值的方法主要有两种:正则化样条插值和张力样条插值。
正则化样条插值
正则化样条插值将生成一个平滑、渐变的表面,而得出的表面的插值可能超出了样本点的取值范围。
张力样条插值
张力样条插值方法将依据模拟现象的特征来调整表面的硬度。将生成一个相对不够平滑的表面,但是内插值则更接近限制在样本点的取值范围内。
可选参数
权重
对于正则化样条插值来说,权重定义了在曲率最小化表达式中表面的三阶导数的权重。权重越高,表面越平滑。这一参数的值必须等于或大于零。可能用到的典型值有0、0.001、0.01、0.1
和0.5。
对于张力样条插值来说,权重定义了张力的权重。权重越高,表面越粗糙。这一参数的值必须等于或大于零。典型值有0、1、5和10。
样本点数目
样本点数目确定了在每个单元插值运算中用到的样本点的数目。指定的样本点越多,插值点受较远的点的影响越大,而拟合出的表面越平滑。
什么是克里格插值?
距离权重倒数插值和样条法插值(前面已讨论过)被归类为确定性的插值方法,因为它们是直接基于周围已知点的值进行计算或是用指定的数学公式来决定输出表面的平滑度的插值方法。
而第二个插值方法家族包括的是一些地统计学的插值方法(如克里格插值),这些方法基于一定的包括诸如自相关(已知点间的统计关系)之类的统计模型。因此,这些方法不仅有能力生成一个预测表面,而且还可以给出预测结果的精度或确定性的度量。
克里格插值与距离权重倒数插值相似之处在于给已知的样本点赋权重来派生出未知点的预测值。这两种内插方法的通用公式如下,表达为数据的权重总和。
在距离权重倒数插值中,权重iλ仅取决于距预测位置的距离。
然而,在克里格插值中,权重不仅建立在已知点和预测点位置间的距离的基础上,而且还要依据已知点的位置和已知点的值的整体的空间分布和排列。应用权重的空间排列,空间自相关必须量化。因此,运用普通克里格插值(OrdinaryKriging),权重iλ取决于已知点的拟合模型、距预测位置的距离和预测点周围的已知点间的空间关系。
利用克里格方法进行预测,必须完成以下两个任务:(1)揭示相关性规则。(2)进行预测。要完成这两项任务,克里格插值方法通过以下两个步骤完成:(1)生成变异函数和协方差函数,用于估算单元值间的统计相关(也叫空间自相关),而变异函数和协方差函数也取决于自相关模型(拟合模型)。(2)预测未知点的值。因为前面已经说过的两个明确的任务,因此要用克里格方法对数据进行两次运算:第一次是估算这些数据的空间自相关而第二次是做出预测。
变异估计(Variography)
变异估计就是拟合一个数学模型或空间模型,象已知的结构分析。在已测点结构的空间建模中,首先得出经验半变异函数的曲线图,计算如下:
半变异函数(距离h)= 0.5*均值[ (在i 位置的值-在j 位置的值)2 ]
用于计算被距离h分隔的每一点对相对应的位置。公式用于计算一点对的差值的平方。下面的示意图显示了一点对中的一点(红色点)的位置和其它所有已测点位置的相应关系。这样步骤延伸了每一个已测点。
通常,每一个点对间都相距有一定的距离,而且又有许多对点对。快速绘制所有的点对并不容易,替代方式是将这些点对归类在不同的步长分组(lag
bins)中来绘制。例如,计算距离大于40米小于50米范围内的所有点对的半变异的均值,经验半变异函数就是这样一个曲线图,其y轴表示平均半变异函数的值而x轴表示距离(或叫步长)(请看下面的图表)。
空间自相关量化了地理学的基本原理;空间分布愈接近的地理事物愈具有相似性。因此,空间上分布愈接近的点对(在半变异函数曲线图上,愈靠近x轴的左边)应该具有更相似的值(在半变异函数曲线图上,愈靠近y轴的下边)。而距离愈远的点对(在半变异函数曲线图上,沿x轴方向向右移动),应该具有更多的不相似性和更高的平方差(在半变异函数曲线图上,沿y轴方向向上移动)。
根据经验半变异图调整模型
接下来的一步就是根据来自经验半变异图的点来调整模型。半变异函数建模是空间描述和空间预测间关键的一步。克里格方法主要用于预测非样本点位置的值。我们已经看过了经验半变异函数如何提供数据集的空间自相关的信息。然而,它不能提供所有可能的方向和距离信息。因此,为确保克里格预测能有正的克里格方差,根据经验半变异函数来调整一个模型(即一个连续函数或曲线图)是非常必要的。理论上讲,这样拟合连续的直线或曲线的方法和回归分析有些相似。
我们选择了一些函数来作为我们的模型——例如,一个球面模型,首先随距离增加而上升,超出一定距离范围后开始变平。该模型与经验半变异函数模型得出的点有一些偏差。一些点在曲线上方,有些点在曲线下方。但是,如果我们将曲线上方的点的偏差值加在一起的值和将曲线下方的点的偏差值加在一起的值相比,将会非常接近。有许多不同的半变异函数模型可供选择。