机器学习数据处理说明
(2022-04-13 13:48:51)分类: R |
气象数据,植被数据,土壤数据,地形数据均采用GEE下载为主。
将上述数据下载完成后,首先需要做的就是重投影同时重采样:
除LUCC, SoilType,merit
DEM采用最近邻法重投影(上述3个单独处理),其余均采用的双线性内插的方法
参考依据:https://support.esri.com/en/technical-article/000005606
三种重采样方法;最近邻、双线性插值和三次卷积确定在完成几何运算后如何确定输出栅格的像元值。使用的方法取决于输入数据及其在执行操作后的用途。最近邻法最适合用于土地利用分类或坡度分类等分类数据。进入网格的值保持完全相同,2
输出为 2,99 输出为 99。输出单元格的值由输入网格上最近的单元格中心确定。最近邻可用于连续数据,但结果可能是块状的。
双线性插值使用四个最近单元中心的加权平均值。输入像元中心越接近输出像元中心,其值对输出像元值的影响就越大。这意味着输出值可能与最近的输入不同,但始终在与输入相同的值范围内。由于值可以更改,因此不建议将双线性用于分类数据。相反,它应该用于高程和原始坡度值等连续数据。
三次卷积查看距离输出最近的 16
个单元中心,并通过这些点拟合平滑曲线以找到值。这不仅会改变输入的值,而且还可能导致输出值超出输入值的范围(想象表面上出现下沉或峰值)。这种方法也不推荐用于分类数据,但在平滑连续数据方面做得很好。
DEM数据做一个说明,采用的是meritDEM,这个数据源是hengl推荐的从GEE上下载的;下载的时候,采用的重采样方法为双线性内插法,具体代码实现为:
var DEMHKHbilinear =
DEM.clip(HKHALB).reduce(ee.Reducer.mean()).resample('bilinear');
数据下载完成之后,首先重投影重采样到HKHAlbers250m,接着将其转化为整形数据。
接着将其放入SAGA软件计算:基本地形指标15类+TPI+TRI+MVBT2类,总计19类地形指标。
除以上数据,还需要土壤深度数据和LIMW岩性数据,海岸线距离,xy数据。这几个数据需要手动处理。
岩性数据来自datastack中LIMW,,数据来自hengl书中文献的推荐。而岩性数据处理稍微麻烦,但要记住nadata设置为了-9999;详细的
处理是
岩性数据为全球的矢量数据,将其采用研究区矢量边界裁剪clip,裁剪工具选择analysis工具中提取分析的clip。裁剪好了之后,将其导出并转化为albers投影。接着将裁剪并投影好的矢量按照Litho属性将矢量转化为栅格。最后在栅格属性表中删除Litho字段(直接在属性表右键删除即可)只留下value值。
土壤深度数据来自
https://daac.ornl.gov/cgi-bin/dsviewer.pl?ds_id=1304;是隶属于美国nasa的earth
data。里面包含6个数据,我们采用第一个数据average_soil_and_sedimentary-deposit_thickness.tif。数据的说明中显示土壤深度的单位为m(https://daac.ornl.gov/SOILS/guides/Global_Soil_Regolith_Sediment.html)。具体处理为:先裁剪,接着重投影转化为albers250m分辨率(双线性内插),最后导出将na设置为-9999。也就是现在的-9999值区域已经变成nodata了,而最后我们的数据是不能存在nodata的,因此,后面还需要将nadata转化为-9999.
注意土壤中的氮素数据和阳离子交换量数据是采用的Mollweide坐标系,不是常规的wgs84坐标系,因此,需要将其预先定义,然后转化为albers.
FBCBBCFB数据处理比较麻烦,先从论文中下载到数据之后,是nc数据,需要在arcgis的多维工具multidimension
tools中选择netCDF转化成为raster的工具。两个可选项可以空着,其余的默认就可以。只是nc文件需要每次都打开。然后这个数据是没有坐标系的(默认是WGS84坐标系),需要将数据框首先该为wgs84坐标系,然后将其导出为当前数据框的坐标系。
coastline
distance来自于美国noaa网站-https://oceancolor.gsfc.nasa.gov/docs/distfromcoast/。
除上述数据,还需获取x y 数据,通过R语言实现。
前一篇:清屏命令dev.off()
后一篇:R中如何在两行中间插入一行或一列