-
土壤中的有机碳库相比于无机碳库更加活跃且总量更大[1],故大部分气候变化研究都将有机碳库作为研究对象,研究表明全球土壤有机碳总量为1.15×103~2.00×103 Pg,约占陆地生态系统碳储量的2/3[2-3]。土壤有机碳在空间上具有高度的变异性,对其进行精确评估对土壤肥力评价及土壤合理利用、全球碳汇及气候变化研究具有重要意义。
-
早期的土壤有机碳估算基于少量土壤数据进行,Rubey[4]使用9个土壤剖面的碳含量,估算出全球土壤有机碳储量为710Gt。Bohn[5-6]在Rubey的基础上根据不同土壤类型和剖面数据,估算出全球土壤有机碳储量分别为2946和2200Gt。Batjes[7] 在前人基础上又增加了厚度、容重、有机碳及砾石含量等参数,估算全球土壤有机碳储量在1462~1548Gt之间。20世纪80年代起,有学者利用生命带类型及其分布面积计算土壤有机碳储量[2]。这种方法难以统计出全球植被类型及其面积,与土壤类型的对应关系也不够准确,且未考虑土地利用等其他因素,难以应用于小尺度区域。20世纪90年代后,基于GIS的空间差值方法得到应用,Galbraith等[8]通过空间插值估算整个研究区的土壤有机碳储量,李海萍等[9]将土壤类型法与GIS方法相结合,在县域尺度上估算了土壤有机碳储量,该方法与土壤类型法类似,只是将结果精确直观地通过GIS展示出来。
-
基于土壤类型法和观测数据的估算,发现该方法成本较高却精度有限。许多学者采用遥感数据反演土壤有机碳,将高时空分辨率影像、反映生态系统碳循环动态变化的过程模型、实测土壤有机碳结合起来,从而提高了结果的空间分辨率[10]。也有学者通过建立遥感数据与土壤有机碳储量相关模型进行估算[11-12],不同学者在不同条件下所使用的模型具有明显的针对性,鲜有县域尺度下的土壤有机碳精确估算研究。
-
模型法能模拟和预测土壤碳储量在自然界中的动态变化趋势,也可解决尺度变换问题,因此能全面细致描述土壤有机碳的含量。随着技术的快速发展,随机森林模型也出现在土壤有机碳的估算研究中,Yang等[13]使用增强回归树和随机森林模型绘制了青藏高原东北部的土壤有机碳含量分布图, Sreenivas等[14] 对比多种土壤有机碳储量预测方法,通过随机森林模型给出各个解释变量重要性的排序。
-
云南省玉龙纳西族自治县(玉龙县)有山地、盆地、河谷3种地貌类型,海拔落差大,山区和半山区占县域总面积的96%以上,地形复杂。因此以其作为研究对象,采用集合方式确定回归树,在县域尺度上进行土壤有机碳储量估算不仅能提高小尺度的估算精度及效率,也为大尺度估算提供精确的基础数据。
-
1 材料与方法
-
1.1 研究区
-
地处云南省西北部的玉龙纳西族自治县,位于青藏高原与云贵高原交界的横断山脉中部,金沙江从西北向东北呈近90°的拐弯,形成了万里长江的第一弯,县域总面积6198.76km2(图1)。
-
图1 云南省玉龙纳西族自治县地理位置
-
玉龙县属典型山地高原,受新构造和河流切割影响,高山峡谷地貌特征明显,海拔1300~4500m,土壤垂直地带性发育完全,依次为亚高山寒漠土(4200~4500m)、亚高山草甸土(3500~4200m)、暗针叶林土(3600~3800m)、暗棕壤(3200~3600m)、棕壤(2600~3200m),黄棕壤广泛分布于2500~2800m地势低凹的湿润山地,1300~2600m为红壤,包含棕红壤、黄红壤、红壤3个亚类,非地带性的紫色土、沼泽土、草甸土及石灰(岩)土等也有分布,见图2。
-
1.2 数据
-
数据主要为土壤采样数据、遥感影像及其派生数据和基于数字高程模型(DEM)提取的地形参数。
-
土壤采样数据主要依据第二次土壤普查技术要求的采样布点原则,于2009年5月至11月进行实地采样,使用棋盘法布点10~15个,取样后采用四分法将1kg土样分开取样,经实验室分析得到的结果,对原始数据进行检查后共得到686个有效样点,空间分布见图3。
-
图2 玉龙县土壤类型及其分布
-
图3 土壤采样点位及其空间分布
-
为保持数据的时间一致性,选用2009年9月Landsat7-Level2影像,空间分辨率30m。对因SLC传感器故障导致的条带在图像处理软件ENVI中采用fillgap插件去除。已有研究表明归一化植被指数(NDVI)与土壤有机碳存在正相关关系[15],因此,基于原始遥感影像,计算NDVI;缨帽变换是一种特殊的主成分变换,最早由Kauth等[16]提出,通过线性变换、多维空间旋转,不仅可提取植被和土壤信息,还可通过坐标变换将植被与土壤的光谱特征分离,故通过缨帽变换提取地表辐射亮度、植被绿度及土壤湿度等参数。
-
地形因素可在一定程度上反映土壤有机碳的状态,不同高度因光照、温度、水分等差异而使土壤微生物的活动也不相同,间接影响到土壤的腐殖化过程。将高程、坡度、坡向、曲率、地形湿度指数等作为土壤有机碳估算的辅助数据,能有效提高估算结果的精度。地形变量的提取主要基于数字高程模型(DEM),本研究采用SRTM(航天飞机雷达地形测绘使命)90m DEM,分别提取坡度、坡向、曲率和地形湿度指数,并以45°间距将坡向分为8个方向。
-
图4 土壤有机碳估算参数
-
注:(A)NDVI、(B)绿度、(C)亮度、(D)湿度、(E)DEM、(F)坡度、(G)坡向、(H)地形湿度、(I)曲率。
-
1.3 基于克里金差值的土壤有机碳储量估算
-
土壤在空间上呈连续变化,因此,需要将采样点数据空间化,采用克里金插值,该方法因考虑样本的形状、大小及其与预测点空间位置的关系而成为常用的线性无偏最优估计方法,公式为:
-
式中:为的估计值,为点的采样值,为对估值的贡献度,即权重值。
-
克里金插值考虑空间自相关,因此,先要判定数据的半变异函数并拟合相关参数,在ArcGIS中将采样点的经纬度坐标转换为投影坐标并导出文本文件,采用GS+ 7.0地统计分析软件分别进行线性、球型、指数和高斯4种常用理论模型的拟合,拟合参数见表1。
-
比较发现,指数模型残差最小而决定系数最大,0.484的块基比说明土壤有机碳密度的空间变异是随机性因素与结构性因素共同引起的。故选择指数模型进行插值试验,当步长为10时拟合效果最好。
-
根据插值结果并结合土壤类型,计算土壤有机碳储量,公式如下:
-
式中:为土壤有机碳密度(kg/m2),0.58为土壤有机质与有机碳的转化系数,为土壤有机质含量(g/kg); 为土壤容重(g/cm3); 为采样深度(cm); 为有机碳储量(kg);ri 为像元边长(m)。
-
因原始数据缺乏土壤容重属性,故依据Song等[17]的研究结果进行估计,公式如下:
-
式中:SOC代表有机碳含量,为估算所得的土壤容重。
-
因采样点均为耕地,各类型土壤的砾石含量较少,故采用耕地容重模型并忽略砾石含量,得到基于栅格的土壤有机碳密度。
-
1.4 随机森林模型估算土壤有机碳密度
-
1.4.1 随机森林模型
-
随机森林是基于分类和回归树(CART)延伸出的机器学习新算法,由Breiman等提出,在运算量没有显著提高的前提下提高了预测精度,且对多元共线性不敏感,结果对缺失数据和非平衡数据比较稳健,能很好地预测多达几千个解释变量的作用[18],被誉为当前最好的数据挖掘算法之一[19-20]。
-
决策树通过建立对象间属性与值的映射关系来构建训练数据的树模型,既可用于分类,也可进行连续变量的预测。算法将所有数据作为一个根节点,从全部特征中挑选一个分割后生成若干子节点,采用节点-分支的树结构进行决策,每个非叶子节点是一个判断条件,每个叶子节点是结论,从根节点开始,判断每一个子节点,若满足停止分裂的条件则将该节点设为子节点,多次判断后输出节点占比最大的类别。
-
随机森林对决策树进行了优化,在变量(列) 和数据(行)的使用上进行随机化,生成多个分类树,再汇总分类树的结果。从解释变量中随机抽取n个子样本,针对每个样本建立一棵分类树,通过对多个样本数据训练、分类后进行预测,森林由多个决策树组成,为避免树间的相关性,采用套袋法获取不同的训练数据以增加其多样性,再通过放回方式抽取数据集,过程中的数据完全随机,有可能某一数据被多次使用,也会出现从未使用的情况,结合回归策略输出最终结果。
-
随机森林的构建方式使其更加稳定,构建森林时使用数据集的最佳特征降低每棵树的强度,对于任意划分的特征G,对应的任意划分点S划分成的数据集A1 与A2,且A1 与A2 各自的均方差与均方差之和最小时所对应的特征值为划分点,随机选择每个节点的特征,对比不同情况下的误差以减少树间的相关性泛化误差,最终的回归预测值为所有树的预测值均值。
-
1.4.2 随机森林建模
-
土壤有机碳生成机理复杂且影响因素较多,随机森林又具有较强的高维数据处理能力,还能对各个影响因素的重要性进行解释,适于进行土壤有机碳的定量研究。
-
模型最初主要通过R语言中的随机森林包、栅格包等实现[21],2019年ArcGIS Pro在其2.3版本中增加了这一功能模块,既可对采样点数据建模,也可对矢量或栅格数据建模,通过加入相应的栅格或矢量变量可直接获得预测结果的空间分布,并对多个变量的重要性进行排序,比编程更便捷高效。
-
在ArcGIS Pro环境下,采用“分析-工具-空间统计工具-空间关系建模-基于森林分类与回归”功能,将土壤有机碳密度(SOCD)作为预测变量,分别导入坡度、坡向、曲率、DEM、地形湿度指数等地形变量以及NDVI、亮度、绿度、湿度等环境变量,作为模型的解释变量。
-
2 结果与分析
-
2.1 表层土壤有机碳储量估算结果
-
2.1.1 变量的描述性统计
-
对687个采样点0~20cm深度的土壤有机质含量、有机碳含量、有机碳密度、土壤容重等属性,以及NDVI、亮度、绿度、湿度等环境参数和坡度、坡向、曲率、地形湿度指数等地形参数的描述性统计结果见表2。
-
变异系数显示,表层土壤的有机质含量、有机碳含量、有机碳密度、绿度、坡度、曲率的离散程度较大,说明研究区植被分布差异大,地形复杂度高,NDVI、亮度、湿度、坡向、地形湿度指数及高程的离散程度较小。
-
2.1.2 表层土壤有机碳总储量
-
分别以克里金插值与随机森林模型所预测的土壤有机碳密度为属性值,在ArcGIS中统计栅格单元的值及其面积,两者的乘积即为该栅格的土壤有机碳储量,汇总后得到整个研究区表层土壤的有机碳总储量,克里金插值结果为2.4×108 t,随机森林结果为1.7×108 t。
-
2.2 土壤有机碳密度空间分布
-
2.2.1 克里金插值空间分布特征
-
采用指数模型及其参数进行克里金插值计算,得到0~20cm表层土壤的有机碳密度及其空间分布,见图5。
-
图5 显示,土壤有机碳密度的高值区集中在西北部、中部山地以及东南部金沙江及其支流沿岸的平坦区域,最大值为66.5kg/m2,东北部的玉龙雪山为低值区,最小值为7.82kg/m2,中部的水域和城镇也为低值区,因采样点的空间集群特征而使插值结果不够平滑,对空间分布的连续变化特征表达较差。
-
图5 普通克里金插值的土壤有机碳密度空间分布
-
2.2.2 随机森林空间分布特征
-
以土壤有机碳密度为预测变量,以NDVI、亮度、绿度、湿度、曲率、坡度、坡向、地形湿度指数为解释变量,进行随机森林回归预测,对叶子数、树数多次实验后发现,当生成1000棵树时误差趋于稳定,故将森林树量设为1000棵,叶子节点为5,树深范围0~25,平均为7,每棵树可用的数据百分比为100%,随机采样变量数为3,输出栅格与Landsat一致,为30m×30m,得到土壤有机碳密度的空间分布如图6。
-
图6 随机森林预测土壤有机碳密度分布
-
结果显示,土壤有机碳密度最高为79.37kg/m2,最小为13.34kg/m2,整体上西高东低,西部的高值区主要为河流下游及其沿岸。对照土壤类型分布,红壤及棕壤的有机碳密度较高,此外,海拔适中地区的有机碳密度也较高,中部地形平坦区及东部边界区则较低,0值的空白区为金沙江河谷两岸及丽江市城区,是河流与人类活动区的多个变量为空值所致。
-
随机森林所提供的变量重要性排序能反映其对预测变量的解释程度,根据去除该变量时模型所受的影响进行估算,结果见表3。
-
NDVI占比最高,坡向最低,说明NDVI对土壤有机碳密度的解释作用最大,坡向则最小,其他变量的解释程度基本一致。
-
2.3 精度验证
-
2.3.1 普通克里金插值的精度验证
-
将数据分成训练集(2/3)和测试集(1/3),用测试数据集验证克里金插值的精度表现,比较不同样点的测量值与预测值,计算均方根误差、标准平均值、标准均方根误差、平均标准误差等精度评价指标,结果见表4。
-
精度验证的参考标准一般为均方根误差越小越好、标准平均值接近0,平均标准误差接近于均方根误差,平均标准误差接近于1的估计为最优估计。本研究的标准平均值近于0,标准平均值很小,平均标准误差接近于均方根误差,但均方根误差达20.77,说明克里金插值结果与最优估计还存在一定差距。主要由于实际采样困难,难以达到插值所要求的样点均匀分布条件。
-
2.3.2 随机森林模型精度验证
-
随机森林算法每次抽取约2/3的样本,套袋时第k棵树中未被选用的训练样本称为“袋外”(OOB)子集。OOB子集对于训练集是不可见的,可用来对模型精度进行验证,此处采用默认设置,即验证数据为总数据的10%,验证精度见表5。
-
决定系数R2 是主要的性能指标,本研究的验证结果大于0.5,说明模型的解释能力强,且较为稳定,达66.7%。但均方根误差较大,究其原因,因Landsat7原始影像存在缺陷,虽进行了条带修复,但条带区域的误差无法避免,因此用其提取其他解释变量时必然存在误差传递和积累,加之横断山区地形复杂,也使验证结果不甚理想。
-
3 讨论
-
空间插值主要根据有机质、容重、采样深度等计算出的采样点土壤有机碳含量进行。不同土壤的有机质转换系数应有所不同,本研究由于数据的缺陷而采用了统一的转换系数,故不能精确解释每个采样点的情况。此外,土壤容重主要通过环刀法测定,而本研究的采样数据未进行容重测定,基于经验公式的模拟结果精度有限。再者,样点空间分布不均匀也导致了插值结果的空间分布不平滑,样点稀疏区域比较粗糙。
-
随机森林模型需要较多的解释变量,本研究基于Landsat7影像提取其他变量,虽进行了条带修复,但仍然影响到所提取变量的精度。90m DEM与30m Landsat7空间尺度的不一致也影响了模型结果的精度,基于土壤类型法计算出的有机碳密度本身就存在误差,再经过解释变量的回归模拟必然会出现误差传递和放大效应,增加了结果的不确定性。
-
两种方法的差异性表现在随机森林的高值区分布在西北、中部及东南部,低值区在东北及南部地区,克里金的低值区与随机森林大体相同,但中部的高值区差别较明显。
-
此外,本文仅对0~20cm的表层土壤有机碳密度进行预测,未能对100cm内的土壤进行分层预测,对缺失的容重参数进行拟合也影响了结果的精度。
-
解释变量的选取是影响随机森林预测结果的重要因素,若能获取更深层的土壤数据,并辅之以人类活动、气候、土地利用、pH值等更多解释变量,就不会出现本研究因解释变量值缺失所造成的人类活动区域结果为0的情况。
-
4 结论
-
基于GIS的普通克里金插值所需变量较少,能够快速预测土壤有机碳密度及其空间分布,且预测结果与随机森林结果相差不大,但其结果受采样点数量及其空间分布的影响较大,用于横断山区的玉龙县这种样点少且分布不均匀的情况时结果较粗糙。随机森林模型因所需变量多而效率较低,且算法复杂也使处理速度较慢,但预测结果的精度以及对小尺度区域的细节表现优于普通克里金插值,通过变量的相对重要性评估也可深入了解各变量对模型的影响,因此更适于对高维数据进行分析。
-
参考文献
-
[1] 潘根兴.中国土壤有机碳和无机碳库量研究[J].科技通报,1999,15(5):330-332.
-
[2] Post W M,Emanuel W R,Zinke P J,et al.Soil carbon pools and world life zones[J].Nature,1982,298:156-159.
-
[3] Post W M,Kwon K C.Soil carbon sequestration and land-use change:Processes and potential[J].Global Change Biology,2010,16(3):317-327.
-
[4] Rubey W W.Geologic history of sea water[J].Geological Society of America Bulletin,1951,62:1.
-
[5] Bohn H L.Estimate of organic carbon in world soils[J].Soil Science Society of America Journal,1976,40(3):468-470.
-
[6] Bohn H L.Estimate of organic carbon in world soils Ⅱ[J]. Soil Science Society of America Journal,1982,46(5):1118-1119.
-
[7] Batjes N H.Development of a world data set of soil water retention properties using pedotransfer rules[J].Geoderma,1996,71(1-2):31-52.
-
[8] Galbraith J M,Kleinman P J A,Bryant R B.Sources of uncertainty affecting soil organic carbon estimates in northern New York[J].Soil Science Society of America Journal,2003,67(4):1206-1212.
-
[9] 李海萍,孙雨晴.基于GIS的县域土壤有机碳密度及其储量变化分析[J].西北农林科技大学学报(自然科学版),2013,41(11):131-136.
-
[10] 周涛,史培军,罗巾英,等.基于遥感与碳循环过程模型估算土壤有机碳储量[J].遥感学报,2007,11(1):127-136.
-
[11] 张红丽,张吴平,冀美蓉,等.基于遥感数据的孝义市土壤有机碳空间格局[J].山西农业大学学报(自然科学版),2012,32(6):561-566.
-
[12] 周稀,潘洪旭,邓欧平,等.基于RS和 GIS 的西河流域土壤有机碳含量的空间反演[J].中国土壤与肥料,2016(4):32-38.
-
[13] Yang R M,Zhang G L,Liu F,et al.Comparison of boosted regression tree and random forest models for mapping topsoil organic carbon concentration in an alpine ecosystem[J]. Ecological Indicators,2016,60:870-878.
-
[14] Sreenivas K,Adhwal V K,Kumar S,et al.Digital mapping of soil organic and inorganic carbon status in India[J].Geoderma,2016,269:160-173.
-
[15] Mckenzie N J,Ryan P J.Spatial prediction of soil properties using environmental correlation[J].Geoderma,1999,89(1):67-94.
-
[16] Kauth R J,Thomas G S.The tasselled cap—a graphic description of the spectral-temporal development of agricultural crops as seen by Landsat[C].LARS Symposia,1976.159.
-
[17] Song G,Li L,Zhang P Q.Topsoil organic carbon storage of China and its loss by cultivation[J].Biogeochemistry,2005,74(1):47-62.
-
[18] Breiman L.Random forest[J].Machine Learning,2001,45:5-32.
-
[19] Cutler D R,Jr E T,Beard K H,et al.Random forest for classification in ecology[J].Ecology,2007,88(11):2783-2792.
-
[20] Genuer R,Poggi J M,Tuleau-Malot C.Variable selection using random forests[J].Pattern Recognition Letters,2010,31(14):2225-2236.
-
[21] Liaw A,Wiener M.Classification and regression by random forest[J].R News,2002,2/3:18-22.
-
摘要
采用 2009 年云南省玉龙县土壤调查数据,基于土壤类型法将所测样点的土壤有机质含量转换为有机碳密度,经克里金插值进行空间化,再以 2009 年 landsat7-Level2 影像及 SRTM 90 m 数字高程模型数据为基础,提取归一化植被指数、亮度、绿度、湿度、坡度、坡向、曲率等与土壤有机碳形成密切相关的解释变量;通过随机森林模型模拟土壤有机碳密度及其空间分布,基于有机碳密度估算出 0 ~ 20 cm 表层土壤的有机碳总储量,并对两种模拟结果进行误差分析。结果显示:克里金和随机森林的估算结果分别为 2.4×108 和 1.7×108 t,均方根误差分别为 20.77 和 14.11,普通克里金插值误差较大,且对采样点数量及空间分布有较强的依赖性;随机森林模型不仅能处理高维数据,还能给出多个变量的重要性,估算结果精度更高,也更接近区域实际情况,对小尺度的细节表现更佳,适于地形复杂且样点有限的县域土壤有机碳密度及其储量的估算。
Abstract
Based on the soil survey data of Yulong county,Yunnan province in 2009,the soil organic matter content of the samples was converted to organic carbon density based on the soil type method,spatialized by Kriging interpolation,and then 2009 Landsat7-Level2 image and Shuttle Radar Topographic Mission 90 m DEM data were used to extract the explanatory variables which are closely related to soil organic carbon formation,such as NDVI,brightness,greenness,humidity,slope,aspect,and curvature.The density and spatial distribution of soil organic carbon were simulated through a random forest model,and the total organic carbon storage of 0 ~ 20 cm surface soil was estimated based on organic carbon density.The errors of the results by the two methods were analyzed.The results showed that the estimated results of Kriging and random forest were 2.4×108 and 1.7×108 t, respectively and the root-mean-square errors were 20.77 and 14.11,respectively.The ordinary Kriging interpolation error was larger and strongly depended on the number and spatial distribution of sampling points.The random forest model can not only handle high-dimensional data,but also calculate the importance of multiple variables.The accuracy of the estimation result by the random forest model is higher and closer to the actual situation of the region,and the performance of small-scale details is better and suitable.It is used to estimate the density and storage of soil organic carbon in counties with complex terrain and limited sample points.