-
土壤全氮是衡量土壤肥力水平的重要指标之一,土壤氮含量指标被广泛用于土壤养分供应能力、植物养分吸收和利用规律等农化分析中[1],如何快速、准确和高效地监测土壤全氮含量,对作物生长和科学合理施用氮肥有重要意义。传统测定土壤全氮含量的方法,不仅有耗时、耗力、成本高、环境污染等缺点[2-4],而且在测定过程中一些化学试剂容易对人体造成危害,这种方法显然不能满足生产中大面积快速监测土壤全氮含量的需求。近年来,高光谱技术被广泛用于土壤化学组分的测定,而基于光谱学原理的土壤氮素含量测定方法具有及时、省力、简便、无污染等优点[5],可为快速监测土壤全氮含量提供一个有效途径。
-
随着科学技术的进步,高光谱技术的发展为高效快速监测土壤养分提供了新的技术和方法。目前,国内外学者利用高光谱技术分析土壤全氮的相关研究已取得较大进展。Hummel等[6]研究发现土壤全氮含量与光谱反射率在可见光和近红外波段相关性很高。Reeves等[7]利用近红外光谱反射率特征波段建立的模型可对土壤全氮含量进行有效估测。Chang等[8]利用偏最小二乘法(PLSR)建立的基于光谱分析的模型可有效估测土壤全氮含量。前人的研究结果表明,利用土壤光谱反射率数据可进行土壤全氮含量估测,为后续的研究打下坚实基础。卢艳丽等[9]利用可见光550和450nm组成的光谱指数构建了土壤全氮含量预测模型,预测集 R2 达到了0.82以上。彭杰等[10]以895、1079、 1138nm等8个敏感波段反射率对数倒数的一阶微分建立的多元逐步回归模型 R2 达到了0.83。李焱等[11]通过提取特征波段,以多元逐步线性回归和偏最小二乘回归建模,发现反射率经二阶微分变换后,以偏最小二乘回归建模 R2 达到了0.96。王一丁等[12]对光谱反射率进行倒数对数和正交信号校正变换后,以PLSR建立的土壤全氮估测模型 R2 为0.92。近年来,国内一些研究多以高光谱数据结合非线性建模方法建立土壤养分含量估测模型,由于土壤光谱反射率和土壤养分含量之间是一种非线性关系,因此用非线性模型来估测土壤养分含量效果更好。如王世东等[13]、高小红等[14]、张娟娟等[15]利用PLSR和BPNN两种建模方法与光谱反射率及其数学变换建立土壤全氮估测模型,均具有较好的预测能力。郑立华等[16]提取贡献率超过99.98%的主成分建立BP神经网络全氮含量模型,预测 R2 达到了0.81。以上研究表明,基于高光谱数据建立的模型是可以对土壤全氮含量进行估测的,但由于土壤类型和地区性差异,在实际工作中很难找到一种通用的模型来估测土壤全氮含量。
-
随机森林(RF)是一种较新的数据挖掘模型[17],具有运算速度快、稳定性高、数据适应能力强、在处理大数据集时预测精度高且不易产生过拟合等优势[18-19]。马利芳等[20]利用RF法构建了土壤盐分主要离子估测模型。张智韬等[21]基于微分变换构建的SVMDA-RF模型预测了土壤有机质含量。目前RF多用于土壤有机质和土壤重金属等估测,而用于土壤全氮含量的估测研究较少。因此,本研究利用新疆南疆5县土壤样品的高光谱和全氮含量数据,运用偏最小二乘回归(PLSR)、支持向量机回归(SVM)和随机森林回归(RF)3种方法,结合光谱反射率(R)及一阶微分(FD)、倒数(1/R)、对数(lgR)和连续统去除(CR)变换数据分别建立研究区全区和分区土壤全氮含量估测模型。通过分析比较不同建模方法和不同数据变换后的估测模型精度,挑选出最优全氮含量估测模型,为研究区大范围快速准确获取土壤全氮含量提供技术支撑。
-
1 材料与方法
-
1.1 研究区概况
-
阿克苏地区位于新疆维吾尔自治区中部,天山山脉南麓,塔里木盆地北部,其地理坐标为78°03′~84°07′E、39°30′~42°41′N,属于暖温带大陆性气候,年降水量42.4~94.4mm,但年蒸发量高达1200~1500mm[22],年均气温9.9~11.5℃,光热资源丰富,昼夜温差大[23]。和田地区位于新疆维吾尔自治区最南端,南连昆仑山,东部与巴音郭楞蒙古自治州毗邻,北部与阿克苏地区相邻,西部连喀什地区,地理位置为77°31′~84°55′E、34°22′~39°38′N,年均降水量35mm,年均蒸发量2480mm,属于暖温带极端干旱荒漠气候[22]。本研究选取的温宿县、拜城县、和田县、新和县和阿瓦提县隶属于阿克苏及和田地区。研究区种植作物以棉花、水稻、红枣、苹果、香梨、核桃为主,土壤类型主要以壤土和砂壤土为主,其保肥保水能力较差,土壤氮素含量普遍偏低,且该地区盐渍化程度较高,严重影响作物的正常生长发育,对农业经济收入造成了一定的制约。
-
1.2 土样采集与处理
-
本研究土壤样品采集地点(图1)和采集数量分别为温宿县105个、拜城县78个、阿瓦提县60个、新和县47个以及和田县107个,共采集397个土壤样品。为保证土壤样品采集的精准性,用网格布点法采集土样,各采样点间距约为100m,采样深度为0~20cm,每个土样采集重量为500g左右。土样带回室内后,去除杂草、砾石及动植物残骸等杂质,在室内自然风干。风干后的土样经研磨混匀后分成两份,一份过2mm筛,用于光谱数据的测定,一份过0.25mm筛,用于土壤全氮含量的测定。
-
图1 样区分布图
-
1.3 样品分析
-
采用半微量开氏法测定土壤全氮含量,每个土样设3次重复,重复间相对误差控制在5%以内,取3次测量结果的平均值为最终测定值。各地区土壤全氮含量描述性统计见表1,由表1可知,全氮含量最大值出现在温宿县,为1.89g/kg,最小值出现在新和县,仅为0.07g/kg,总体平均值为0.62g/kg,各地区变异系数为10%~60%,根据雷志栋等[24]对变异系数的等级划分,该研究区的土壤全氮含量属于中等变异,有利于模型的构建。
-
1.4 光谱数据的测定
-
采用美国ASD公司的FieldSpec Pro FR型光谱仪进行土样光谱数据的测定,其测定波长范围为350~2500nm,光谱分辨率在350~1000nm为3nm,在1000~2500nm为10nm,数据重采样间隔为1nm[25]。测定土样光谱前利用标准白板和黑板对光谱仪进行校准和调整。采集光谱时,为了减少外界环境对测定结果的影响,将土样放置于直径10cm、深1.5cm的内部涂黑的培养皿中,以50W卤素灯为测定光源,距离土样表面70cm,天顶角为30°,传感器探头位于土样表面垂直上方15cm处,采用25°视场角探头,每测定一个土样光谱进行白板校正,每个土样采集10条光谱曲线,算数平均后得到该土样的实际反射率光谱数据[26]。
-
1.5 光谱数据预处理
-
由于光谱曲线的350~399和2401~2500nm波段受外界噪声影响较大,故将其去除[13],仅选取400~2400nm波段进行光谱分析。为消除样品间散射导致的基线偏移和减少平滑对有用信息的影响,本文采用了多元散射校正(multiplicative scatter correction,MSC)和Savitzky-Golay7点平滑对原始光谱反射率数据进行预处理,得到的反射率(R),并结合一阶微分(first derivative,FD)、连续统去除(continuum removal,CR)、倒数(1/R)和对数 (lgR)对反射率(R)进行数学变换。
-
1.6 建模方法及模型评价指标
-
建模思路为分区建模和全区建模,以所有采样点获得的数据进行全区建模,以各县采集的数据(共5个县)进行分区建模。为保证模型建立和验证的合理性,所有模型的建模集和预测集都以全氮含量由低到高进行排序进行等间距抽样,以2∶1划分成建模集与预测集。建模方法选用偏最小二乘回归(partial least squares regression,PLSR)、支持向量机回归(support vector machines,SVM)和随机森林回归(random forest,RF)3种方法。PLSR和SVM建模和验证在The Unscrambler X 10.5中完成,RF建模和验证在R语言中完成。
-
模型评价指标选用决定系数(determination coefficient,R2)、均方根误差(root mean square error,RMSE) 和相对分析误差(relative percent deviation,RPD)。其中,R2 表示预测值与实测值之间的拟合程度,R2 越大,说明预测值与真实值越接近,模型精度越好;RMSE 表示预测值偏离真实值的程度,对于同一组数据,RMSE 越小,说明预测值越接近真实值;RPD 表示模型预测能力的强弱,根据Chang等[4]对 RPD 的等级划分,当预测模型的 RPD ≥ 2时,表示该模型有较好的估测能力; 当1.4 ≤ RPD<2.0时,表示该模型可以对样品含量进行粗略估测;当RPD<1.4时,表示该模型预测能力很差,无法对样品含量进行估测。
-
2 结果与分析
-
2.1 不同全氮含量土壤反射率光谱特征
-
根据土样将全氮含量分为4个等级,分别为等级1(<0.5g/kg)、等级2(0.5 ≤ TN<1.0g/kg)、等级3(1.0 ≤ TN<1.5g/kg)和等级4( ≥ 1.5g/kg)。图2为根据每个等级的平均反射率得到4条反射率光谱曲线,由图2可知,不同全氮含量土样光谱曲线的变化规律基本一致,反射率变化范围为0.15~0.50,在全波段范围内,土壤全氮的光谱曲线变化整体呈缓慢上升趋势,在1415、1920、2220nm波段处有明显的吸收特征。在可见光400~780nm波段,光谱曲线较陡峭,反射率增长速度较快;在780~1900nm波段,光谱曲线较平缓,反射率增长速度较慢;在1900~2100nm波段,土壤光谱反射率随波长的增加而增大,在2100nm左右波段,反射率值达到最大值;在580~2400nm波段土壤反射率也是随着土壤全氮含量的增加而增大,但在400~580nm波段并未呈现这样的规律,出现了交叉现象。
-
图2 不同全氮含量土壤光谱反射率
-
2.2 土壤全氮含量与高光谱数据的相关性分析
-
将土壤R经FD、CR、1/R和lgR变换后,分别与土壤全氮含量做相关性分析,相关系数曲线如图3。由图3可知,土壤全氮含量与R在部分波段达到了较好的相关性;数据经FD变换后,在近红外波段达到显著性水平的波段数明显减少,但有极少波段相关性有所提高,而大部分波段相对于R的相关性并未得到改善,反而有所下降;数据经CR变换后,在全波段内,土壤全氮含量和反射率数据相关性达到显著性的波段数有明显增加,且大多数波段相关性达到了极显著水平,最大相关系数达到了0.43,是一种较好的光谱变换形式;数据经1/R和lgR变换后,lgR变换后的相关性曲线和反射率R相关系数曲线走势基本相同,差异较小,1/R变换后的相关系数曲线与R相关系数曲线相对称,三者达到显著性水平以上的波段数基本相同。
-
图3 全氮含量与高光谱数据的相关分析
-
2.3 土壤全氮含量估测模型的建立与检验
-
为了得到土壤全氮含量最优估测模型,本文针对性地使用反射率及其4种数学变换后数据,利用PLSR、SVM和RF对5个地区土壤全氮含量进行建模,各模型结果见表2。由表2可知,3种方法建立的模型效果各不相同,在进行分区建模时, PLSR最优模型建模集的 R2 为0.83,RMSE 为0.14g/kg,预测集 R2 为0.73,RMSE 为0.17g/kg,RPD 为1.82,未达到2.0以上,说明PLSR模型效果一般,只能对样品全氮含量进行粗略估测;SVM最优模型建模集 R2 为0.78,RMSE 为0.16g/kg,预测集 R2 为0.75,RMSE 为0.16g/kg,RPD 为1.97,也未达到2.0以上,说明SVM模型也只能对样品全氮含量进行粗略估测。SVM较PLSR模型,建模集的 R2 虽然下降了0.05,但预测集的 R2 上升了0.02, RMSE 下降了0.01g/kg,RPD 上升了0.15,说明SVM模型的预测能力略高于PLSR模型。而RF最优模型建模集的 R2 为0.87,RMSE 为0.08g/kg,预测集 R2 为0.86,RMSE 为0.08g/kg,RPD 达到了3.52,说明RF模型预测能力较好,可以对样品全氮含量进行精确估测。
-
全区模型与分区模型相比,PLSR、SVM和RF进行全区建模时,建立的最优模型 RPD 分别为1.50、1.62和3.24,均低于分区最优模型,但PLSR和SVM模型的 RPD 均大于1.40,可以对样本全氮含量进行粗略估测;而分区建模部分地区建立的PLSR和SVM模型不能用于全氮含量估测,说明全区模型的稳定性要高于分区模型。3种模型相比较,RF模型建模集 R2 为0.80~0.87,预测集 R2 为0.76~0.85,RPD 为2.35~3.52,RF估测全氮含量的结果较稳定,整体估测精度较高,是一种较好的建模模型。
-
由表2分析可知,不同数据变换后,模型的精度也有所变化,在5个不同地区,由于土壤类型和采样数量的不同,各种数据变换后建模精度无明显变化规律。PLSR、SVM和RF最优模型分别是在光谱R数据经CR、1/R和lgR变换后建立的。在5个地区建立的最优模型均是RF模型,在和田县、阿瓦提县和新和县,数据经lgR变换后,建立的模型精度最高,而在拜城县和温宿县,数据分别经1/R和CR变换后,建立的模型精度最高。其中阿瓦提县和新和县以PLSR和SVM建立的模型精度明显低于其他地区,可能是由于这两地区采样点位置比较集中,采样数较少,土壤类型单一,总体缺乏代表性,构建的模型效果较差。
-
3 讨论
-
3.1 光谱预处理对建模精度的影响
-
建模时将光谱R进行预处理可消除土壤类型 (质地、颗粒大小等)及所处环境(温度、湿度等)对建模效果的影响,并适当提高模型的预测能力[27-28]。徐永明等[29]运用一阶导数(FDR)、倒数(1/R)、倒数对数[lg(1/R)]、波段深度4种数学变换后的光谱R与总氮含量进行分析,发现FDR和lg(1/R)变换后的回归和验证精度较高。陈红艳等[30]利用遗传算法结合偏最小二乘法对光谱的5种数据变换分别建模,发现反射率的一阶导数表现最佳。Zornoza等[31]将光谱数据进行多元散射校正和一阶微分处理后,建立的模型精度有明显提高。本研究结果与上述研究结果基本一致,本文利用R及FD、1/R、lgR和CR 4种变换后的光谱R数据进行建模,FD变换后模型的精度较低,可能原因是一阶微分在放大光谱特征波段的同时会放大噪声和无关因素的干扰,这在一定程度上也会降低建模精度,而其他数据变换在建模中对建模精度都有不同程度的提高,更能反映出土壤全氮含量的变化特征。
-
3.2 不同建模方法比较
-
土壤养分含量的高光谱估测模型主要有线性模型和非线性模型,合理选择建模方法是提高反演精度和效率的重要步骤。PLSR方法借鉴了主成分分析、典型相关分析和普通多元线性回归3种分析方法的优点[32],较好地解决了样本数少于变量数等问题。王海江等[33]研究了基于特征波段建立的PLSR、SVM和SMLR模型,发现PLSR模型精度最高。刘秀英等[34]运用相关分析和偏最小二乘回归建立的黄绵土土壤全氮预测模型可对0~40cm土壤全氮进行有效预测。而在本研究中,PLSR模型的精度却为最低,这可能是研究地域和土壤类型差异较大,总体缺乏代表性,土壤光谱存在较大的差异性,而且PLSR属于线性回归模型,而全氮含量跟光谱反射率是一种非线性关系,因此无法对全氮含量的非线性特征进行表征,从而难以保证估算结果的精确性和可靠性。代希君[35]利用ENVI 5.1将高光谱数据转换为多光谱数据,采用PLSR和SVM建立土壤盐分反演模型,结果发现SVM模型反演精度优于PLSR模型。刘焕军等[36]利用RF构建的基于影像波段和光谱指数的土壤有机质含量预测模型精度 R2 为0.69。王金凤等[37] 运用RF、 SVM、PLSR 3种方法进行元素含量与光谱变量建模后,发现基于二阶微分变换的RF准确度最高。为进一步提高模型精度,鉴于以上研究结果,本研究采取了非线性建模方法SVM和RF建立全氮含量估测模型,发现SVM建模精度较PLSR有小幅度的提高,而RF较PLSR建模精度有大幅度的提高,由于RF具有稳定性高、数据适应能力强、抗噪声能力强、在处理大数据集时预测精度高且不易产生过拟合等优点[18-19],因此利用RF模型可有效提高模型预测精度和稳定性。
-
4 结论
-
根据不同等级土壤全氮含量光谱曲线得出,各曲线走势基本一致,在近红外波段的1415、1920、 2220nm处有明显的吸收特征。对比反射率曲线得出,在580~2400nm内R随土壤全氮含量的增加而增大。
-
对土壤光谱R进行一定的数学变换,可提高土壤全氮和土壤光谱R的相关性,本研究选取的连续统去除变换明显提高了光谱与土壤全氮的相关性,相关系数最大,达到了0.43,更能反映土壤全氮含量变化特征。
-
RF模型在预测土壤全氮含量的过程中具有较高的估测精度,其整体预测精度要高于PLSR和SVM模型,可以对土壤全氮含量进行精确估测; SVM模型的估测精度虽然高于PLSR模型,但SVM和PLSR模型只能对土壤全氮含量进行粗略估测。对光谱数据进行数学变换后建模,除一阶微分变换外,其他数据变换均对模型精度有不同程度的提高。RF模型无论是分区建模还是全区建模,模型在各种数据变换之后预测精度差异性较小、模型结果均匀、稳定性高、适用性好。分区最优模型的精度要高于全区最优模型,但分区模型差异性明显,而全区模型综合了各地区土壤类型的差异,模型的稳定性较高,在进行分区建模时可通过增加样本数来提高模型的精确性和稳定性。
-
参考文献
-
[1] Maire V,Wright I J,Prentice I C,et al.Global effects of soil and climate on leaf photosynthetic traits and rates[J].Global Ecology and Biogeography,2015,24(6):706-717.
-
[2] Rossel R A V,McBratney A B.Soil chemical analytical accuracy and costs:implications from precision agriculture[J]. Australian Journal of Experimental Agriculture,1998,38(7):765-775.
-
[3] Bilgili A V,van Es H M,Akbas F,et al.Visible-near infrared reflectance spectroscopy for assessment of soil properties in a semi-arid area of Turkey[J].Journal of Arid Environments,2010,74(2):229-238.
-
[4] Chang C W,Laird D A,Mausbach M J,et al.Near-infrared reflectance spectroscopy-principal components regression analyses of soil properties[J].Soil Science Society of America Journal,2001,65(2):480-490.
-
[5] 高灯州,曾从盛,章文龙,等.闽江口湿地土壤全氮含量的高光谱遥感估算[J].生态学杂志,2016,35(4):952-959.
-
[6] Hummel J W,Sudduth K A,Hollinger S E.Soil moisture and organic matter prediction of surface and subsurface soils using an NIR soil sensor[J].Computers and Electronics in Agriculture,2001,32(2):149-165.
-
[7] Reeves J B,McCarty G W,Meisinger J J.Near infrared reflectance spectroscopy for the analysis of agricultural soils[J]. Journal of Near Infrared Spectroscopy,1999,7(3):179-193.
-
[8] Chang C W,Laird D A.Near-infrared reflectance spectroscopic analysis of soil C and N[J].Soil Science,2002,167(2):110-116.
-
[9] 卢艳丽,白由路,王磊,等.黑土土壤中全氮含量的高光谱预测分析[J].农业工程学报,2010,26(1):256-261.
-
[10] 彭杰,向红英,周清,等.不同类型土壤全氮含量的高光谱预测研究[J].中国农学通报,2013,29(9):105-111.
-
[11] 李焱,王让会,管延龙,等.基于高光谱反射特性的土壤全氮含量预测分析[J].遥感技术与应用,2017,32(1):173-179.
-
[12] 王一丁,赵铭钦,刘鹏飞,等.基于高光谱分析的植烟土壤有机质和全氮含量预测研究[J].中国烟草学报,2016,22(3):44-51.
-
[13] 王世东,石朴杰,张合兵,等.基于高光谱的矿区复垦农田土壤全氮含量反演[J].生态学杂志,2019,38(1):294-301.
-
[14] 高小红,杨扬,张威,等.可见光—近红外光谱估算三江源区不同土壤全氮含量[J].遥感技术与应用,2015,30(5):849-859.
-
[15] 张娟娟,田永超,姚霞,等.基于高光谱的土壤全氮含量估测[J].自然资源学报,2011,26(5):881-890.
-
[16] 郑立华,李民赞,潘娈,等.基于近红外光谱技术的土壤参数BP神经网络预测[J].光谱学与光谱分析,2008,28(5):1160-1164.
-
[17] 郭澎涛,李茂芬,罗微,等.基于多源环境变量和随机森林的橡胶园土壤全氮含量预测[J].农业工程学报,2015,31(5):194,200-202.
-
[18] 沈润平,郭佳,张婧娴,等.基于随机森林的遥感干旱监测模型的构建[J].地球信息科学学报,2017,19(1):125-133.
-
[19] 郭佳.基于随机森林的遥感干旱监测模型及其应用研究 [D].南京:南京信息工程大学,2016.
-
[20] 马利芳,熊黑钢,张芳.基于野外 VIS-NIR 光谱的土壤盐分主要离子预测[J].土壤,2020,52(1):188-194.
-
[21] 张智韬,劳聪聪,王海峰,等.基于FOD和 SVMDA-RF 的土壤有机质含量高光谱预测[J].农业机械学报,2020,51(1):156-167.
-
[22] 代希君,张艳丽,彭杰,等.土壤水溶性盐基离子的高光谱反演模型及验证[J].农业工程学报,2015,31(22):139-145.
-
[23] 董山,徐建华,陈亚宁,等.塔里木盆地年平均气温的分形特征研究[J].干旱区地理,2009,32(1):17-22.
-
[24] 雷志栋,杨诗秀,谢森传.土壤水动力学[M].北京:清华大学出版社,1998.321-366.
-
[25] 代希君,彭杰,张艳丽,等.基于光谱分类的土壤盐分含量预测[J].土壤学报,2016,53(4):909-918.
-
[26] 彭杰,王家强,向红英,等.土壤含盐量与电导率的高光谱反演精度对比研究[J].光谱学与光谱分析,2014,34(2):510-514.
-
[27] Xie H T,Yang X M,Drury C F,et al.Predicting soil organic carbon and total nitrogen using mid-and near-infrared spectra for Brookston clay loam soil in Southwestern Ontario,Canada[J]. Canadian Journal of Soil Science,2011,91(1):53-63.
-
[28] Yang H,Kuang B,Mouazen A M.Quantitative analysis of soil nitrogen and carbon at a farm scale using visible and near infrared spectroscopy coupled with wavelength reduction[J].European Journal of Soil Science,2012,63(3):410-420.
-
[29] 徐永明,蔺启忠,黄秀华,等.利用可见光/近红外反射光谱估算土壤总氮含量的实验研究[J].地理与地理信息科学,2005,21(1):19-22.
-
[30] 陈红艳,赵庚星,张晓辉,等.基于遗传算法结合偏最小二乘的潮土碱解氮高光谱特征及含量估测[J].中国农学通报,2015,31(2):209-214.
-
[31] Zornoza R,Guerrero C,Mataix-Solera J,et al.Near infrared spectroscopy for determination of various physical,chemical and biochemical properties in Mediterranean soils[J].Soil Biology and Biochemistry,2008,40(7):1923-1930.
-
[32] 史舟.土壤地面高光谱遥感原理与方法[M].北京:科学出版社,2014.42-44.
-
[33] 王海江,刘凡,Yunger J A,等.不同粒径处理的土壤全氮含量高光谱特征拟合模型[J].农业机械学报,2019,50(2):195-204.
-
[34] 刘秀英,王力,常庆瑞,等.基于相关分析和偏最小二乘回归的黄绵土土壤全氮和碱解氮含量的高光谱预测[J].应用生态学报,2015,26(7):2107-2114.
-
[35] 代希君.基于高光谱技术的南疆土壤盐渍化预测研究[D]. 阿拉尔:塔里木大学,2016.
-
[36] 刘焕军,鲍依临,孟祥添,等.不同降噪方式下基于高分五号影像的土壤有机质反演[J].农业工程学报,2020,36(12):90-98.
-
[37] 王金凤,王世杰,白晓永,等.基于高光谱反射率的喀斯特地区土壤重金属锌元素含量反演[J].光谱学与光谱分析,2019,39(12):3873-3879.
-
摘要
构建基于高光谱数据的土壤全氮含量估测模型,为快速、准确监测农田土壤全氮含量,判断作物生长发育情况和评价土地质量提供新的技术和方法。以新疆南疆地区主要类型土壤为研究对象,于室内测定土壤全氮含量和光谱反射率数据,利用偏最小二乘回归(PLSR)、支持向量机回归(SVM)、随机森林回归(RF)与光谱反射率(R)及其 4 种数学变换相结合,建立全区和分区全氮含量估测模型。结果表明,PLSR 最优模型的预测集R 2 和 RPD 分别为 0.73 和 1.82;SVM 最优模型的预测集 R 2 和 RPD 分别为 0.75 和 1.97;RF 最优模型的预测集 R 2 和 RPD 分别为 0.86 和 3.52,3 种模型的预测能力依次为 RF>SVM>PLSR。除一阶微分(FD)变换外,其它数据变换均对模型精度有不同程度的提高。R 及其 4 种变换后数据均以 RF 建模精度较高,而以 PLSR 和 SVM 建模精度相对较低。全区模型稳定性要高于分区模型,分区模型差异性较明显,稳定性较差。总体来看,RF 模型的预测能力稳定,适用性较好,精度较高,可较精确地估测土壤全氮含量;而 PLSR 和 SVM 模型只能对全氮含量进行粗略估测。因此,利用 RF 模型可实现研究区土壤全氮含量的快速准确估测。
Abstract
The establishment of soil total nitrogen content estimation model based on hyperspectral data can provide a new technology and method for rapid and accurate monitoring of soil total nitrogen content in farmland,judging crop growth and development and evaluating land quality. Taking the main types of soil in southern Xinjiang as the research object,soil total nitrogen content and spectral reflectance data are determined by indoors,using partial least square regression(PLSR), support vector machine regression(SVM),random forest regression(RF),the spectral reflectance(R)and their mathematical transformation to establish an estimation model for predicting the total nitrogen content of the whole district and subregion.The results show that the prediction set R 2 and RPD of the PLSR optimal model are 0.73 and 1.82,respectively; the prediction set R 2 and RPD of the SVM optimal model are 0.75 and 1.97,respectively;and the prediction set R 2 and RPD of the RF optimal model are 0.86 and 3.52,respectively;the prediction abilities of the three models are in the order of RF>SVM>PLSR.Except for the first-order differential(FD)transformation,other data transformations have different degrees to improve the model accuracy.The R and its four transformed data have high modeling accuracy with RF,while the modeling accuracy with PLSR and SVM is relatively low.The stability of the whole region model is higher than that of the partition model and the partition model has obvious difference and poor stability.On the whole,RF model has stable predictive ability,good applicability and high accuracy,and can accurately estimate the total nitrogen content of the soil. However,PLSR and SVM models can only make rough estimates of total nitrogen content.RF model can be used to estimate the total nitrogen content of soil in the study area quickly and accurately.