第29卷第1期 2010年2月 红外与毫米波学报 J.Infrared Millim.Waves Vo1.29,No.1 February,2010 文章编号:1001—9014(2010)01—0032—06 用近红外光谱预测土壤碳含量的研究 沈掌泉 ,王珂 ,Xuewen Huang (1.浙江大学环境与资源学院,浙江2.密歇根州立大学作物与土壤科学系,密歇根杭州310029; 48824;美国) 东兰辛摘要:以田间行走式设备获取的近红外光谱数据为基础,利用最小二乘回归法(PLSR)建立了应用近红外光谱数据 预测土壤碳含量的校正模型,与利用原始光谱数据建立的模型相比,应用经比值或归一化差值处理的光谱数据建 立的校正模型可以提高预测精度.精度提高的原因可能是光谱数据经过波段算术组合处理后,能降低模型建立过 程中产生过配的风险,使模型能包括更多的成分和信息.研究结果表明,利用偏最小二乘回归法,可以有效地建立 田间近红外光谱与土壤碳含量之间的校正模型;同时,应用比值或归一化差值这些波段算术组合方法来处理近红 外光谱数据,可以进一步提高模型的预测精度.因此,应用行走式设备获取的近红外光谱数据来快速测定田间土壤 中碳的含量是可行的. 关键词:近红外光谱;土壤碳含量;行走式测定;波段算术组合;偏最小二乘回归法 中图分类号:S123;TH744.1 文献标识码:A ESTIMATING THE CoNTENT oF SoIL CARBoN BY USING NEAR.INFRARED SPECTRA SHEN Zhang—Quan ,WANG Ke ,Xuewen HUANG (1.College of Environmental and Resource Sciences,Zh ̄iang University,Hangzhou 310029,China; 2.Department of Crop and Soil Sciences,Michigan State University,East Lansing,MI 48824,USA) Abstract:Partila least squares regression(PLSR)was employed to build predicting model of the content of soil carbon with on—the—go near—infrred arelfectnce aspectroscopy(NIRS)measurements.The model based on band ratio or normalized difference of NIRS data can improve the prediction precision than the model with the original NIRS data.The reasons might be that the process of band arithmetic combination could reduce the risk of overfitting and it made the model include more useful components and information.The results show that the effective calibration model between field NIRS and the content of soil carbon Can be set up by PLSR,and predicting precision can be improved while band arithmetic combination of ratio or normalized diference is performed on the NIRS data before modeling.Thus,it is feasible to estimate the content of soil carbon quickly in the field by Oil・he—tgo NIRS measurement. Key words:near—infrared spectroscopy;soil carbon content;on—the・go measurement;band arithmetic combination;pa ̄il aleast squares regression(RLSR) 引言 近红外反射光谱分析(Near Ifnrared Relfectance Spectroscopy,NIRS)技术是近十年来发展最为迅速 的高新分析技术之一,具有快速、简便的特点,已在 农业及其他许多领域得到广泛应用,如在饲料成分、 农产品品质分析方面已成为一种快速的例行分析方 法n-3]. 收稿日期:2009—04—16,修回日期:2009.06-18 近年来,随着NIRS技术应用领域的不断拓展, 用于土壤成分分析和参数测定方面的研究13趋增 多,并已出现了较多的报道L4 ;但目前的研究中,光 谱数据的测定主要是在实验室条件下进行的,即使 在田间测定的光谱数据,也无法快速获取;而且在田 问自然状态下,对土壤光谱测定的影响因素更多、更 复杂,同时由于土壤是一个复杂的混合体,因此对光 谱数据的处理和分析提出了更高的要求. Received date:2009—04.16,revised date:2009.06—18 基金项目:国家科技支撑计划项目(2006BAD10A07);国家自然科学基金(40201021) 作者简介:沈掌泉(1969-),男,浙江桐乡人,副教授,博士,主要从事农业遥感、计算机应用及土壤空间变异等方面的研究,E-mail:zhqshen@ zju.edu.el1. l期 沈掌泉等:用近红外光谱预测土壤碳含量的研究 33 土壤有机质由于自身特性使得它在作物养料的 供给、土壤物理性质的改善、防止土壤侵蚀、实现土 壤的可持续利用等方面发挥着重要的作用.而且,土 壤被看作碳汇,土壤有机质的矿化、分解速度在很大 程度上与全球变化有直接关系.因此,土壤中的有机 质动态变化不但影响农业生态系统的可持续发展, 也影响着大气圈、生物圈的可持续发展.大范围内如 何有效、快速地获取土壤碳的含量与空间分布,对农 业和全球变化等具有重要的价值和意义. 本研究以田间行走式近红外光谱测定设备所获 取的土壤近红外光谱数据和经采样分析的土壤碳含 量数据为基础,以偏最小二乘回归法作为建立校正 模型的工具,分析和研究了将原始的和经过波段算 术组合后的光谱数据用于建立田间土壤碳含量预测 模型,并应用的测试数据集来检验、分析和比较 预测精度上的差异.为田间行走式测定的近红外光 谱数据的应用和快速获取田间土壤参数的研究提供 依据. 图1 土壤训练、测试样点及近红外光谱测定点的分布图 Fig.1 Layout of soil train,test samples and near-infrared spectroscopy measurement points in study field ’ 1材料和方法 1.1研究区概况 测定时田间土壤处于裸露和干燥状态. 研究区位于美国密歇根州Kalamazoo县的Can: 以土壤采样点位置为中心,搜索5m范围内的 农场,东西宽约600m,南北长约1000m,面积为52 NIRS测定点,如果测定点超过1个,则取其各波段 公顷.土壤类型基本上为Kalamazoo壤土,是美国北 测定值的平均值作为该土壤样点红外光谱的值,反 部玉米带代表性的冰渍土,由于土壤发育于冰渍物, 之则以该测定点的值作为此土壤采样点红外光谱的 加上试验区内的高程和坡度变化较大(高程在290 值. 303m之间,田面坡度在0~14%之间),因此田块 1.3土样采集与化学分析 —内土壤碳含量的变化相当大.根据采样分析数据,表 在红外光谱数据测定后,以半随机的方式采集 层土壤的全碳含量在0.551~2.637%之间,变异系 土壤样本85个,也就是沿光谱测定的条带,随机地 数为22.72%.该地块实行玉 大豆轮作,并采用 确定样本采集的位置,采样点位置用GPS进行精确 非灌溉的田间管理方式 . 定位,采样深度为10cm;土样在室温状态下风干后, 1.2光谱测定与预处理 清除掉植物残留物并过100目筛,然后在密歇根州 在2004年4月19日,委托Veris Technologies 立大学作物与土壤科学系的实验室内通过Carlo—Er- 公司进行田间近红外光谱的测定 J.测定以南北条 ba系列2碳氮分析仪用干烧法测定土壤全碳含 带的方式进行,共测定了22个条带,条带之间的距 量 J.经统计分析剔除1个异常点后,其余的84个 离约为25m,条带内点之间的距离约为5m,共获取 样点,在考虑到分布均匀的前提下,随机地分为 数据测定点约3700个(见图1).测定时,由拖拉机 的训练数据集和测试数据集,其所包含的样点数分 驱动的钢管插人土壤lOcm深,由固定于钢管内的 别为65和19个(见图1). 钨丝灯照亮土壤,利用光纤把反射的光传输到光谱 1.4波段算术组合 仪中进行测定和存储,测定深度保持在7.5cm左 近红外光谱分析技术属于弱光谱信号分析技 右,测定的光谱波长范围为920—1718nm,光谱分辨 术.近红外光谱的信息是分子内部振动的倍频与合 率为6.3nm,共128个波段,测定所获得的反射率通 频,包含键强度、化学组分、电负性和氢键等信息.当 过倒数对数的方式转换为吸光率.在测定的同时利 样品为固体时,受到散射、漫反射、反射光的偏振、样 用GPS获取测定点的位置信息并保存在计算机中. 品的颗粒和尺寸等的影响,因此在发挥近红外光谱 红外与毫米波学报 29卷 的特点时,存在一系列分析的技术难点.它吸收强度 较弱,测定不经过预处理的样品的光谱易受样品状 态、测量条件等影响,尤其是在测定背景、样品成分 复杂的情况下,导致光谱中谱峰重叠和不确定性较 大.而且,作为信息源的近红外光谱中有效信息率 低,对从复杂、重叠、变动的光谱中提取某个特定成 分的微弱信息造成困难,需要应用有效的方法和技 术来抑制噪声、增强有用的信息. 通常在建立红外光谱定量分析模型时,直接采 用原始的或经过主成分分析、小波分析、相关分析、 微分变换等处理的光谱数据来建立分析模型,而在 遥感数据处理与信息提取中得到关注和广泛应用的 图2训练数据集土壤近红外吸收光谱曲线 Fig.2 The near。infrared absorbance spectra of soil samples in ,train dataset 植被指数,却并未在红外光谱数据处理中引起注意 和研究.植被指数本质上是在综合考虑各有关光谱 信号的基础上,把多波段的反射率作一定的数学变 换,使其在突出感兴趣信息的同时,使非感兴趣的信 ou—篇o 0田o《 息最小化,由于在遥感应用中最受关注的是植被的 信息,因此把应用此类思想的信息增强与提取技术 称为植被指数 .其中提出来最早、应用也最广泛 的植被指数是通过近红外和红波段之间的算术运算 (波段问的加、减、乘或除运算)来得到的,包括差 值、归一化差值、比值等.基于同样的考虑,本研究通 过对不同红外光谱波段之间的吸光率进行算术运 算,来达到增强有用信息和抑制干扰的目的.尽管目 的是相同的,但由于与植被指数的含义存在差异,为 了与之相区别,在本文中将其称为波段算术组合. 在本研究中,先将近红外光谱数据导人到Mat. 图3训练数据集中土壤近红外光谱波段之间的相关性 Fig.3 The correlative relationship between wavelengths of soil absorbance spectra in train dataset 1ab中,假设不同光谱波段的吸光率值分别为A 和 A 按照波段差、归一化差和波段比的计算公式: , -基础上,保证了提取成分与因变量间最大的相关性, 即偏爱与因变量有关的部分,所以称其为偏最小二 乘回归 . A小(A 1一A )/(A 1+A )和A 1/A 分别计算它 们的值,然后进行进一步的分析和处理. 1.5偏最小二乘回归法 偏最d"-乘回归法的分析过程为:首先,应用主 成分分析与典型相关分析的思想来提取成分,这不 偏最小二乘回归法(partial least squares regres— sion,PLSR)是光谱多元定量校正最常用的一种方 法,已被广泛应用于近红外、红外、拉曼、核磁和质谱 等波谱定量模型的建立,几乎成为光谱分析中建立 线性定量校正模型的通用方法 . 仅保证了提取的成分尽可能多地保留原始变量的信 息且保持相互,而且使自变量与因变量间的相 关性最大;然后,采用普通最小二乘法建立回归方 程,由于成分间已不存在多重共线性,因此采用普通 偏最Jb-<乘回归法由伍德、阿巴诺等人在1983 年提出,它是在普通多元回归的基础上揉合进主成 分分析、典型相关分析的思想,很好地解决了自变量 最小二乘估计所得结果稳定性较好.因此,偏最小二 乘回归法集中了主成分分析、典型性相关分析及普 通多元回归分析的优点.在分析过程中,如主成分分 间多重共线性问题.偏最小二乘的分析原理为:偏最 小二乘回归=主成分分析+典型相关分析+普 通多元线性回归.偏最小二乘以最小二乘法为算法 基础,在尽可能提取包含自变量更多信息的成分的 析那样,偏最小二乘回归法采用截尾的方式选择前 几个重要的成分,因此需要确定模型所包含的成分 的个数.一般可采用交叉验证法来确定保证模型较 好的精度所需包含的成分的数量. 1期 沈掌泉等:用近红外光谱预测土壤碳含量的研究 35 在本研究中,以N6rgaard等人开发的iToolbox 一土壤碳含量 工具箱中的iPLS作为进行PLSR分析和建模的工 ..nn j 莩'k苹 具 m],并在建模过程中,应用交叉验证的方法来确 定模型需包含的成分的个数和防止模型过度拟合. \ \\ 2结果与讨论 、 / \ _2.1 田间土壤近红外光谱数据分析 图2为研究区训练数据集中65个样本的近红 外吸收光谱曲线,由于土壤发育自冰渍物,田块内土 图4训练数据集的土壤碳含量与土壤近红外光谱之间的 壤差异较大,加上区内高程差异明显,使不同区域土 相关性 壤水分条件差异也较大,导致有机质含量的差异也 Fig.4 The correlative relationship between soil C and soil ab- sorbance spectra in train dataset 相当明显,因此样本之间的近红外光谱也存在明显 的差异. 发现,无论是差值、归一化差值还是比值,除少量变 对训练数据集中光谱数据的128个波段进行波 量未达到显著外,大部分均达到了极显著( = 段之间的相关性分析表明,不同波段之间均存在非 0.01)的相关性,相关系数最高的甚至接近0.7,说 常高的相关性(见图3),dIqsg 一2 -g【而这种波段之间密切的相 。疆oou 明经过波段算术组合处理后,干扰信息被有效抑制, 关关系,导致一般的回归分析手段难以建立可靠的 而与土壤碳含量有关的光谱信息得到了明显的增 校正模型. 强,为应用近红外光谱来提取土壤碳含量提供了更 2.2土壤碳含量与土壤近红外光谱之间的相关性 好的基础. 对土壤碳含量与近红外光谱之间的相关性进 2.3偏最小二乘回归法的建模与预测结果分析 行分析表明,在测定的整个近红外光谱范围内,其 对原始的和经波段算术组合后的光谱数据,分 相关性均不高,除1399—1525nm范围内达到显著 表1不同光谱数据处理方式下偏最小二乘回归法的结果 水平(仅=0.05)外,其余波段均未达到显著水平 Table 1 Summary of results derived by PLSR from absor- (图4).其原因可能与光谱测定直接在田间进行, bance spectra with diferent processing methods 田间土壤水分等变化大(采样时土壤水分在2.25 —22.72%之间,变异系数达24.59%),干扰因素 多等有关. 而经过波段算术组合后的近红外光谱数据与土 壤碳含量之间的相关性得到明显提高,从图5可以  ̄,l/nm &l/nm a/nm (a) (b) (c) 图5训练数据集中土壤样本的碳含量与经波段算术组合后近红外光谱数据之间的相关系数的绝对值(a)是波段差 (b)是归一化差(c)是波段比 Fig.5 The absolute correlativity between soil C and band arithmetic combinations of absorbance spectra in train dataset (a)diference of bands(b)normalized diference of bands(c)ratio fo bands 红外与毫米波学报 29卷 薰一 I1o∞ I10∞ uIp Jd 0.5O b l10∞ ulp O.40 一交叉验证 口/ob I10∞口 u一 2 测试斯辗肇 / , 。一m--.一・+一 日 。 蓄0.30 ∽ -≮一讲 练数据集口 ●●’ r 夏0.20 0.10 一 0.0O 0 2 4 6 8 10 12 14 16 l8 2O Components (a】 耄 。 譬 蓁蚕 兰 一 图6测试数据集中的测定值与预测值比较的散点图(a)为 原始光谱数据(b)为波段差(C)为波段比(d)为归一化差 Fig.6 Plots of measured versus predicted soil C in test dataset : 蚤 蒌信 jlIIl请黼握焦 练数据篝 蓄 、一训 , ≤ :∞ d,・‘ ・+一 。, 口’ 。 夏 一 \ \。 Components (b) ・交叉验证 . 述 \一训练数辑 ・增 溱一涮试数据隼 一 夏 : ≮‘。 r,口 日 一 \ 一\Components 一 (c) .、L十训练数据集. ’ 兰'| 。 . 1蚤 崔 ‘囊 蔷i ... . ,口 一 to。 ∽ 蚕 \ 、 1 Components (d) 图7 PLSR建模过程中RMSE的变化及模型的选择(a)为 原始光谱数据(b)为波段差(e)为波段比(d)为归一化差 Fig.7 Plots of RMSE changing in processing of PLSR and mod- by PLSR(a)original spectra(b)diference of bands(C)ratio of bands(d)normalized diference of bands el selection(a)original spectra(b)diference of bands(e)ratio of bands(d)nomarlized diference of bands 别应用偏最小二乘回归法建立了校正模型,并对测 的成分个数的增加,交叉验证、训练数据集和测试数 据集的预测误差的变化(图7),可以发现,尽管训练 数据集的预测误差在各模型建立过程中的表现比较 相似,但交叉验证的误差的变化却有明显的差异,与 试数据集进行预测.表1的结果表明,与应用原始光 谱数据所建立的校正模型相比,经波段比值和归一 化差值处理后,尽管交叉验证的误差RMSE(Root Mean Square Error)略有升高,但训练数据集和测试 数据集的预测误差均有明显的降低,而差值处理的 预测误差却反而提高了;从模型所包括的成分个数 来看,也存在差异;从测试数据集中各样本测试值与 预测值的散点图(图6)也说明了同样的情况,经比 原始光谱数据相比,经过比值和归一化差值处理的 光谱数据,在建立PLSR校正模型时,似乎能接纳更 多的成分而不容易导致过配,而经差值处理的光谱 数据却比原始光谱数据所能包括的成分数量还 要少. 值和归一化差值处理的相关系数较高,其次为原始 光谱的,而差值处理的最低. 在PLSR回归模型建立过程中,随着模型包括 3结论 在田间应用行走式设备测定的近红外光谱数 1期 沈掌泉等:用近红外光谱预测土壤碳含量的研究 37 据,由于在田问条件下影响因素多,因此其与土壤碳 含量之间的相关性较低,除小部分波长的相关性达 到显著外,大部分无法达到显著,而且光谱波段之间 的相关性非常高,全部在0.96以上,给应用常规回 归方法建立校正模型带来了困难.利用波段算术组 particle size and moisture contentI J 1.Spectroscopy and SpectralAnalysis(鲍一丹,,方慧,等.土壤的光谱特 征及氮含量的预测研究. 光谱学与光谱分析),2007,27 (1):62—65. [2]YI Qiu—xing,HUANG aJing—Feng,WANG Xiu-Zhen.Hy— perspectral estimation models for crude fiber concentration 合方式处理光谱数据后,其与土壤碳含量之间的相 关性得到了明显的提高,除少量变量的相关性较低 of corn[J]. Infrared Millim.Waves(易秋香,黄敬峰, 王秀珍.玉米粗纤维含量高光谱估算模型研究.红外与 毫米波学报),2007,26(5):393—395. [3]LIU Huan-Jun,ZHANG Bai,WANG Zong—Ming,et a1. Soil saline・-alkalization evaluation basing on spectral reflec・・ 外,大部分经组合后的波长均达到了极显著水平,说 明通过波段算术组合的处理方式可以抑制干扰、增 tance characteristics[J]. .Inrarfed Millim.Waves(刘焕 强与土壤碳含量有关的信息.通过对原始的和经波 军,张柏,王宗明,等.基于反射光谱特征的土壤盐碱化 评价.红外与毫米波学报),2008,72(2):l38—142. 段算术组合处理的光谱数据分别应用偏最小二乘回 [4]COZZOLINO D,MORON A.The potential of near.infrraed 归法建立校正模型后,从的测试样本集的预测 reflectance spectroscopy to analyse soil chemical and physi- cla characteristics I J I.Jouranl of Agricultural Science, 精度的比较可以发现,与原始光谱数据建立的模型 2003,140:65—71. 相比,经过比值和归一化差值处理的光谱数据所建 [5]HUANG X W,SENTHILKUMAR S,KRAVCHENKO A,et 立的模型的预测精度有一定的改善,而差值处理的 a1.Total carbon mapping in glacila til1 soils using near-in— frared spectroscopy,Landsat imagery and topographical in— 光谱数据所建立的模型的预测精度反而有所降低. formationl J}.Geode ,2007,141:34-----42. 究其原因,经比值和归一化差值处理后,似乎能延缓 [6]CHRISTY C D,DRUMMOND P,LAIRD D A.An on-the- 模型过配的风险而使模型能够包括更多的成分数, go spectrla reflectance sensor ofr soil[C].American Soceity fo Agricultural Engineers Meeting,2003,paper number: 而差值处理却无法达到这样的效果. 031O44. 本研究的结果表明,利用偏最小二乘回归法,可 [7]TIAN Qing—Jiu,MIN Xiang-Jun.Advances in study on veg- etation indices[J].Advance in Earth Sceicnes(田庆久,闵 以有效地处理通过行走式设备获取的田间近红外光 祥军.植被指数研究进展.地球科学进展),1998,13(4): 谱数据,并建立校正模型来测定田间土壤碳的含量. 327—-333. 与直接利用原始光谱数据所建立的校正模型相比, [8]FRANK I E,KALIVAS J H,KOWALSKI B R.Partila least squares solutions for muhicomponent analysis[J].Anal 应用比值和归一化差值这两种波段算术组合方法来 Chem.,1983,55(11):1800--1804. 处理光谱数据,可以进一步提高校正模型的预测精 [9]wu Qiong,YUAN Zhong—Hu,WANG Xiao-Ning.Summary ofPartila Least Squares Regression[J].Journal ofSheny- 度.因此,利用行走式设备所测定的红外光谱数据来 ang University(吴琼,原忠虎,王晓宁.基于偏最小二乘回 快速地获取田间土壤碳含量的空间分布是可行的. 归分析综述.沈阳大学学报),2007,19(2):33—35. [10]NORGAARD L,SAUDLAND A,WAGNER J,et a1.In— REFERENCES terval partila least-squares regression(iPLS):A compara— tive chemometric stuay with an example from near-infrared [1]BAO Yi—Dan,HE Yong,FANG Hui,et a1.Spectral char- spectroscopy[J].Applied Spectroscopy,2000,54:4l3— acterization and N content prediction of soil with diferent 4】9.