前言
烃加工工业中,连续在线监测关键石油物流的性质,是强化过程控制和炼厂信息系统集成的重要环节,为表征石油物流这一高度复杂的烃类混合物,引入了一系列测试手段和标准指标,总的来说,这些指标测试费用高、重复性差、试样用量大,在线实现时维护代价高,响应速度慢。
七十年代以来,近红外光谱(NIR)技术在分析机理、仪器制造、数据处理方面有了很大发展,与传统分析仪器相比,近红外分析仪有显著优势:光纤远程信号传输,可实现非接触式测量;一谱多用,只要建立模型,可同时测量多个指标;预处理简单,分析中不需化学试剂;响应速度快;易于制成小型紧凑的过程分析仪,在农作物分析等方面已建立实用标准[47]。
八十年代末,西雅图华盛顿大学过程分析化学中心(CPAC)进行了将近红外技术用于石油化学领域的研究,最重要的工作是测量汽油辛烷值,族组成和其它几个关键指标,随后在世界范围内的众多试验室和炼厂开展了这方面的研究工作,例如位于法国的BP拉菲尔炼厂将近红外技术大量用于过程控制,效益显著:在调合工艺中,一套近红外分析仪可替代两台辛烷机和一套雷德蒸汽压测试仪和其它蒸馏测试装置,月维护时间减小到数小时,光学仪器发生故障的平均时间间隔能够提高到几百小时,辛烷值测量范围增宽,重复性偏差小于0.1,该厂借助于近红外分析系统对乙烯蒸汽裂解炉的进料进行高频监测和优化,年收益百万美元,分析设备的投资可很快回收,还有利于下游分馏塔的稳定操作
尽管NIR预测的重复性很好,在数学模型的设计上仍要谨慎从事。因为近红外技术用于石油物流性质的预测是基于ASTM系列测定的二次方法,NIR模型只有在其适用范围内,才能获得与ASTM测试一样的准确性,当对象物流由于进料、工艺等原因偏离原模型的适
用范围时,NIR模型必须重新标定。
如何提取NIR光谱和目标性质的统计关系是这门技术软件方面的关键。一些典型的数学方法有主因子分析(PCA)、偏最小二乘法(PLS)、多元线性回归(MLR)、判别分析(DA)、聚类分析和人工神经网络(ANN)等,这些基本属于计量化学问题。一个有工业价值的模型,是基于工艺、产品、光谱和数学知识,适用范围宽、预测准确、重复性好、易于维护的模型。
与国外近红外技术的应用相比,国内做的工作还很不够,红外光谱的应用主要停留在中红外光谱的定性分析上,计量化学方法的使用还较少。毋庸质疑,NIR的最大收益将来自在线监测,需要控制环节的配套投资。但是,诸如减少辛烷值测试频度的离线应用,投入小,见效快,还可为在线应用积累经验,完全可在现有试验室基础上开展。就硬件方面,国外较新的红外仪器都具备或可括充至近红外波段,数据可转至微机处理,也有具备条件的国产仪器开始推出。
由于近红外光谱数据处理的复杂性,表1所示众多性质模型的建立和维护将是一个瓶颈问题,本课题的目的在于,将传统计量化学模型与人工神经网络模型结合起来,探索通用性、鲁棒性好,易于推广使用的NIR建模方法和计算程序,促进近红外技术在石化生产中的应用。
由于辛烷值预测在石油化工中的重要作用,本工作的试验和理论工作集中于汽油辛烷值与近红外光谱的关系,但是所建立的方法毫无疑问可推广到其它油品质量指标与近红外光谱的模型关联,只要这些质量指标与红外光谱存在内在联系。同样这些方法也可应用到中红外光谱。
第一章 近红外光谱预测汽油辛烷值综述
发动机爆震现象是一个传递和反应强交互作用的复杂过程,构成了发动机运作的重要约束条件,因此衡量爆震强度的辛烷值成为汽油燃料最重要的质量指标,在控制、调合、科研试验和商检等场合及时获取辛烷值信息有重大价值。但是,传统的汽油辛烷值测定标准方法是在CFR发动机上进行的,此种方法耗样量大,周期长,测试和维护费用高。
Horowitz曾预测过,到本试纪末,辛烷值调合增量的问题很可能仍不能得到解决[51]。目前的爆震机理主要是定性的解释:由于一部分燃料和空气的混合物多次自燃,从而极迅速地完成了燃烧过程,同时伴随着冲击波的产生和残余混合物的超声速燃烧[52]。虽然已有大量单体烃和混合烃的辛烷值数据[5]-[8],从机理出发的物理化学模型或从分子结构出发的构效关联远未达到实用[53]-[57]。
改进的方法主要分为物理模拟和化学分析两种,物理模拟如热反应仪,化学分析可利用多种仪器分析方法,如汽相色谱(GC),核磁共振(NMR),近红外(NIR)等。这些方法在成为工业标准以前必须用ASTM标准的发动机测试方法来标定,所以又称为二次方法。
第一节 近红外与其它方法的比较
一、色谱法计算汽油辛烷值
J.P.Durand等指出,气相色谱用于汽油分析应解决的问题有:(1)谱图复杂,有200个峰以上。(2)不同谱峰间停留时间短,(3)对程序生温控制,同一规格的不同色谱柱停留时间不易复现[9]。1967年Jenkins最先提出将气相色谱组成分析用于计算催化重整产物的研究法辛烷值(RON)和马达法辛烷值(MON)等理化指标,对抗爆性相近的化合物谱峰进行合
并,分成12组,以各组化合物含量为自变量,用多元线性回归的方法确定系数[57]。以后的数据处理基本沿用此法。
程桂珍等人采用高分辨率毛细管气相色谱法,分析了国内20多个炼厂的200多个汽油样品,并用标准CFR发动机法测取了辛烷值,用多元逐步线性回归程序分析数据,针对催化裂化,宽馏份重整及其它混合汽油,分为MON和RON两类,共建立了六个计算公式[59]-[60]。
色谱法用来替代辛烷机,国内已有在线和试验室应用,与近红外光谱法比较,不足之处在于:采样回路和色谱分离时间根本了色谱法的响应速度;色谱柱分离条件的优化和控制也是一个问题,尤其是在线长期使用情况下;由色谱峰得到分组,再用多元线性回归关联辛烷值,有其不合理之处,因为不同烃类分组对辛烷值的贡献一般是非线性的,另外由于汽油组成之多变及色谱图的复杂性,使得特征谱峰的分组过于主观。
二、核磁法计算汽油辛烷值
Myers等(1972年)以异构链烷指数,芳烃含量,铅含量,硫含量为自变量预测RON和MON,设M,N分别是核磁共振谱中甲基峰区和次甲基峰区的氢积分值,则异构链烷指数(CH3/CH2)=2M/3N。芳烃含量由芳氢谱区的氢积分推算,铅含量用X荧光或原子吸收光谱测定。预测MON和RON的标准偏差为+/-1.1。样品应含有汽油馏分内的各种正常组分,RON范围超出91-103后,各变量的交互影响会增大[57]。
JasenkaMuhl等(19年)由核磁共振数据得到汽油的功能团和烃类组成,然后用线性回归分析研究了它们和辛烷值的关系,汽油样品来自催化重整装置,对62个样品的分析表明,RON的标准差为0.713[10]。
M.Ichikawa等人由质子磁共振(PMR)谱数据,运用模式识别和线性回归分析法预测其辛烷值。在此基础上,他们又建立了含MTBE汽油辛烷值的预测方法,MTBE的含量由PMR数据确定。得到的预测辛烷值的线性方程包括MTBE对辛烷值的贡献项[11]-[13]。
国内方面,文献[58]介绍了各种无铅汽油的HNMR谱及由各谱区相对积分值计算MON,烃族组成异构指数和氢碳比的分析方法,试样用量仅0.5ml,文中介绍的由判别因子自动分类计算程序的适用范围很广。对不同来源及不同工艺的84个汽油样品(MON为:50-100)分析结果中,MON与标准实验方法对照,烃族组成与气相色谱法对照,绝对标准偏差分别为+/-0.16-0.93和+/-0.41-3.44%。
通过核磁共振谱得到的汽油平均分子结构,能准确揭示许多与辛烷值密切相关的结构因素,但其最大的不足是仪器昂贵,不易在线实现
三、红外法计算汽油辛烷值
Honigs等用NIR同时测定了烃类混合物的生成热,分子量和甲基数。其中,生成热可准确到1.2Kal/mol,分子量准确到1.5g/mol,平均分子中甲基的基团数准确至0.057,波长范围1250-2500nm[14]。这一研究有力地提示,烃类混合物的近红外光谱,可很好地表征烃类混合物的复杂物理化学性质。
这一设想随后得到Kelly等人(19年)的验证,例如,他们在660-1215nm的近红外波段上观察到甲基,亚甲基,芳烃和烯烃功能团的谱峰,以三个波长为自变量进行多元线性回归分析(MLR),辛烷值预测的标准偏差为0.3--0.4个单位。另外九个样品的回归分析还表明,可用NIR谱峰关联RON,MON,RVP,API比重,溴价铅含量,硫含量,芳烃,烯烃和饱和烃含量,关联的偏差与实验测定偏差相近[15]。随后扩展到汽油族组成的同时
预测[21]-[22]。
N.Asker和S.Kokot提出了一种由NIR快速预测重整汽油辛烷值的方法,用PCR方法确定关联的最佳谱图区间,并能对不同原料来源的重整汽油进行分类。分析表明,在2000-2500nm区间上,有甲基,亚甲基和芳烃的C-H峰,关联公式能很好反映出:长侧链烃有较低的辛烷值,短侧链烃和芳烃有较高的辛烷值[16]。
Fields等提出在1200-1236nm的近红外区间,关联MON和RON,以实现汽油调合的在线控制和优化,此项技术已获专利,适宜测量的汽油抗爆指数((RON+MON)/2)区间为84-95,亦可扩展到75-120。为提高关联效果对红外谱图作了导数光谱,各波长上的吸收作了规一化处理,并且使用了差谱技术,关联偏差为+/-0.3个单位[19]。
Nazaneen Asker和Serge Kokot(1991年)用主因子分析(PCA)和多元线性回归(MLR)方法,从轻质裂化汽油的FT-IR谱图数据预测其挥发性指数,关联效果最佳的红外吸收区域为5800-6500nm,主要反映了芳烃和烯烃双键的吸收。此类方法,用因子分析找出最佳吸收区域很关键[18]。
文献[35]用神经网络方法分析汽油的近红外光谱图以预测汽油的辛烷值,四个波长作为输入参数,经过训练后,标准偏差为0.25个辛烷值单位。
A.D.Stuart等将FT-IR用于润滑油质量指标的快速检测,他们的工作证实,近红外区的谱峰能获得很好的关联,中红外区使用离散谱峰关联效果较差,但是经CIRCOM软件做因子分析和多元线性回归后,表明中红外区的谱峰亦可很好关联润滑油的质量指标[20]。
国内外已建立了不少辛烷值预测模型,北京第二光学仪器厂于95年10月份推出的FT
—NIR辛烷值仪提供了近红外组件,辛烷值专用测量软件由石油化工科学研究院提供,测量准确度小于0.7辛烷值单位,精确度小于0.3辛烷值单位,样品适用范围:催化裂化汽油、直馏汽油、重整汽油及其调合产品。
国外的辛烷值模型突出的是Core试验室的工作,他们的模型包括了全美各地1000多个成品汽油,并且将NIR分析仪与辛烷值发动机在线安装经数月运转取得一万多个数据用于模型标定和检验,经与其它试验室模型的对比,Core试验室认为已解决了问题。也有的试验室认为还需要在各自的炼厂和仪器上重新标定模型。Core试验室还观察到,有时对相近的谱图,辛烷值相去甚远,有时对不同的光谱,辛烷值反而相近。因此NIR的辛烷值模型是基于大量样本的统计模型,这是由于汽油组成和爆震机理的复杂性决定的。对于化学组成如汽油的族组成等,则较易得到通用性较强的模型,因为这些指标与光谱有直接的联系[17]。
随红外光谱波长增加,数据处理方法也相应复杂,能够得到的信息也越多。与其它分析仪器相比,近红外光谱在费用,速度方面有显著的优越性,更适于在线。
第二节 近红外光谱机理及数据处理方法
一,近红外光谱机理和特点
分子在近红外区出现的谱带都是由于分子的振动能级变化而造成的,对最简单的双原子分子,假设为理想的谐振子,其振动能量为EMBED Equation ;分子的基频振动频率由霍克定律决定,对最轻的分子,其谱带出现在2526nm据此推算其它更重的分子基频谱带出现在波长大于2500nm红外区实际分子振动并不是理想的简谐振动,当分子具有高能势时将偏离谐振子特性,其振动能量方程按级数展开:
EMBED Equation.2 \\* mergeformat
分子振动的非谐振性导致倍频振动,其频率大致为基频频率的整数倍,正是分子的倍频振动形成分子的近红外光谱,第一倍频谱带强度减少10倍以上,更高频的谱带强度更弱。这意味着只有在4000~2000EMBED Equation (2500~5000nm)范围内的基频带才能在NIR区形成有适当强度的倍频带;而根据实际分子基频带的分布又推知只有与氢有关的功能团,主要是OH—、CH—、NH—才能在NIR区形成有适当强度可检测的倍频振动谱带[47]-[48]。
分子振动的非谐振性还会形成分子的联合振动—分子各振动间的和频或差频振动。分子的联合振动谱带可出现在NIR区。表1-1为烃类主要基团的近红外谱峰指定,图1-1和图1-2是一组汽油样品的近红外谱图。图1-3是直馏汽油和苯的红外光谱图,由此可看出近红外谱区由于谱峰的重迭呈现的表观谱图有别于中红外区的尖峰。
NIR富含甲基,亚甲基,烯烃和芳烃C-H的倍频和组合频振动谱峰,并与分子结构中的其它部分隔离,石油产品恰恰主要是由这些基团构成的,并且这些基团的相对含量与油品的各种性质有密切的联系,这正是NIR能够用于油品诸多性质定量预测的重要前提。由于在NIR区出现的谱带只限于若干含氢基团,了NIR的分析对象,不适合未知物的定性分析。
对一般的样品,谱图非常近似,如图1-1,1-2是三个调合汽油样品谱图的叠合,研究法辛烷值分别为87.2,90.7和92.5,谱图间细微差别和辛烷值的关联是通过特殊的数据处理方法实现的。
近红外谱图所含信息本质上与中红外波长的信息相同,从吸收强度易于检测的角度来
看,似乎使用中红外定量更合适。但由于光源、检测器、光导传输方面的技术,目前近红外仪器技术更适于在线应用。另外还有一些特殊场合需要使用近红外技术,如测定葡萄酒中的酒精浓度、全糖浓度及挥发酸浓度,试样所含大量水份对长波长红外光谱的强吸收作用形成的干扰使得定量组份测定无法进行[72]。近红外分析不需使用试剂也是一大优点。
近年来,红外光谱分析中基于吸收强度计算的定量分析方法日趋普遍,这很大程度上归因于计算机性能价格比的提高,另外,现代红外分析仪器的进展、微机控制和数字化也很大程度上提高了谱图的可靠性和重复性。在此以前,一般的红外定量分析只是简单地估算某一谱峰相对于基线的强度值,此种方法只在组分数目不多,并且各个组分的特征峰不与其它组分的谱峰重叠的情况下适用,至于利用整个谱图数据点的矩阵计算方法,虽然在七十年代已发展起来了,但受到计算机硬件和软件的,直到近十年才普遍使用起来[28]。
近红外光谱模型分标定和使用两个过程,如图1-4所示。模型标定的目的在于从已有的标样数据集中提取光谱和目标性质的关系,并以模型参数的形式确定下来,这里模型参数广义地还包括模型特有的预处理、数据变换和控制参数等。为检验模型的预测或识别能力还有一个检验过程,实际上是一个已知目标性质的模型使用过程,模型的使用相对简单,由未知样品的光谱通过相应模型的计算即可确定该样品的目标性质。
EMBED MSDraw \\* mergeformat
图1-4,近红外光谱模型的标定和使用过程示意
模型的非线性问题是当前的热点,文献[26]-[27]回顾了大多数计量化学模型,如LWR,PPR,ACE,MARS,NN,PCR和PLS。
其中常用的偏最小二乘(PLS)和主因子回归分析(PCR)用来处理非线性问题有两种途径:增加因子数以及引入非线性的基函数[31]-[33]。
上述方法多是建立在线性模型的基础上的,它对于解决非线性问题有一定困难,而人工神经网络(ANN)在解决非线性问题则显示出一定的优越性[49]。使用最多的神经网络模型是反向传播模型(BP)[34],由于神经网络在理论上还不尽成熟,在使用中有许多经验性的环节,也由于与其它模型比较时使用的数据集不同,各文献的结果不尽相同[29]-[30]。本课题中对此作了考察。
在具体的应用中还要判断样品的大致类型,检查未知样品的光谱是否满足模型的要求、仪器工作是否正常,为此引入判别分析方法[44]-[46]。
蔡煜东等将Kohonen自组织神经网络用于氟化物非晶态形成的判别,证实Kohonen的自学习算法对于聚类问题有普遍的适用性,与一般多元判别方法相比,具有容错能力强,识别速度快的特点[68]。
文献[73]根据原油的六项性质指标(密度、粘度、酸值、凝点、残碳、硫含量)对不同来源的原油进行聚类分析,以识别待加工的原油的属性。与光谱识别方法比较,这种方法的不足在于六项指标能否充分表征原油,而且测定待加工原油的六项指标也不是很容易的。以润滑油监测为例,传统的指标分析法只能得到油品一方面信息,而本质的问题是油品化学组成的变化,光谱分析可较全面获取油品化学组成的信息[75]。
第二章 计量化学模型及数值检验
计量化学(Chemometrics)在1970年由瑞典的S.Wold教授首先提出:\"计量化学是一门化学分支学科,它应用数学和统计学方法(借助计算机技术),设计和选择最优的测量结果和试验方法,并且通过解释化学数据而获得最大限度的信息。\"[81]采用有效的计量化学手段可使数据的获取、处理及由分析数据加工成有用的分析信息的过程日趋自动化与智能化,计量化学还可帮助化学家发展许多新的测量方法,如油品性质预测。
第一节 计量化学模型基础
传统的多组份光谱分析(MCA)往往将谱线离散化,使用个别的谱峰关联混合物中的组份,当谱峰重叠时,选择合适的谱峰位置甚为困难,不幸的是,对有机和生物分子,分子间的交互作用强,而且此类交互作用随组分浓度不同而变化,当组份增多,谱峰重叠严重时,MCA几乎不能使用。相比之下,将整个谱图加入数据处理,可充分利用信息,从而大大提高计算精度。
一、主因子分析
从真实样本得到的谱图不可避免包含有谱图线性相关、空气吸收干扰、测量仪器的影响及其它随机噪声,主因子分析至少有两个显著的作用:通过因子的隔离,在一定程度上滤除噪声;基于主因子之上,可建立鲁棒性增强的谱图和其它指标之间的数学模型。在这个意义上,有人将直接由试验数据构造的数学模型称为硬模型,将基于主因子上的数学模型称为软模型。
由于主因子分解过程是PCA,PCR,PLS算法的基础,也是模式识别和神经网络用于
近红外光谱的重要预处理手段,这里作详细的展开
设原始数据矩阵为D(m×n),为讨论方便,不妨假设m>n
则其协方差阵Z有两种构造方法
EMBED Equation (2.1.1)
EMBED Equation (2.1.2)
二者出发得到的特征值和特征向量是一样的,设第k个特征值为EMBED Equation 相应特征向量为EMBED Equation 根据特征向量的定义
EMBED Equation (2.1.3)
使的Z对角化
EMBED Equation.2 \\* mergeformat (2.1.4)
EMBED Equation
Q的列归一化后形成正交归一向量集合,则EMBED Equation
设EMBED Equation (2.1.5)
则有
,
EMBED Equation (2.1.6)
令EMBED Equation ,则
EMBED Equation (2.1.7)
R(m×h)的列数或C(h×n)的行数即称为因子数。这个过程的重要意义在于原始数据矩阵分解为两个较小的矩阵,前边的因子尽可能多表达了原始数据矩阵的方差,当选取h 另一种更有效的方法是迭代求解,可连续计算特征向量,第一个特征向量在最小二乘意义下说明原始数据矩阵尽可能大的方差,即使这一向量穿过数据点最集中的部分,第二个特征向量与第一个正交,并尽可能说明剩余方差的最大部分,直至第n个特征向量说明最后的方差。 EMBED Equation (2.1.8) 设EMBED Equation 表示用前 个因子复原得到的数据矩阵的元素,EMBED Equation 表示前 个因子下复原数据矩阵与原始数据矩阵差值矩阵的元素 EMBED Equation (2.1.9), EMBED Equation (2.1.10) 当h=1, EMBED Equation 在最小二乘意义上确定使e最小的c EMBED Equation EMBED Equation 矩阵表示为 EMBED Equation (2.1.11) 设EMBED Equation 则有 EMBED Equation , 取转置得到 EMBED Equation (2.1.12) 由于特征向量的正交性EMBED Equation 其中EMBED Equation 是KroeneckerEMBED Equation EMBED Equation , 式(2.1.8)右乘EMBED Equation 得到 EMBED Equation 代入(2.1.12)得 EMBED Equation 根据协方差定义有 EMBED Equation (2.1.13) 至此得到第一个特征值及特征向量 当h=2, EMBED Equation EMBED Equation EMBED Equation EMBED Equation 定义 EMBED Equation 则EMBED Equation (2.1.14) 其中EMBED Equation EMBED Equation 代入(2.1.14)得 EMBED Equation (2.1.15) 设剩余矩阵E的方差为S,则 EMBED Equation EMBED Equation (2.1.16) 得到第二个特征值和特征向量,同理有第h个特征值和特征向量 EMBED Equation 其中EMBED Equation 这一过程可以在不求协方差阵的情况下迭代求出前h个特征向量和特征值,适于计算机实现。非线性迭代偏最小二乘法(NIPALS)即在此基础上实现的,算法的C++语言描述见表2-1,有关符号说明见附录一。 表2-1,NIPALS算法的程序语言描述 Tabel 2-1 Algorithm of NIPALS for(k=0; k EMBED Equation //initilize t with random column of X do{ EMBED Equation //calculation of loading vector EMBED Equation //normalize of loading vector EMBED Equation //calculation of new score vector }while(EMBED Equation ) EMBED Equation //calculation of residual data matrix } 二、主因子回归(PCR)和偏最小二乘法(PLS) 用于谱图与目标性质关联的方法显然与传统的多组分分析有密切的关系。全谱图处理方法一个很重要的用途是多组分分析,传统的多组分分析方法有K-矩阵法,P-矩阵法,简介如下: 设A为光谱矩阵,C为浓度矩阵,K,P为系数矩阵 K-矩阵法基于Beer定律上,即每一波段上的吸收度正比于组分浓度 EMBED Equation.2 \\* mergeformat 假定模型误差由谱图引起,即认为标准物的浓度是准确的 EMBED Equation (标定过程) EMBED Equation (预测过程) 在标定过程中各组分浓度必须同时已知。可认为是一种因子分析方法,因子数等于组分数 P-矩阵法假设浓度是吸光度的函数,即逆比耳定律成立 EMBED Equation 假定模型误差由浓度数据引入,模型标定中减少浓度误差平方和 EMBED Equation (标定过程) EMBED Equation (预测过程) 在标样混合物中只有一个组分浓度已知的情况下仍可使用,但是要求谱图数字化点数小于等于样本数,因此波长点数不易选取。当波长点数选取不当,基线漂移,噪声,共线性,过度拟合等问题会引入大的误差到模型中。 上述两种方法都不适合本工作的模型需求 主因子回归分析(PCR)和偏最小二乘分析(PLS)是使用主因子分析作定量计算的两个相近但又有区别的方法,它们都包括对谱图进行特征向量分析这一步,需确定主因子数,另外它们都使用某种形式的多元线性回归(MLR)以达到最终分析结果,所不同的是原始光谱矩阵的分解过程。 PLS和PCR算法均将原始光谱矩阵分解为得分矩阵和载荷矩阵,并在最小二乘意义上确定得分向量和目标性质向量的关系 EMBED Equation EMBED Equation 其中T-得分矩阵,P-载荷矩阵,b-模型参数 两者的得分矩阵T的列都是两两正交的。PCR得到的载荷向量是抽象数值解,它们的线性组合可很好地表达X,但对于关联目标性质则不是最优的,PCR的载荷向量间是正交的。PLS的载荷向量在迭代求解过程中与目标性质相关,但载荷向量间不再具有正交性 Fredricks等人对PCR算法作了些技术上的该进,以挑选那些对被关联的性质有显著影响的因子,这一思想在CIRCOM软件中实现,下面据此对PCR算法作一说明,对谱图矩阵D(m×n),根据比耳定律有, EMBED Equation 其中n为样本数,m为谱图点数,k为组分数,当谱图点数远远大于样本数,使用多元线性回归求解上式的K矩阵是不可能的,当然可选择少量的谱峰但是选多少谱峰,选哪些谱峰是个困难的问题 PCR法可避免上述问题,首先通过取原谱图矩阵的协方差阵Z, EMBED Equation.2 \\* mergeformat 通过Jacobi变换,得到使Z对角化的特征值和特征向量矩阵Q(n×h) EMBED Equation Q的h个列向量对应于E的对角线上的h个特征值,其中因子数EMBED Equation ; 相应于h个抽象因子的谱图矩阵F(m×h)为 EMBED Equation.2 \\* mergeformat EMBED Equation.2 \\* mergeformat 表明原始谱图矩阵可由因子的抽象谱图矩阵复原得到 上式取转置,并令,EMBED Equation 则得到数据矩阵分解的更常用的一种表达 EMBED Equation 一般地,我们称T为得分矩阵,P为载荷矩阵 则目标性质矩阵Y(n×k)与得分阵Q(n×h)的关系可由下式确定 EMBED Equation 为使EMBED Equation (n×k)最小,由最小二乘法得 EMBED Equation.2 \\* mergeformat 上式中B(h×k)包括k个目标性质的回归系数,实际上对不同的指标,因子数h可能不同,计算中每次只确定一个目标性质的系数 对于性质指标未知的谱图,首先求取其得分矩阵EMBED Equation EMBED Equation.2 \\* mergeformat 由模型参数B可得目标值 EMBED Equation.2 \\* mergeformat 上述PCR法中要用Jacobi变换求解协方差阵的全部特征值和特征向量,对大样本集合运算量很大。在本文工作中,另外还采用了NIPALS算法迭代求解得分矩阵,再用多元线性回归(MLR)求解模型参数的方法。 PLS1算法是对NIPALS的改进,在迭代过程中使数据矩阵与目标性质相关,并且每次 只与一个目标性质关联。算法的C++语言描述见表2-2,2-3。 表2-2 PLS1算法标定过程的语言描述 Tabel 2-2,PLS1 Algorithm for Calibration mean center of X and y for(k=0; k EMBED Equation //calculation of weight vector EMBED Equation //normalize of weight vector EMBED Equation //calculation。 of score vector EMBED Equation //realte score vector to properties EMBED Equation //calculation 。 of loading vector EMBED Equation //calculation。 of residuals in X and y EMBED Equation // } 表2-4,PLS1算法预测过程的语言描述 Tabel2-4,PLS1 Algorithm for Prediction center x using calibration data y= mean of y in calibration for(k=0; k EMBED Equation //t[k]is a scale EMBED Equation //b[k] is model parameter EMBED Equation // } return y 第二节 计量化学模型的数值检验 必须确定有物理意义的因子的数目,才能达到过滤噪声的目的,针对本工作中样品集合小的特点,我们采用一种交叉检验的方法,对n个样本的数据集,每次选取(n-1)个样本回归模型,用剩余的一个样本检验,在因子数水平pcn下这个过程进行n次,得到预测残差平方和(PRESS)。这个指标可基本反映模型在回归和预测两方面的性能。通过考察PRESS与因子数pcn的关系,可确定适宜的因子数。一般选取使PRESS最小的因子数,并且同时使因子数尽可能小。 EMBED Equation 为横向比较不同算法,引入SEC%,SEP% EMBED Equation.2 \\* mergeformat EMBED Equation.2 \\* mergeformat 上述指标与PRESS可得到一致的结论。 为考察不同算法的数值性能,引入一系列模拟数据集。 模拟谱图由Lorentz函数产生的波峰迭加而成 EMBED Equation EMBED Equation 其中A—最大吸收度,W—波峰半高宽度,Xc—波峰中心位置 EMBED Equation —第 个模拟谱峰, EMBED Equation —第 个组分的浓度 EMBED Equation —合成的模拟谱图 EMBED MSDraw \\* mergeformat 图2-1,模拟谱图谱峰 以组分二的浓度为目标性质,浓度区间在[0.5,0.8],为考察谱图噪声、浓度噪声和非线性对算法性能的影响,产生如表2-5的五组模拟数据集,随机选取50个样本为标定样本,50个样本为检验样本。 图2-2,模拟数据集的部分合成谱图(含谱图噪声和非线性关系) EMBED MSDraw \\* mergeformat 图2-3,PLS和PCR交叉检验对比(无干扰数据集) EMBED MSDraw \\* mergeformat 图2-4,不同模拟数据集合的PLS交叉检验结果 表2-5显示不同数据集下对组分二的模型回归(SEC)和预测结果(SEP) 图2-5显示综合数据集PLS回归的前四个载荷向量,显然这个组成系统可用三个变量描述,第四个载荷向量已近于噪声。 图2-5,综合数据集PLS载荷向量1 图2-6,综合数据集PLS载荷向量2 图2-7,综合数据集PLS载荷向量3 图2-8,综合数据集PLS载荷向量4 表2-5 PCR PLS的数值性能比较 PLS PCR 数据集 因子数 SEC SEP SEC SEP A.(无噪声) 3 2.1×EMBED Equation 2.1×EMBED Equation 2.1×EMBED Equation 2.3×EMBED Equation B.(5%谱图噪声) 3 0.7652 0.8183 0.7845 0.8240 4 0.3947 0.7318 0.7845 0.8240 5 0.21 0.7373 0.7838 0.8231 C.(2%浓度噪声) 3 1.1019 1.1343 1.1019 1.1343 4 1.0884 1.1630 1.0929 1.1555 D.(非线性) 3 0.1558 0.3001 0.1558 0.3002 4 0.00019 0.00023 0.00019 0.00024 5 0.000102 0.00028 0.00019 0.00024 E.(综合数据) 3 1.3355 1.4016 1.3671 1.3995 4 0.5712 1.7704 1.3622 1.4103 5 0.3053 1.8838 1.3593 1.4159 *注:综合数据的因素包括5%谱图噪声,2%浓度噪声,非线性交互 小结 1、与谱图噪声相比,目标性质的噪声(误差)显著提高了预测残差平方和,对模型效果的影响是直接的。 2、对PLS和PCR,简单的非线性关系可通过增加因子数来拟合。 3、在最初的因子个数内,PLS的预测残差平方和比PCR下降更快。这是由于在PLS的数据矩阵分解过程中,数据矩阵与目标性质相关联的原因。而PCR的因子求解过程和关联过程是分别进行的。 4、因子数选取过多,模型引入噪声,标定集合过度拟合,倾向于增大SEP。 第三章 人工神经网络模型及数值检验 第一节 人工神经网络模型 一般认为,目前人工智能领域有两个重要分支,或者两种研究方法:一是生理结构的模拟,一是宏观功能模拟,前者表现为人工神经网络方法,后者表现为符号处理方法,如专家系统。 文献报道的光谱分析专家系统多为定性分析的,通过将规则库与谱图检索技术联用,模拟分析化学工作者对谱图的解释过程,通常这依赖于纯化合物的谱图库[42]-[43]。 用于汽油性质指标预测的近红外光谱模型则不具有传统意义上的标准谱库,而且模型本身要求严格定量。本课题需建立的是一个基于数据处理的(而不是基于知识的)、预测模型和模式识别相结合的系统。一般将这样的系统称之为计算智能系统(CI),以区别于传统的人工智能系统(AI)。 人工神经网络是由大量简单的处理单元互连而成的计算网络结构,是一个高度复杂的非线性动力学系统,是人脑神经网络的简化、抽象和模拟。1943年首先提出神经元的数学模型以来,人工神经网络的研究几经起落,直到Hopfield在1982,1984年的工作中引入Lyapnov函数,使网络稳定性有了明确的判据,神经网络的研究才开始迅速发展,其中1985年美国MIT的PDP小组提出的反向传播模型是近年来用的最多的网络之一。这一训练算法把一组样本的输入-输出问题变为非线性优化问题,使用了最速下降法。由于此神经网络可以通过任意N维空间到M维空间的映射,对N和M的大小并没有,这使得众多的现实世界中的问题可化成为这种神经元网络,如模式识别,系统辩识,预测,控制,图象处理,数据压缩,函数拟合等问题。它具有很强的自组织,自适应能力,通过对有代 表性例子的学习,训练,能够掌握事物的本质特征,目前对神经网络的研究热潮,反向传播(BP)模型是起了重要作用的模型之一,这也表明我们的世界还有大量无法用传统建模方法解决的问题 反向传播模型的拓扑表示是一个前馈全互联的网络结构,如图3-1,3-2所示,它由大量简单的处理单元(神经元)组成, EMBED MSDraw \\* mergeformat 图3-1 前馈神经网络拓扑图 EMBED MSDraw \\* mergeformat 图3-2 处理单元(神经元)示意图 第二节 反向传播模型学习算法 令某一训练输入矢量为Xk,网络实际输出为Yk,对应输入Xk的理想输出为Dk(即导师信号),输出误差和为: EMBED Equation (3.2.1) j为输出层的第j个神经元。由最速下降法知各层神经元的权重系数迭代方程为 EMBED Equation.2 \\* mergeformat (3.2.2) EMBED Equation.2 \\* mergeformat (3.2.3) 由EMBED Equation ,得 EMBED Equation , (3.2.4) 对输出层有EMBED Equation 将EMBED Equation 代入(3.2.4)式,得到: EMBED Equation (3.2.5) 其中EMBED Equation EMBED Equation 显然EMBED Equation 令EMBED Equation ,则网络权重的调整规则为 EMBED Equation (3.2.6) EMBED Equation 由EMBED Equation 对于输出层有: EMBED Equation , EMBED Equation EMBED Equation 其中转递函数为EMBED Equation 对于中间层, EMBED Equation (3.2.7) EMBED Equation (3.2.8) 上述算法在各训练样本相差较大时,易引起网络参数振荡,为稳定学习效果,在式(3.2.6)引入一个记忆(动量)项EMBED Equation 。 EMBED Equation (3.2.9) 其中EMBED Equation —学习速率,EMBED Equation —动量因子 表3-1神经网络算法语言描述 Table 3-1 Algorithm of Backpropagation 1. Assign network structure ,learning parametersEMBED Equation 2.EMBED Equation //Assign random value to thresholds and wreights do{ 3.EMBED Equation // k is the index of training patterns , 4.EMBED Equation //calculate outputs in the output layer 5.EMBED Equation 。//calculate error term of output layer 6.EMBED Equation //calculate error term of hidden layer 7.EMBED Equation //adjust weight and threshold 8.EMBED Equation }while(EMBED Equation ) 第三节 反向传播算法的数值检验 神经网络模型的主要问题涉及学习的局部最小问题,过度拟合问题、学习参数的选择等。 数值检验总的结果是,在学习参数选择适当的情况下,对非线性模拟数据集,得到与PLS相当的结果,与PCR相比,能用较少的因子达到相同的预测能力。 下面以上一章模拟数据集E(见表2-5)为例讨论我们的计算结果。其中由主因子分析得到的前三个得分量作为网络的入口参数,以组分二(A2)的浓度值作为网络出口。作为学习样本,样本数仍为50。检验集合样本数为50个。 图3-3表明,在学习速率为0.1,动量因子为0.0,学习次数100000下,最初的隐含层单元个数的增加可提高预测性能,随后增加隐含层单元数目则改进不大。隐含层单元个数往往与具体数据集的特性有关。对本问题应选取3—4—1结构。 图3-4和图3-5考察学习速率和动量因子的影响,网络结构取为3—8—1。图3-4的动量因子取为0.0,学习速率依次取0.1,0.5,0.8,可见过高的学习速率引起网络振荡,使网络参数的调整停留在局部最小。图3-5则在学习速率取为0.8时调整动量因子依次为0.1,0.3,0.5,可见适宜的动量因子可稳定和加快学习过程,取值过大时反而使网络更易停留在局部最小。 图3-3 隐含层单元数对网络性能的影响举例 EMBED MSDraw \\* mergeformat 图3-4,不同学习速率对网络性能的影响举例 EMBED MSDraw \\* mergeformat 图3-5,不同动量因子对对网络性能的影响举例 EMBED MSDraw \\* mergeformat 图3-6,网络过度拟合举例一 EMBED MSDraw \\* mergeformat 图3-6,网络过度拟合举例二 图3-5,3-6显示SEC和SEP随网络训练次数N的变化情况,当训练集合(学习样本)与检验集合相近时,随学习系数增加,SEC与SEP趋于一致如图3-5;对两个样本集合差异较大的情况(尤其在样本数很小的时候)下,训练集合虽可进一步拟合,但是此时检验样本的预测偏差已开始上升,此时称网络已过度拟合。 小结 1、直接使用谱图数据作为BP网络入口参数,使网络规模过大,网络学习过程中陷入局部最小,为此先对谱图作主因子提取,作为网络的入口。 2、在网络规模过大的情况下,易引起过度拟合,为此在学习过程中同时显示SEC与SEP,以控制网络停止学习的时机。 3、对非线性模拟数据集,BP得到与PLS相当的结果,与PCR相比,能用较少的因子达到相同的预测能力。对典型的线性问题,则建议使用线性的方法 4、采用低学习速率和动量因子有利于网络稳定 第四章 汽油辛烷值预测模型 第一节 试验概况 一、近红外光谱试验简介 对40个已知辛烷值数据的汽油样品,分别采用清华仪器分析中心的PE—2000和北京第二光学仪器厂由WQF—400型付立叶变换红外光谱仪改装后的FT-IR辛烷值仪测取了近红外光谱数据,样品集合主要由催化裂化、烷基化、重整及调合汽油及成品汽油组成。样品来源于东炼和石化研究院。其中WQF—400型选用波数范围10000—6000EMBED Equation ,分辨率取8EMBED Equation ,检测器为InGaAs,石英液池,分束器为GaF2晶体镀Fe2O3。PE—2000型选用波数范围为7000—1000EMBED Equation ,分辨率取4EMBED Equation ,DTGS检测器,窗片采用GaF2,KBr分束器。 汽油样品光谱测试前在0—5℃下避光保存,红外光谱测试结果以数据文件的形式保存在软盘上。其中PE-2000型红外光谱仪测得的数据文件为Lotus的WK1格式,采用Origin绘图软件转化,透过率取至小数点后第5位。 二、汽油辛烷值数据来源及测定 根据GB/T—87试验标准,一种燃料的辛烷值是在标准操作条件下,将该燃料与已知辛烷值的参比燃料混合物的爆震倾向相比较而被确定的。具体的做法是,借助于改变压缩比,并用一个电子爆震表来测量爆震强度而获得标准爆震强度。 研究法辛烷值与全尺寸点燃式发动机低速运转下的抗爆性相关,马达法辛烷值与全尺 寸点燃式发动机高速运转下的抗爆性相关联。 测定精密度由重复性和再现性两个指标衡量,在95%置信水平下 重复性是指:在同一试验室,由同一操作人员,用同一仪器和设备,对同一试样连续做两次试验,对测定90至95研究法辛烷值范围内的试样时,其差值不得超过0.2辛烷值;再现性是指:在任意两个不同实验室,由不同操作人员,用不同仪器和设备,在不同或相同的时间内,对同一试样所测得的偏差不应超过以下数值 平均研究法辛烷值范围 80.0 85.0 90.0 95.0 100.0 105.0 110.0 辛烷值评定最大偏差 1.2 0.9 0.7 0.6 0.7 1.1 2.3 图4-1催化(FCC),烷基化(ALK),重整(REF)汽油组分 的近红外光谱图(1000-1600nm),WQF-400测定 图4-2催化(FCC),烷基化(ALK),重整(REF)汽油组分 的近红外光谱图(1600-3000nm),PE-2000测定 如图4-1和图4-2是催化(FCC),重整(REF),烷基化(ALK)汽油组分的近红外光谱图,研究法辛烷值分别为88.5(FCC)、94.0(REF)、96.5(ALK),可见在各个谱峰上,光谱吸收度与辛烷值并不是成简单的正比关系,这是由于增进辛烷值的两种基团(芳烃C-H和端甲基C-H)都起作用的缘故。各谱峰的指定可参照表1-1,这里显示的是有典型差异的三个样 品。其它一些典型的汽油近红外光谱见附录二。 第二节 试验数据处理结果 一、不同模型主因子数的确定 为考察不同近红外模型预测辛烷值时合理的因子数,采用一个含17个样本的数据集,谱图区间10000—6500EMBED Equation ,分别对研究法辛烷值和马达法辛烷值作PCR和PLS模型的交叉检验。 EMBED MSDraw \\* mergeformat 图4-1 PLS,PCR对研究法辛烷值的交叉检验结果 EMBED MSDraw \\* mergeformat 图4-2 PLS,PCR对马达法辛烷值的交叉检验结果 由图4-1,4-2可看出,对两种模型,两种辛烷值,主因子数均为六,并且在前六个因子内,PLS比PCR的预测残差平方和下降更快,与模拟数据集的结论一致。 二、不同谱图区间对辛烷值关联的比较 为比较不同谱图区间上及不同仪器上模型的关联效果,将整个谱图划分为五个区间:A(9000—7500EMBED Equation ),B(7500—6500EMBED Equation ),C(6500—5000EMBED Equation ),D(5000—3500EMBED Equation ),E(2500—2000EMBED Equation )如图4-3,4-4,其中A,B区WQF-400仪器测得,谱图的数字化间隔取为3.8EMBED Equation 。C,D,E区由PE-2000仪器测量,谱图数字化间隔取为4EMBED Equation 。 汽油样本由以催化组分油为主的调合油构成,共13个样本,为减少辛烷值测量偏差的影响,采用爆震指数作为目标性质 爆震指数=(研究法辛烷值+马达法辛烷值)/2 EMBED MSDraw \\* mergeformat 图4-3典型汽油组分的近红外光谱(WQF仪器测定) EMBED MSDraw \\* mergeformat 图4-4典型汽油组分的近红外光谱(PE-2000仪器测定) 由上述条件下作五个谱图区间上PLS模型的交叉检验,结果如图4-5,4-6 图4-5,WQF-400谱图交叉检验 图4-6,PE-2000谱图交叉检验 由于谱图数字化间隔基本相同,目标性质相同,检验结果基本反映谱图质量对模型的影响。对WQF-400,两个谱图区间效果相当,在因子数为3时达到PRESS=0.8,PE-2000的中红外区间E与近红外区间D在因子数为2时达到PRESS=0.7,区间C显然由于吸收 强度过弱,关联效果不好。上述结果证实汽油的中红外区由于信号强,信息丰富,可很好地与辛烷值关联。 三、不同模型对辛烷值预测的比较 为考察不同模型对汽油辛烷值预测能力,选取近红外试验的16个样本作回归模型的标定集合,另外9个样本作检验集合,目标性质是研究法辛烷值。分别建立三种模型:PLS,PCR,NN,如表4-1。预测结果如表4-2。 由于样本范围宽,近红外试验的仪器原因以及辛烷值数据的来源不同等因素,如图4-7,对PCR因子数为9,对PLS因子数为7。标定集合平均辛烷值为90.99,检验集合平均辛烷值为90.62 近红外光谱数据选用10000—6500EMBED Equation 波数范围的谱图。每个谱图数据点数为908个。 EMBED MSDraw \\* mergeformat 图4-7,PLS,PCR对标定集合的交叉检验结果 表4-1 几种模型对研究法辛烷值的回归偏差比较* 汽油样品类型 实验RON PLS预测值 PLS回归偏差 PCR预测值 PCR回归偏差 NN预测值 NN回归差 催化调合 87.6 87.9 0.29 88.1 0.48 87.8 0.25 催化调合 88.2 .1 0.87 88.9 0.70 88.6 0.35 催化调合 87.2 87.5 0.30 87.2 -0.01 87.7 0.47 催化重整 90.7 90.3 -0.43 90.5 -0.18 90.1 -0.62 催化重整 91.0 90.9 -0.05 90.6 -0.36 91.1 0.06 催化重整 91.7 90.8 -0.85 90.8 -0.92 90.9 -0.77 催化烷基化 90.2 90.3 0.10 90.5 0.30 90.6 0.42 催化烷基化 91.4 91.9 0.46 92.0 0.57 91.9 0.53 催化烷基化 92.5 91.3 -1.22 91.0 -1.46 91.6 -0.93 催化组分油 88.5 88.6 0.14 .2 0.66 .2 0.70 烷基化油 96.5 96.6 0.13 96.6 0.15 96.1 -0.37 重整汽油 94.0 94.4 0.38 94.4 0.38 94.5 0.51 成品汽油 93.0 93.4 0.41 93.2 0.24 93.3 0.32 组分油 86.5 86.6 0.12 86.5 -0.02 87.3 0.76 未知油 96.6 96.6 0.01 96.6 -0.02 95.9 -0.68 组分油(伊朗) 90.2 .5 -0.66 .7 -0.51 .5 -0.69 注:*其中模型参数 (1)PLS因子数=7,SEC=0.57,SEP=0.71 (2)PCR因子数=9,SEC=0.63,SEP=0.69 (3)NN网络结构为8—4—1,入口数据采用PCR分析的前8个主因子得分,学习速率=0.3,动量因子=0.01,训练次数=20000,SEC=0.,SEP=0.70, 表4-2. 几种模型对研究法辛烷值的预测偏差比较* 汽油样品类型 实验RON PLS计算结果 PLS预测偏差 PCR计算结果 PCR预测偏差 NN计算结果 NN预测偏差 催化调合 87.7 88.4 0.68 88.4 0.67 88.4 0.67 催化调合 87.5 87.6 0.14 88.0 0.46 87.7 0.20 催化重整 91.6 90.6 -1.01 91.0 -0. 90.1 -1.52 催化烷基化 90.6 91.3 0.68 91.2 0.60 91.0 0.38 重整汽油 94.0 94.4 0.38 94.4 0.38 94.5 0.51 组分油 86.7 86.3 -0.35 86.1 -0.58 87.1 0.43 成品汽油 91.7 92.4 0.69 91.2 -0.48 91.6 -0.05 组分油(伊) 90.1 91.0 0.92 91.3 1.18 90.6 0.55 未知油 95.7 96.1 0.44 95.8 0.12 95.7 -0.04 根据PLS和PCR中各因子的载荷向量与原始谱图的关系,可考察各因子在模型中的物理意义。作为对照,图4-8是标定集合中部分样本的谱图。图4-9—图4-14为PLS模型的前6个载荷向量,横坐标为波数,与图4-8相同,纵坐标单位不等同于吸收度,因为谱图数据矩阵在回归前作了平均标准化处理,但能反映谱图的趋势。 EMBED MSDraw \\* mergeformat 图4-8,标定集合中的典型谱图样本 图4-9与图4-8对照,主要反映了芳烃基团与辛烷值的正关联(8750-8500EMBED Equation )和亚甲基(8250EMBED Equation )与辛烷值的负关联,图4-10与图4-8对照,主要反映了甲基(8500-8250EMBED Equation )与辛烷值的正关联。总的来说,前边的载荷向量反映谱图与目标性质的关联,后边的载荷向量趋于带有更多的噪声。 EMBED MSDraw \\* mergeformat 图4-9载荷向量1 EMBED MSDraw \\* mergeformat 图4-10载荷向量2 EMBED MSDraw \\* mergeformat 图4-11载荷向量3 EMBED MSDraw \\* mergeformat 图4-12载荷向量 4 EMBED MSDraw \\* mergeformat 图4-13载荷向量 5 EMBED MSDraw \\* mergeformat 图4-14载荷向量 6 第三节 二甲苯调合抽余油的近红外光谱 为研究汽油调合与近红外光谱的关系,考察这种关系对预测模型的影响。我们同时测定了芳烃抽余油调合二甲苯的研究法辛烷值和近红外光谱,基础油为扬子石化芳烃厂去芳烃抽余油,二甲苯为分析纯,EMBED Equation 含量不低于80.0%,甲苯不高于0.1%,乙苯不高于19.0%,硫化合物不高于0.006%。 辛烷值测试条件按国标GB/T 87—85,相应于AS—2699。仪器规格CFR-48,由美国Waukesha生产。按如下方案调合并测取研究法辛烷值 表4-3 二甲苯调合基础油的辛烷值变化规律 二甲苯体积百分比 0.0 10.0 22.2 30.0 40.0 50.0 100. 辛烷值(研究法) 66.1 72.0 79.2 83.5 .2 94.4 112. 图4-15至4-16显示随二甲苯的加入,谱图的变化情况, EMBED MSDraw \\* mergeformat 图4-15二甲苯近红外光谱 EMBED MSDraw \\* mergeformat 图4-16基础油近红外光谱 EMBED MSDraw \\* mergeformat 图4-17抽余油和二甲苯调合的近红外光谱 为考察模型的外推能力,由表4-3的数据构造两个标定集合,数据集1由表4-3的前六个点组成,即不含二甲苯。数据集2则含有二甲苯。预测集合的光谱数据由二甲苯和基础油的谱图线性加合得到,使用PLS模型,均取因子数为3,由图4-4可见,对数据集1,虽然回归模型的偏差比数据集2的小,但是预测数据导致了很大的偏差。这表明样本数据的范围对模型的预测能力的。导致这种偏差的重要原因是,二甲苯调合抽余油时,在二甲苯含量的高端,辛烷值随组成的非线性变化规律。 EMBED MSDraw \\* mergeformat 图4-18不同数据集下预测偏差随二甲苯体积百分比的变化 小结 1,在汽油光谱和辛烷值实验数据集上,对PLS和PCR的交叉检验结果的比较表明,PLS 比PCR能在最初的因子数内更快下降到预测偏差的最小值 2,考察了从10000EMBED Equation 至1000EMBED Equation 上五个谱图区间上光谱与辛烷值的关联效果,证实中红外谱区亦能很好地关联辛烷值 3,采用了一个包括25个汽油样本的数据集合,其中16个用来标定模型,9个用来检验模型。对三种方法作了比较,其中PLS使用了7个因子,NN使用了8个,PCR使用了9个因子,它们对研究法辛烷值的预测都小于0.7个辛烷值单位,与发动机测试偏差相近。 4,以PLS的载荷向量为例,对各因子给出物理意义上的解释,观察到了芳烃、甲基和亚甲基与辛烷值的关联。 5,通过二甲苯-基础调合油体系的近红外光谱和辛烷值数据,考察了辛烷值非线性加合规律对预测模型的影响,表明模型的外推效果依赖于标定集合的样本分布范围。 第五章 基于汽油近红外光谱谱图的模式识别 在使用前述模型预测新样本的辛烷值或其它目标性质时,理解该样品与模型标定样本集合的关系有助于判断模型适用性的好坏,尤其当模型预测值与预期值相差较大时。这隐含了两个方面的问题,新样本与模型标定集合差异的判别以及标定集合汽油样本的分类问题,前者属于多元统计分析方法中的判别分析,后者属于聚类分析,都可归结为模式识别问题。 所谓模式,就是由一个或多个特征(这里为数字)表示的实体,模式识别技术即是根据实体特征进行分析、描述、分类、判断和识别的技术。模式识别技术可分为判别法、句法和模式匹配三种技术。其中判别法用于解决特征为数值变量的模式识别问题,在分析化学中应用最多。 模式识别可分为有管理和无管理两类,对于有管理的方法,需要一个标定模型的样本集合,这些方法主要有:判别分析,学习机械法,近邻法,类模型法等;无管理模式识别方法适于研究样本归属不清楚的情况。如系统聚类法、图论方法,目标函数法。 可用于模式识别的神经网络模型有很多,如感知机模型,反向传播模型,自组织特征映射模型等。 汽油种类繁多,对同一种组分汽油,由于工艺和原料不同也可带来大的差异。对成品汽油,随调合组分含量不同,致使分类界限模糊。基本上是线性不可分的。如果将一张谱图看作一个高维模式向量,必须借助于数学方法我们才能对谱图间的差别,以及它们所表征的分类特性有准确的了解。具有数据压缩功能的主因子分析是应用其它方法的基础。 在已知标样集合类别的情况下,对新的油样可使用判别分析法得到其分类特征。也可根据距离相近的原则选取适宜的模型或确定模型的样本组成,即相似的样本聚类得到一个模型标定集合,这相当于使用一种局部权重回归的方法。 判别分析系根据所研究的观测指标来推断某个体所属类型的一种统计方法,根据判别准则不同,有距离判别,Bayes判别和Fisher判别 对于p维的样本向量EMBED Equation ,可视为p空间的一个点,n个样本即p空间的n个点,样本的数值分类方法即依据它们之间的距离量度进行,当观测向量之分量相差不大,可采用明氏距离, EMBED Equation 当EMBED Equation 时分别得到绝对距离,欧氏距离和切比雪夫距离 EMBED Equation EMBED Equation EMBED Equation 一般的距离判别问题可表达为,设有q个总体的,每个总体的均值向量为EMBED Equation ,距离判别的任务是,对于样本向量x,若有 EMBED Equation 则x归入第j*个总体 对于标定集合汽油样本的分类问题,本文给出侧重不同的三种方案,传统的聚类分析可使样本依据差异在不同层次上分类;模糊聚类法可使样本集合聚集到指定数目的类中,还能得到各样本在聚类上的定量差异,这一点对组成不同的调合汽油非常有用;Kohonen自组织网络能通过学习将样本自动聚类,对新的样本则可判别其归属。 下面以一个含24个汽油样本的数据集合为例,分别介绍各方法,各样品的具体类型参见表5-1。 第一节主因子分析法 不同汽油试样的近红外光谱往往差别细微,主因子分析方法可将谱图向量线性组合,形成新的相互正交的特征量,由此可对试样的差别作进一步研究。主因子分析提取能张开了样本空间,带来好的识别效果。对于高维的谱图数据,这种数据压缩和提取是必不可少的。 图5-1是24个汽油样品的二维因子图显示,横轴代表主因子一,纵轴代表主因子二。样本15是烷基化组分油,样本16是重整组分油,它们与其它油样在图上有显著的不同。对未知样本可将其投影到同一图上判别归属。 EMBED MSDraw \\* mergeformat 图5-1 24个汽油样本的二维主因子映射图 第二节 系统聚类法和模糊聚类法 一、系统聚类法 系统聚类法的主要步骤是,一开始将每个样本自成一类,然后最相似的样本聚为一类,逐次比较新类间的距离并合并最相近的类,直到所有的样本聚为一个大类,最后得到按相似性大小构成的谱系图。 根据类间距离的不同计算方法,形成不同的系统聚类分析方法。 设某一步中p,q合并为新的类r,r与当前其它类i的距离EMBED Equation 可由下列不同方法计算: (1)最短距离EMBED Equation (2)最长距离EMBED Equation (3)中间距离EMBED Equation (4)重心距离EMBED Equation (5)类平均法EMBED Equation (6)可变类平均法 EMBED Equation (7)可变法EMBED Equation (8)方差平方和法 EMBED Equation 程序中可用统一的递推公式实现 EMBED Equation 图5-2是以最短距离法得到的聚类图。 EMBED MSDraw \\* mergeformat 图5-2,24个汽油样本的系统聚类图 二、模糊聚类法 对含n个样本的集合X,分为c类,使X中的任意样本必须归入其中的某一类,以及任一类中至少含有一个样本。则分类结果可用矩阵U(c×n)表示, 对于经典聚类满足如下规则 (1)EMBED Equation (2)EMBED Equation (3)EMBED Equation 对模糊聚类则满足: (1)EMBED Equation (2)EMBED Equation (3)EMBED Equation 模糊聚类方法可指明类的中心,以及不同类之间的过渡情况。 设EMBED Equation 为第k类的聚类中心,引入各类样本到聚类中心的加权距离平方作为衡量聚类效果的目标函数,则聚类准则为 EMBED Equation 其中EMBED Equation ,EMBED Equation 为加权指数,根据上式可确定EMBED Equation 对于EMBED Equation EMBED Equation , EMBED Equation ,EMBED Equation EMBED Equation 加权指数m取值越大,则分类矩阵的模糊程度越大,经验值取EMBED Equation ,当EMBED Equation ,U中所有元素值接近1/c 对24个汽油样本的聚类见表5-1。 第三节 T.Kohonen自组织神经网络 多层感知器的学习和分类是以已知一定的先验知识为条件的,即是有监督的方法,在实际应用中有时并不能提供先验的知识,这就需要网络具有自学习功能。 T.Kohonen提出的自组织特征映射图就是具有这种自学习功能的神经网络。他认为神经网络在接收外界输入时,将会分成不同的区域,不同区域对不同的模式具有不同的响应特征,即不同的神经元以最佳的方式响应不同性质的信号激励,形成一种拓扑意义上的有序图。由于这种映射是通过无监督的自适应过程完成的,所以称自组织特征映射。 如图5-1所示,输出节点与其邻域的节点互连,并互相激励。输入节点和输出节点通过权重 连接,通过网络权重调整,使得每一邻域的所有节点在某种输入下具有类似的输出。通过无导师的学习,稳定后的网络输出对输入模式生成自然的特征映射,从而达到自动聚类的目的。 EMBED MSDraw \\* mergeformat 图5-3二维网络结构示意图 EMBED MSDraw \\* mergeformat 图5-4神经网络权值调整过程 自组织映射算法包括两个部分:一是最佳匹配神经元的选择,二是网络权值矩阵的自适应调整。设输入矢量X为 EMBED Equation.2 \\* mergeformat 网络权值矩阵W为 EMBED Equation.2 \\* mergeformat 则最佳匹配神经元C满足下式: EMBED Equation.2 \\* mergeformat 若Nc表示C的一个时变的邻域,随网络的调整,单调收缩直至C 则网络的学习过程可表达为 EMBED Equation.2 \\* mergeformat EMBED Equation.2 \\* mergeformat和EMBED Equation.2 \\* mergeformat是时间的函数,0
Copyright © 2019- jqkq.cn 版权所有 赣ICP备2024042794号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务