【摘要】 采集了来自全国20种单植物源和其它多植物源的101份的蜂蜜样品,分别运用傅立叶型近红外光谱仪采用光纤透反射(800~2500 nm,2 mm光程)和透射(800~1370 nm,20 mm光程)采集方式获得近红外光谱,来预测蜂蜜中结构和含量都很相近的果糖和葡萄糖含量。结果发现,两种测量方式下果糖、葡萄糖的预测准确度存在着较大的差异。为了分析这种差异产生的原因,采用支持向量机分析其非线性信息,采用遗传算法分析其特征波长,结果表明: 这种差异主要来自两种糖分特征波长分布不同所导致。通过对两种糖分的检测方案进行优化,得出在利用近红外光谱技术检测蜂蜜中葡萄糖成分含量时应尽量采集短波区、长光程的光谱,或者对全谱区、短光程的光谱,进行特征波长的提取,避开水分的干扰,从而提高其预测精度;而对于果糖,则应尽量采集全谱区、短光程的光谱;采用常用线性定量建模方法plsr就可以得到很好的预测模型,非线性的支持向量机模型未能明显提升模型性能。
【关键词】 蜂蜜; 近红外; 果糖; 葡萄糖; 特征波长
difference analysis and optimization study for determination of fructose and glucose by near infrared spectroscopytu zhen-hua,zhu da-zhou,ji bao-ping,meng chao-ying,wang lin-ge,qing zhao-shen*(college of food science and nutritional engineering,china agricultural university,beijing 100083)(national engineering research center for information technology in agriculture,beijing 100097) (college of information and electrical engineering,china agricultural university,beijing 100083)abstract a total of 101 honey samples that originated from 20 different unifloral honey and other multifloral honey samples were collected from -nir spectrometer were applied to determinate the content of fructose and glucose of honey with two different modes:transflectance (800-2500 nm,2 mm optical path length) and transmittance (800-1370 nm,20 mm optical path length).it was found that the prediction accuracy of fructose and glucose had significant difference with the two order to analyze the reason of this difference,support vector machine (svm) was used to analyze the non-linear information,and genetic algorithm (ga) was used to analyze the characteristic result indicated that the detection difference of fructose and glucose was originated from their different characteristic h the optimization of detection method,it was found that for the determination of glucose,short wavelength and long optical path length should be used,on the other side,the whole wavelength region and short wavelength,with selecting the characteristic wavelength to avoid the disturb of water can also be the determination of fructose,whole wavelength region and short optical path length should be regression methods such as plsr could obtain good results,and non-linear methods such as svm did not improve the model performance.
keywords honey; near infrared spectrometry; fructose; glucose; characteristic wavelengths
1 引言
蜂蜜中含有糖类、水分、矿物质、维生素、蛋白质、氨基酸乙酰胆碱、生物类黄酮等180余种不同物质成分。糖类物质是蜂蜜的基本成分,占70%~80%。其中,主要成分是葡萄糖和果糖,约占总糖分的85%~95%;其次是蔗糖,一般不超过5%。除此之外,蜂蜜中还含有少量如麦芽糖、乳糖、棉子糖、松三糖等20余种双糖和多糖。果糖和葡萄糖的含量最高,分别约占蜂蜜质量的38%和31%〖1〗。
近红外光谱技术〖2〗具有快速、简便、无样品预处理、无损伤等特点,并结合化学计量学方法提取光谱有效信息进行样品定性或定量分析被应用到很多领域。文献〖3,4〗研究了近红外透反射法对于蜂蜜中果糖、葡萄糖含量检测的可行性,并取得了较好的效果,可以有效解决现有高效液相色谱法检测中耗时、繁琐的问题。对于果糖、葡萄糖这两种在蜂蜜中含量最高、化学结构相似的单糖类物质,不同学者研究采用了不同光谱区间、光程等采集参数来探索其快速检测的可行性。qiu等〖3〗利用1 mm光程、400~2500 nm波段近红外光谱建立果糖和葡萄糖pls模型,预测集决定系数(r2)分别为0.97和0.91。garcra等〖4〗利用2 mm光程、400~2500 nm波段近红外光谱建立果糖和葡萄糖pls模型,预测集决定系数(r2)分别为0.98和0.95。上述研究结果表明, 运用近红外光谱技术可以对蜂蜜中的果糖和葡萄糖含量进行快速检测,但仅集中于某种采集方式下线性定量模型的研究,尚未见对其非线性问题的研究。同时对于由于不同采集方式和参数下这两种单糖预测精度的差异性问题及其预测条件的优化问题也缺乏深入研究。本研究通过比较光谱区间、光程等采集参数,采用偏最小二乘回归线性建模支持向量机非线性建模、采用遗传算法分析蜂蜜中果糖和葡萄糖的特征波长等分析近红外光谱法检测蜂蜜中果糖和葡萄糖含量的差异性问题,优化其最佳检测方案,以提高近红外光谱法检测蜂蜜中果糖和葡萄糖含量的预测精度,并为其在不同实际运用条件下提供可行的检测方案。
2 实验部分
2.1 蜂蜜样品的采集
本研究分别采集了四川、江苏、山西、山东、浙江、福建、河南、吉林、河北、安徽、河北、广西、陕西、辽宁、天津、北京等蜂蜜著名产地的蜂蜜样品,不仅充分代表国内样品品种和产地的特性,也代表了我国蜂蜜的主要出口品种的特征。
本研究的蜂蜜品种也具有很好的代表性,共收集洋槐、琵琶、枣花、五味子、益母草、紫云英、荆条、党参、荔枝、椴树、枸杞、菊花、桂花、玫瑰花、山茶、油菜、柑橘、白刺花、罗布麻、丹参20种单植物源蜂蜜(unifloral honey),以及混合植物源蜂蜜(multifloral honey)共101个蜂蜜样品。
2.2 光谱采集仪器及方法
本实验采用了常见的傅立叶型近红外光谱仪的两种不同采集方式(样品池透射、光纤透反射)来采集蜂蜜的近红外光谱。
光谱采集在环境温度可控的实验室内(温度控制为26 ℃)进行。每次测试前都必须先预热仪器30 min。同时,由于部分蜂蜜存在结晶现象,在实验前对结晶蜂蜜样品采用40 ℃水浴中加热,直至结晶完全溶化,再降至室温(26 ℃)。
光谱采集均采用bruker isf/28n型傅立叶型近红外光谱仪(bruker公司),具体采集方法如下:蜂蜜的傅立叶透射光谱采集,附件:石英透射样品池,光程:20 mm,扫描谱区:3600~12500 cm-1,分辨率:8 cm-1,扫描次数:32次;蜂蜜的傅立叶光纤透反射光谱。附件:石英液体透反射光纤探头;光程:2 mm(间距为1 mm);扫描谱区:3600~12500 cm-1;分辨率: 8 cm-1;扫描次数:32次。均采集空气为背景。
2.3 蜂蜜果糖和葡萄糖含量的测定
果糖的结构简式ch2oh(choh)3(co)ch2oh,其水溶液又称“左旋糖”;葡萄糖的结构简式ch2oh(choh)4cho,其水溶液又称“右旋糖”。葡萄糖与果糖互为同分异构体,葡萄糖是多羟基醛(醛糖),果糖是多羟基酮(酮糖)。国家标准中规定,蜂蜜中果糖和葡萄糖的含量必须≥60%〖5〗*
本实验中蜂蜜的果糖和葡萄糖含量按照国标gb/t 18932.22-2003(蜂蜜中果糖、葡萄糖、蔗糖、麦芽糖含量的测定方法-液相色谱示差折光检测法)测定。
2.4 支持向量机及特征波长选择算法
支持向量机(support vector machines,svm)是一种新型的非线性近红外建模方法,svm是建立在结构风险最小化(structural risk minimization)原则基础上的,因而从理论上保证了其在小样本拟合时也能具有较好的泛化能力。最小二乘支持向量机(ls-svm)是一种经典svm的改进方法,以求解一组线性方程代替经典svm中较复杂的二次优化问题,降低了计算复杂性,加快了求解速度。构建ls-svm模型需确定两个重要模型参数:γ和核函数参数(本实验采用径向基核函数,模型参数为σ2),采用二步格点搜索法(grid searching technique)和留一法交叉验证法(leave one-out cross validation)相结合,对这两个模型参数进行全局寻优〖6〗匝盗芳徊嫜橹の蟛罹礁rmsecv)为参数选择指标。
针对近红外光谱采样点数较多的特点,为防止发生过拟合现象,本研究采用反复遗传算法(iterative ga-pls)〖7~9〗 选择特征波长。对包含2205个波长点的波长段,去除最后5个点,将每11个连续波长点取平均值作为一个新变量,总计200个新变量,经过5次重复遗传算法后,将原始波长点挑选出来再进行遗传算法。其算法的具体参数设定为:初始群体大小为30,最大繁殖代数100,交叉概率0.5,变异概率0.01。
2.5 回归模型评价指标
由于每次测量的蜂蜜光谱总体能量不同,光谱间差异较大。为了消除由于仪器每次测量所带来的能量差异,本研究在数据分析和数学建模前,分别对校正集和预测集光谱进行标准化(auto-scaling)处理,然后利用偏最小二乘回归法(plsr)对数据进行多元统计分析。应用非线性迭代偏最小二乘(nipals)算法求取偏最小二乘因子。校正模型的最佳因子个数(#lv)由舍一交互验证法(loocv)的预测残差平方和(press)来确定。数据预处理和建模过程中的所有计算均由自编的matlab 7.0程序完成。校正模型的性能通过相关系数(r)评价其相关性,校正误差均方根(rmsec)作为校正集的评估标准,预测误差均方根(rmsep)反映模型对未知样本的预测效果。
相对标准偏差rsd反映模型对某一组分的总体测定效果,即测定精度。它包括校正相对标准偏差rsdc和预测相对标准偏差rsdp,具体表示分别为:
rsdc(%)=100×rmsec/ymc(1)
rsdp(%)=100×rmsep/ymp(2)
式中: ymc,ymp分别为样品校正集和预测集真值的平均数。一般来说,r 越接近1,rsd越小,表明校正模型的校正精度和测定精度越高,而小的rsd比大的r 更为重要。
3 结果与讨论
3.1 蜂蜜果糖和葡萄糖的pls模型差异
本实验采集了近红外谱区谱区3600~12500 cm-1的信息。对于傅立叶2 mm透反射光谱,由于检测器检测范围的原因,在3600~4000 cm-1波段的光谱噪声较大,因此在下面的研究中截取了波段为4000~12500 cm-1(800~2500nm)波段的光谱为研究对象。而傅立叶20 mm透射光谱图谱在1370 nm后光谱严重溢出,因此采用800~1370 nm波段的光谱为使用光谱。图1分别为波段截取后的101个蜂蜜样本采用傅立叶光谱仪采集的光程为2 mm光纤透反射光谱及光程为20 mm透射光谱。
图1 蜂蜜的傅立叶光纤透反射光谱图(a)和傅立叶透射光谱图(b)(略)
fig.1 fourier transform(ft) transflectance spectra(a) and ft transmittance spectra(b) of honey samples
首先,对测得的101个样品的果糖、葡萄糖含量进行异常值筛选,先剔除8个果糖异常的样品和1个葡萄糖异常的样品,然后利用外在学生化残差-杠杆值图〖10〗剔除剩余样品中的异常样本。为了更好地体现模型的稳定性,本实验首先根据蜂蜜各成分的分布,按照校验集与预测集之比为2∶1,3∶1,7∶3,4∶1和5∶3的5种比例,采用k-s法〖11〗进行了样品集的选择,然后分别建立模型。研究结果表明,不同比例分组后模型表现了较好的稳定性。〖jp2〗挑选出所建立的果糖和葡萄糖模型中较有代表性的分组方式,作为不同采集方式的模型效果比较时的代表,被挑选出的代表性分组后的样品统计数据见表1。
表1 蜂蜜样品参考值的统计特征(略)
table 1 statistic major components of calibration and prediction sets of honey
为检测蜂蜜中果糖和葡萄糖含量,建立了800~2500 nm波段、光程为2 mm透反射光谱和800~1370 nm波段、光程为20 mm透射光谱的pls模型,模型结果见表2。通过pls建模结果可以看出,在800~2500 mm这个近红外全谱区建立的线性定量模型,果糖相关系数(r)为0.9311,预测相对误差(rsdp)为5.45%;葡萄糖相关系数(r)为0.8291,预测相对误差(rsdp)为8.81%。同时,在800~1370 nm这个近红外短波区建立的定量pls模型,果糖相关系数(r)为0.9297,预测相对误差(rsdp)为6.38%;葡萄糖相关系数(r)为0.8907,预测相对误差(rsdp)为7.87%。由此可见,采用全谱区、短光程光谱建模葡萄糖的预测精度低于果糖,而在短波区利用长光程光谱建立的模型相对于全谱区葡萄糖的预测精度有一定提高,而果糖预测精度反而有一定下降。因此,在利用近红外光谱技术检测蜂蜜中葡萄糖成分含量时应尽量采集短波区、长光程的光谱; 而对于果糖,则应尽量采集全谱区、短光程的光谱。
表2 蜂蜜近红外模型结果(略)
table 2 results of the nir spectra of honey
msec:root mean square error of calibration; rmser:root mean square error of prediction.
3.2 基于ls-svm的果糖和葡萄糖模型优化研究
在比较不采集方式对蜂蜜中果糖和葡萄糖建立近红外线性定量预测模型效果后,采用ls-svm建立蜂蜜中果糖和葡萄糖的非线性模型。本研究中,果糖γ和σ2的搜索范围分别为1~500和0.1~1000,寻优过程与结果:最优γ和σ2分别为124.7491和237.5784。葡萄糖γ和σ2的搜索范围分别为1~500和0.1~1000,寻优过程与结果:最优γ和σ2分别为320.9671和170.5475。由表2可见,利用ls-svm建立800~2500 mm谱区建立果糖的非线性定量模型的预测结果为:果糖相关系数(r)为0.9264,预测相对误差(rsdp)为5.5%;葡萄糖相关系数(r)为0.8364,预测相对误差(rsdp)为9.11%。这与用pls线性定量模的效果基本相同。可见,果糖和葡萄糖在蜂蜜中含量较高,其信息受背景影响较小。因此,采用常用线性定量建模方法plsr就可以得到其很好的预测模型。
3.3 蜂蜜中果糖和葡萄糖特征波长的提取及近红外检测差异性分析
利用反复的遗传算法(iterative ga-pls)在全谱范围内选取了蜂蜜中果糖和葡萄糖的特征波长。经过遗传算法的计算,得到蜂蜜中果糖的特征波长集中在1845~1846 nm,1892~1893 nm,1949~1951 nm,1964~1967 nm和2225~2230 nm这几个波段; 葡萄糖的特征波长集中在832~833 nm,878~879 nm,1209~1211 nm,1234~1236 nm,1245 nm,1634~1639 nm,1790 nm,1854~1858 nm和2184~2190 nm这些波段。经过遗传算法后用pls建模的模型结果见表2。从表2可以看到,经过特征波长选择后果糖模型的预测精度较原始波长基本没有变化。模型预测相对误差(rsdp)由5.45%上升到5.57%,r由0.9311下降到0.9300。而葡萄糖的的预测精度较原始波长下有较大程度的提高,模型预测相对误差(rsdp)由8.81%下降到6.59%,r由0.8231提高到0.9041。
从图1a所示的蜂蜜光谱图可见,蜂蜜在近红外谱区的光谱图主要吸收峰位于1450, 1940, 2100, 2280和2350 nm,这些吸收峰中1450和1940 nm主要是由于水的吸收所导致。其中1450 nm为oh的伸缩振动的一级倍频〖12〗,而940 nm为oh的伸缩振动的二级倍频〖12〗。这2个波长点是水的吸收峰,由于水的吸收很强(特别是蜂蜜中含水量约为17%),因此蜂蜜光谱图吸收蜂很大。而同样作为水的吸收峰的1190 nm处,由于本研究采用的透反射光程较短(2 mm),因此在短波区吸收不强烈。
葡萄糖和果糖的分子式相同,不同之处在于两者分子结构中羟基的位置不同,这个差异可能导致两者在近红外区的吸收特性不同。从遗传算法挑选出的特征波长可以看出,果糖的特征波长大多分布在1800 nm 以上的波段,而葡萄糖在1100 nm以下也有明显的特征波长。比较表2中透反射模型和透射模型可以发现,在采用傅立叶透反射方式采集全谱(800~2500 nm)建立模型时,由于采用光程较短(2 mm),因此在短波区得到的信息较弱,易被水等背景干扰因素影响,使得模型的预测精度受到影响,但对果糖和葡萄糖模型的影响程度不同。其中果糖的预测效果较好,rsdp为5.45%;而葡萄糖预测误差较大,rsdp为8.81%。当采用傅立叶透射方式采集800~1370 nm范围内较长光程的光谱时,葡萄糖模型的预测精度明显提高(rsdp为7.87%),并且与果糖模型的差异变小(果糖的rsdp为6.38%)。因此,对于蜂蜜中成分、结构都非常相似的两种糖分,在利用近红外光谱技术检测时应采用不同的技术方案。对于蜂蜜中的葡萄糖,应尽量采集短波区、长光程的光谱,或者对全谱区、短光程的光谱,进行特征波长的优化提取,从而改善其预测精度;而对于果糖,则应尽量采集全谱区、短光程的光谱。
对于蜂蜜中成分、结构都非常相似的葡萄糖和果糖,在利用近红外光谱技术检测时应该采用不同的技术方案。对于蜂蜜中的葡萄糖,应尽量采集短波区、长光程的光谱,或者对全谱区、短光程的光谱,进行特征波长的优化提取,从而改善其预测精度;而对于果糖,则应尽量采集全谱区、短光程的光谱。同时,通过对各种检测方案及建模算法的优化,预测结果仍然是果糖优于葡萄糖。除了特征波段分布不同外,可能还存在着更深层次的原因,有待于进一步研究。
【参考文献】
1 white j w,riethof m l,subers m h,kushnir cal bulletin 1261,ment of agrioulture washington d c,1962,1261:1~42
2 dull g,birth g s,smittle d a,leffler r l of food science, 1989,54(2):393~395
3 qiu p y,ding h b,tang y k,xu r l of agricultural and food chemistry,1999,47(7):2760~2765
4 garcia-alvarez j f,huidobro m h,rodriguez-otero j l of agricultural and food chemistry, 2000,48(11):5154~5158
5 gb 18796-2005, honey(蜂蜜).national standards of the people’s republic of china(中华人民共和国国家标准)
6 yu ke(虞科), cheng yi-yu(程翼宇).chinese .(分析化学), 2006, 34(4):561~564
7 leardi l of chemometrics, 1994,8(1):65~79
8 leardi r,gonzález a etrics and intellingent laboratory systems, 1998,41(2):195~207
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。