?

近紅外光譜融合電子鼻數據對煙葉產地判別研究

2024-04-21 14:57汪陽忠張鑫蔡振波黃雯費婷吳達張旭峰孟祥周束茹欣
關鍵詞:近紅外光譜數據融合支持向量機

汪陽忠 張鑫 蔡振波 黃雯 費婷 吳達 張旭峰 孟祥周 束茹欣

摘 要:基于煙葉近紅外光譜、Heracles電子鼻及二者的融合數據,建立了云南、河南、福建和吉林4個省份的煙葉產地識別模型以及河南省內漯河、南陽、平頂山、許昌和駐馬店5個地級市的煙葉產地識別模型.對于地理位置相距比較遠的不同省份的煙葉,基于單一數據源就可以建立準確率比較高的產地識別模型.對于河南省內5個地級市的煙葉,其地理位置相距近,氣候變化小,煙葉相似性高,僅基于單一信息源的數據,該產地識別模型的準確率偏低.為了提高河南省內5個地級市煙葉產地識別的準確率,將煙葉近紅外光譜數據與Heracles電子鼻數據進行融合,由于增加了煙葉數據信息量,這5個產地的識別效果明顯提升,其留一法內部交叉驗證準確率為98.26%,高于數據融合前單一數據源判別模型的86.96%.研究表明Heracles電子鼻數據可以在不同的數據維度上,對近紅外光譜數據進行信息量補充,為煙草品種溯源、質量監測、市場監督等方面提供新思路.

關鍵詞:近紅外光譜;Heracles電子鼻;數據融合;支持向量機

中圖分類號:O69文獻標志碼:A文章編號:1000-2367(2024)02-0104-07

煙草產地的準確分類對于煙草行業的質量控制和市場競爭具有重要意義,傳統的基于經驗和感官評價的分類方法存在主觀性和不穩定性等問題,這可能導致分類結果的不準確性和不一致性.為此,近年來研究者基于煙葉近紅外光譜(near-infrared spectroscopy,NIR)數據結合機器學習方法建立煙葉產地的快速識別模型.耿瑩蕊等[1基于NIRS,采用灰狼算法優化參數,最終建立了8個煙葉產地的支持向量機算法(support vector machine,SVM)分類模型.魯夢瑤等[2基于卷積神經網絡對煙葉近紅外光譜數據進行處理,針對近紅外光譜數據的特點,對卷積神經網絡進行改進,建立了東北、黃淮、西南三大烤煙產區識別模型.束茹欣等[3基于NIR-PCA-SVM聯用技術建立了云南、河南、安徽、福建、貴州、吉林6個省產地識別模型.

在前期煙葉產地分類判別的研究中,由于這些產地屬于不同的行政區域,其地理位置距離比較遠,氣候差異大,因此煙葉本身的差異也比較大,基于近紅外光譜數據可以建立準確率比較高的產地識別模型.隨著企業實際要求更加嚴格,生產中越來越關注同一省內不同地級市煙葉產地的識別,但由于這些地級市地理位置比較近,氣候差異小,煙葉本身的差異相應地也比較小,僅利用近紅外光譜單一數據源建立的地級市煙葉產地識別模型準確率就比較低.可能的原因是近紅外光譜數據的信息量不能滿足更精準的建模要求,或者是對近紅外數據處理的機器學習算法還需改進[4.本文嘗試補充更多源的信息數據,建立對于地理位置相距比較近的同一省內不同地級市產地的識別準確率高的模型.近兩年來,電子鼻(electronic nose,EN)數據也被引入到煙草行業的快速檢測中,并與近紅外數據融合,展現出與近紅外數據不同維度的信息內容,但相關研究工作還比較少.王文俊等[5利用煙葉近紅外光譜和電子鼻融合數據建立判別煙葉清香型、中間香型和濃香型3種香型風格的模式識別模型,比單一數據模型的準確率提高超過12%.ZHANG等[6在煙葉NIR和EN數據融合的基礎上,通過遺傳算法選擇出了建模變量,再利用支持向量機算法建立煙葉年份的分類模型,準確率提高也超過10%.

為了建立準確率比較高的同一省內不同地級市煙葉產地的識別模型,本文嘗試基于煙葉NIR和EN數據融合進行建模.為此采集了河南省漯河、南陽、平頂山、許昌和駐馬店的煙葉近紅外光譜數據和電子鼻數據,利用兩者融合數據建立同一省內不同地級市煙葉產地的模式識別模型.本研究旨在探索煙葉產地識別的多維度數據分析方法,希望可以為煙草行業的發展和質量控制提供有力支持.

1 實驗和算法

1.1 數據

收集了河南、云南、福建和吉林4個省份的烤后煙葉共352個,用于建立不同省份產地分類模型,其中云南省煙葉111個,河南省煙葉115個,福建省煙葉91個,吉林省煙葉35個.這352個煙葉樣本中,上部、中部和下部煙葉樣本數據分別為:89、169和94個.河南省的115個烤后煙葉中,包括漯河27個樣本、南陽15個樣本、平頂山25個樣本、許昌27個樣本和駐馬店21個樣本.這115個煙葉樣本用來研究地級市產地分類模型,如圖1所示,該5個地級市的地理位置非常接近,適合用于同一省份內小產地識別研究.

1.2 近紅外光譜

對烤后煙葉進行研磨后,過60目篩,然后取20 g煙葉粉末放置在內徑大小為5 cm的樣品杯中近紅外掃描.實驗使用了Spotlight 400傅立葉變換紅外光譜儀,配置了漫反射積分球附件和DTGS檢測器,該儀器由英國PerkinElmer公司生產.分辨率:4 cm-1,掃描次數:32次.

1.3 Heracles電子鼻系統

Heracles電子鼻系統是法國Alpha MOS公司生產的,其與AlphaSoft,IMM-Pro和AroChemBase一起專門設計用于幫助行業和實驗室掌握和改善其產品的嗅覺質量.Heracles 電子鼻儀器是一種新型的氣味分析手段,依據氣相基本原理對頂空氣體進行分析,通過機器學習等數據分析方法得到響應信息.樣品中的揮發性化合物可以通過Heracles電子鼻系統精確分離出來,并可以通過Arochembase數據庫進行定性分析.Heracles電子鼻系統具有分析時間短、精確度高等特點[7.Heracles電子鼻掃描是在室溫常壓下進行,取1 g煙葉粉末進行電子鼻掃描,煙葉粉末樣品在孵化器中的加熱震蕩溫度為50 ℃,加熱震蕩時間選擇10 min.

1.4 算法

1.4.1 偏最小二乘算法(partial least squares,PLS)

本研究中,煙葉近紅外光譜數據和電子鼻數據都具有高維度特征,即變量特征數遠超樣本數量,通常會造成維數災難的問題.為此本文采用PLS算法作為降維方法.PLS是一種常用的高維數據降維方法,通過建立原始數據與目標變量之間的線性關系,將高維數據轉化為一組低維的潛在變量或因子[8-9.在降維過程中PLS能夠提取與目標變量最相關的數據特征,實現數據的降維和壓縮[10-11.

1.4.2 SVM算法

SVM是一種機器學習算法,用于分類和回歸分析,通過構建最優的超平面來進行數據分類,具有良好的線性和非線性分類能力.SVM利用核函數將數據映射到高維特征空間,從而處理非線性關系[12,具有強魯棒性、強泛化能力,并能處理高維和噪聲大數據等優點.其訓練過程通過優化算法和拉格朗日乘子法來找到最優的分離超平面.在預測階段,新數據點被映射到特征空間并進行分類判斷[13-14.

2 結果與討論

2.1 近紅外光譜和Heracles電子鼻數據

圖2是不同省份產地的煙葉近紅外光譜,對比不同省份產地的煙葉近紅外光譜,云南省煙葉的吸光度信號明顯更強一些,河南省煙葉的吸光度更弱一些.圖3是河南省內部不同產地的煙葉近紅外光譜數據,對比河南省內不同地級市煙葉近紅外光譜,吸光度的差異主要體現在波數4 100~5 000cm-1范圍之間.

掃描得到的Heracles電子鼻數據如圖4和圖5所示.圖4是不同省份煙葉Heracles電子鼻數據,圖5是河南省內部不同產地的煙葉Heracles電子鼻數據.Heracles電子鼻系統的120 s保留時間內,每1秒鐘采集數據100個,總共采集了12 000個數據.利用不同顏色來代表不同省份或河南省內不同地區煙葉樣品的電子鼻數據,從圖4和圖5可以看出,不同產地煙葉其響應值有著比較大的差異.

2.2 模型構建與參數優化

本工作的建模流程先采用PLS降維,再做PLS因子個數選擇,最后構建煙葉產地SVM分類判別模型.建立4個省份和河南省5個地級市產地SVM分類判別模型的區別在于輸入數據和產地信息的不同.輸入數據包括近紅外數據、電子鼻數據、近紅外與電子鼻融合數據,產地信息包括4個省份產地與河南省5個地級市產地.

以河南省5個地級市產地的分類模型及其近紅外光譜數據為例來說明本工作的建模流程.將河南省5個產地的近紅外光譜數據進行PLS降維,并對PLS因子個數進行選擇,選擇標準是SVM分類模型的留一法交叉驗證的準確率.本文沒有利用更常用的PCA降維,而利用PLS降維,主要是因為PLS降維過程中應用到了目標信息,更有利于提高后續模型的分類準確率.在PLS因子個數選擇的過程中,過少的PLS因子個數包含的信息量比較少,可能造成模型的“欠擬合”,導致模型準確率低.過多的PLS因子個數往往會包含過多的冗余信息,可能造成模型的“過擬合”,導致模型準確率也比較低.因此選擇PLS因子個數時從8個開始,20個結束.當PLS因子個數為14時,模型的留一法內部交叉驗證準確率最高,為98.26%,見圖6所示.留一法內部交叉驗證的流程大致是這樣的:假設一個數據集有N個樣本,將每一個樣本作為測試樣本,其他N-1個樣本作為訓練樣本.這樣得到N個分類器,N個測試結果.用這N個測試結果的平均值來衡量模型的性能.在利用SVM算法建立分類模型時,需要對算法的參數進行優化,其中兩個重要的參數是核函數和懲罰因子.PLS因子個數為14,線性核函數和徑向基核函數選擇不同的懲罰因子,對比河南省5個產地SVM分類模型的留一法內部交叉驗證準確率.由圖7可見,PLS因子個數為14,選取線性核函數,懲罰因子取30時,模型留一法內部交叉驗證準確率最高,為98.26%.因此可確定河南省5個地級市產地的分類模型的PLS因子個數為14,SVM模型的核函數為線性、懲罰因子為30.

2.3 基于單一數據源的模型結果

2.3.1 兩種數據源結果比較

利用2.2節的建模流程,分別構建基于近紅外光譜、電子鼻數據的4個省份產地以及河南省5個地級市產地的分類模型,其結果如表1所示.僅基于近紅外光譜數據的4個省份產地分類模型的建模準確率與留一法內部交叉驗證準確率分別為100.00%與98.86%,僅基于電子鼻數據的4個省份產地分類模型的建模準確率與留一法內部交叉驗證準確率分別為95.45%與92.33%.由此可以看出:不同省份產地的煙葉差異比較大,僅基于單一數據源即可得到準確率非常高的煙葉產地識別模型.而對于河南省內部5個地級市產地識別模型,無論是僅基于近紅外光譜數據,還是僅基于電子鼻數據,其建模準確率非常高,但其留一法內部交叉驗證準確率明顯偏低.這說明僅基于一種數據源,獲得煙葉的信息還比較少,模型也存在過擬合現象.

2.3.2 僅基于近紅外光譜數據的5個產地模型留一法結果

僅基于近紅外光譜數據的5個地級市產地分類模型的建模準確率與留一法內部交叉驗證準確率分別為100.00%與86.96%(表1).相較于省份產地分類模型,地級市產地模型的留一法內部交叉驗證準確率下降了11.90%.留一法內部交叉驗證準確率見表2,115個樣本中預報準確了100個.其中,漯河的準確率為96.30%,南陽的準確率為66.67%,平頂山的準確率為92.00%,許昌的準確率為81.48%,駐馬店的準確率為90.48%.可以看出基于NIR數據建立河南省內5個地級市的產地識別模型,其留一法內部交叉驗證準確率還比較低,特別是南陽的準確率只有66.67%.

2.3.3 僅基于電子鼻數據的5個產地模型留一法結果

僅基于電子鼻數據的5個地級市產地分類模型的建模準確率與留一法內部交叉驗證準確率分別為99.13%與86.96%(表1).相較于省份產地分類模型,地級市產地模型的留一法內部交叉驗證準確率顯著下降了5.37%.在留一法內部交叉驗證中,電子鼻模型對于許昌的預測準確率偏低,僅有74.07%(表3).

對比表2和表3,可以看出,僅基于單一近紅外光譜數據模型對許昌的預測準確率較高,達到81.48%,但南陽的預測準確率較差,僅為66.67%.僅基于單一電子鼻數據模型對許昌的預測準確率比較低,僅為74.07%,但南陽的準確率高,為86.67%.這兩個模型的其他3個地級市的準確率則較為接近.通過對比近紅外光譜與電子鼻的地級市分類模型結果可以看出,近紅外光譜與電子鼻數據是從兩個不同的維度來反映煙葉樣本的信息特征,通過融合兩種維度的數據,可以為模型提供更多的信息,進而增加模型準確率.

2.4 基于融合數據的模型結果討論

無論是基于單一近紅外光譜數據的煙葉產地識別模型,還是基于單一Heracles電子鼻數據的煙葉產地識別模型,對于河南、云南、福建和吉林4個產地可以建立準確率高的識別模型.原因是這些不同省份的地理位置距離比較遠,氣候差異大,煙葉本身的差異也比較大,因此模型識別準確率高.但對于河南省內部的漯河、南陽、平頂山、許昌和駐馬店5個地級市產地,由于地理位置比較近,氣候差異小,煙葉本身的差異也相應地比較小,因此模型識別準確率低,而且模型出現了過擬合現象.本文對近紅外光譜數據補充了不同維度的Heracles電子鼻數據,兩類數據融合后,增加了更多的數據信息,以此建立了河南省內5個地級市的產地識別準確率高的模型.

利用PLS對煙葉近紅外光譜和Heracles電子鼻融合數據進行降維,選取前14個PLS因子,選擇線性核函數,懲罰因子取30,建立了河南省內部漯河、南陽、平頂山、許昌和駐馬店的5個地級市產地識別模型(表4),其模型建模準確率為100%.模型留一法準確率為98.26%,其中漯河的準確率為96.30%(表5),南陽的準確率為100.00%,平頂山的準確率為100.00%,許昌的準確率為96.30%,駐馬店的準確率為100.00%.可以看出基于融合數據建立的河南省內5個地級市的產地識別模型的準確率明顯高于僅基于單一近紅外光譜數據建立的模型,同樣也高于基于單一Heracles電子鼻數據建立的模型,特別是南陽和許昌的識別率明顯提高.

需要說明的是,本研究受到煙葉樣品收集時間和地點的影響,收集樣本比較困難,收集到的樣品數比較少,特別是河南省內部5個地級市的樣品更少,因此沒有對數據進行建模集、驗證集和測試集的劃分,只考察了模型的建模準確率和留一法內部交叉驗證準確率,這些結果初步驗證了基于融合數據建立的產地識別有著更高的準確率.

3 結 論

綜合以上實驗結果可知,僅基于近紅外光譜數據或Heracles電子鼻數據可有效識別地理位置較遠的煙葉產地,但對地理位置較近的產地其準確率都相對較低.Heracles電子鼻數據作為煙葉的另一種重要的信息源,可以輔助近紅外光譜數據進行煙葉產地的識別.將近紅外光譜數據和Heracles電子鼻數據進行融合,可顯著提高地理位置較近的煙葉產地識別的準確率,也消除了模型過擬合問題,可能的原因是不同信息源的數據融合后,有效信息明顯增加導致模型準確率提升.本文探討了多數據源綜合利用的策略,用以獲取更多煙葉信息,進而建立更準確的產地識別模型.這些研究成果在煙葉品種溯源、質量監測和市場監管等方面具有重要意義,可為煙草行業的進一步發展和創新提供借鑒.

參 考 文 獻

[1]耿瑩蕊,沈歡超,倪鴻飛,等.近紅外光譜結合灰狼算法優化支持向量機實現煙葉產地快速鑒別[J].光譜學與光譜分析,2022,42(9):2830-2835.

GENG Y R,SHEN H C,NI H F,et al.Support vector machine optimized by near-infrared spectroscopic technique combined with grey wolf optimizer algorithm to realize rapid identification of tobacco origin[J].Spectroscopy and Spectral Analysis,2022,42(9):2830-2835.

[2]魯夢瑤,楊凱,宋鵬飛,等.基于卷積神經網絡的煙葉近紅外光譜分類建模方法研究[J].光譜學與光譜分析,2018,38(12):3724-3728.

LU M Y,YANG K,SONG P F,et al.The study of classification modeling method for near infrared spectroscopy of tobacco leaves based on convolution neural network[J].Spectroscopy and Spectral Analysis,2018,38(12):3724-3728.

[3]束茹欣,孫平,楊凱,等.基于NIR-PCA-SVM聯用技術的烤煙煙葉產地模式識別[J].煙草科技,2011,44(11):50-52.

SHU R X,SUN P,YANG K,et al.NIR-PCA-SVM based pattern recognition of growing area of flue-cured tobacco[J].Tobacco Science & Technology,2011,44(11):50-52.

[4]張浩,劉振,王玲,等.基于近紅外光譜結合機器學習算法檢測食用明膠品種溯源的研究[J].河南農業大學學報,2021,55(3):460-467.

ZHANG H,LIU Z,WANG L,et al.Determination of edible gelatin origins based on near-infrared spectroscopy coupled with machine learning methods[J].Journal of Henan Agricultural University,2021,55(3):460-467.

[5]王文俊,沙云菲,汪陽忠,等.近紅外和電子鼻數據融合識別不同香型風格[J].光譜學與光譜分析,2023,43(1):133-137.

WANG W J,SHA Y F,WANG Y Z,et al.Discriminating flavor styles via data fusion of NIR and EN[J].Spectroscopy and Spectral Analysis,2023,43(1):133-137.

[6]ZHANG H B,LIU T A,SHU R X,et al.Using EN-NIR with support vector machine for classification of producing year of tobacco[J].Spectroscopy and Spectral Analysis,2018,38(5):1620-1625.

[7]張玖捌,張偉,費程浩,等.基于Heracles NEO超快速氣相電子鼻的硫熏白芍快速鑒別研究[J].中國中藥雜志,2022,47(14):3781-3787.

ZHANG J B,ZHANG W,FEI C H,et al.Rapid identification of raw and sulfur-fumigated Paeoniae Radix Alba based on Heracles NEO ultra-fast gas phase electronic nose[J].China Journal of Chinese Materia Medica,2022,47(14):3781-3787.

[8]鄢悅,張紅光,盧建剛,等.基于光譜信息散度的近紅外光譜局部偏最小二乘建模方法[J].計算機與應用化學,2017,34(5):351-355.

YAN Y,ZHANG H G,LU J G,et al.Spectral-information-divergence based local pls modeling algorithm in near infrared spectroscopy[J].Computers and Applied Chemistry,2017,34(5):351-355.

[9]趙娟娟,葉順,徐可,等.基于提取不同中紅外光譜特征信息的煙葉部位判別研究[J].河南師范大學學報(自然科學版),2021,49(1):45-49.

ZHAO J J,YE S,XU K,et al.Research on discrimination of tobacco leaf parts based on extracting different information of MIR[J].Journal of Henan Normal University(Natural Science Edition),2021,49(1):45-49.

[10]ZENG Z D,ZHANG B H,ZHAN Y F,et al.Method comparison of sample pretreatment and discovery of differential compositions of natural flavors and fragrances for quality analysis by using chemometric tools[J].Journal of Chromatography B,2023,1222:123690.

[11]WU R X,TIAN Z Z,ZHANG C T,et al.Uniformity evaluation of stem distribution in cut tobacco and single cigarette by near infrared spectroscopy[J].Vibrational Spectroscopy,2022,121:103401.

[12]VAPNIK V N.Statistical learning theory[M].New York:Wiley,1998.

[13]QIN Y H,LIU X P,ZHANG F M,et al.Improved deep residual shrinkage network on near infrared spectroscopy for tobacco qualitative analysis[J].Infrared Physics & Technology,2023,129:104575.

[14]ARIANTI N D,SAPUTRA E,SITORUS A.An automatic generation of pre-processing strategy combined with machine learning multivariate analysis for NIR spectral data[J].Journal of Agriculture and Food Research,2023,13:100625.

Classification of tobacco leave parts based on the fusion of near-infrared

spectroscopy and Heracles electronic nose data

Wang Yangzhong1, Zhang Xin1, Cai Zhenbo1, Huang Wen1, Fei Ting1,

Wu Da1,? Zhang Xufeng2, Meng Xiangzhou2, Shu Ruxin1

(1. Technology Center, Shanghai Tobacco Group Co. , Ltd. , Shanghai 200082, China;

2. College of Environmental Science and Engineering, Tongji University, Shanghai 200092, China)

Abstract: In this study, the tobacco leaf origin identification models were established in four provinces in China(Yunnan, Henan, Fujian, and Jilin)and five prefecture-level cities within Henan Province(Luohe, Nanyang, Pingdingshan, Xuchang, and Zhumadian) by utilizing near-infrared spectroscopy data, Heracles electronic nose data, and a fusion of both datasets. In geographically distant provinces, accurate origin identification models with relatively high precision were successfully constructed by using a single data source. However, in the five closely located cities in Henan Province, where geographical proximity, minimal climate variations, and high tobacco leaf similarity were evident, the accuracy of the origin identification model based on a single information source was comparatively lower. To enhance the accuracy of tobacco origin identification in the five prefecture-level cities in Henan Province, a fusion of near-infrared spectroscopy data and Heracles electronic nose data is performed. The increased information content in the fused dataset significantly improved the identification accuracy in these five origin regions. The Leave-One-Out cross-validation accuracy in these regions was measured at 98.26%, surpassing the 86.96% accuracy of the single-data-source discrimination model before data fusion. This study demonstrates the capability of Heracles electronic nose data to complement near-infrared spectroscopy data across different data dimensions, providing new perspectives for tobacco variety tracing, quality monitoring, and market supervision.

Keywords: near-infrared spectroscopy; Heracles electronic nose; data fusion; support vector machine

[責任編校 趙曉華 陳留院]

猜你喜歡
近紅外光譜數據融合支持向量機
基于數據融合的家庭遠程監護系統研究
動態場景中的視覺目標識別方法分析
論提高裝備故障預測準確度的方法途徑
基于近紅外光譜法的藜麥脂肪含量快速檢測
基于熵技術的公共事業費最優組合預測
基于支持向量機的金融數據分析研究
船舶動力定位中的數據融合技術文獻綜述
基于信源編碼的數據融合隱私保護技術
小麥子粒粗蛋白FT—NIRS分析模型建立的初步研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合