?

基于卷積神經網絡和近紅外光譜的茶葉品種和等級鑒別

2022-11-24 08:28陽,俊,燕,鑫,春,玲*
分析科學學報 2022年5期
關鍵詞:特征提取波長光譜

圣 陽, 焦 俊, 滕 燕, 馬 鑫, 李 春, 蔣 玲*

(南京林業大學信息科學技術學院,江蘇南京 210037)

茶葉不僅具有很高的經濟價值,而且茶葉中富含茶多酚、氨基酸、咖啡堿等物質[1],有益人體健康,深受消費者的喜愛。不同品種和等級的茶葉在價格上相差巨大,市場上茶葉銷售以假亂真、以次充好的現象時有發生[2]。感官評審法通過對茶葉外形、湯色、香氣、滋味等方面對茶葉品種和等級進行鑒別[3],但是這種方法主觀因素影響大,缺乏準確性。理化方法主要用于茶葉內部成分的檢測[4],主要有氣相色譜[5]、液相色譜[6]等方法。這些理化方法不僅檢測成本高,而且測試周期長、操作復雜、專業性要求高,所以急需對茶葉品質實現快速、無損、低成本檢測[7]。

近紅外光譜(Near Infrared Spectroscopy,NIRS),波長范圍在780~2 500 nm[8],可以用于含氫基團物質的定性定量檢測,具有快速、無損、簡單的特點[9]。目前已有學者將近紅外光譜應用于茶葉檢測相關領域,實現對茶葉品種[10]、產地[11]、等級[12]和是否發生霉變[13]的鑒別。目前大多采用主成分分析法(Principal Component Analysis,PCA)進行光譜特征提取,降低模型的復雜度,但PCA僅從數據方差最大的方向對數據進行壓縮[14],沒有考慮到近紅外光譜的實際物理特征,降維后的數據丟失了光譜的原始信息,模型的可解釋性低。而聯合區間偏最小二乘法[15](synergy interval PLS,siPLS)、連續投影算法[16](Successive Projections Algorithm,SPA)、競爭性自適應重加權算法[17](Competitive Adaptive Reweighting Algorithm,CARS)可以在保留原始光譜信息的基礎上,實現對光譜的特征提取,在實際應用中可以僅對特征波長附近的光譜數據進行采集,提高檢測的效率。Ren等[18]采用PCA+SVM方法快速分析評價紅茶的品質,并區分紅茶產地,鑒別不同產地紅茶地理起源,準確率達94.3%。Meng等[19]利用PCA+BP-ANN對福建三個品種的茶葉樣品進行鑒別,識別準確率達到95.6%。

卷積神經網絡(Convolutional Neural Network,CNN)具備局部感知,權值共享的特點[20],模型的運行效率較高,從而被廣泛應用在計算機視覺,自然語言處理,語音識別等領域。近年來有學者利用近紅外光譜與卷積神經網絡相結合檢測夏威夷果[21]、煙葉[22]、花椒[23]等,對在茶葉品種和等級的鑒別還少有文獻報道。使用機器學習或者深度學習模型通常需要大量的樣本數量保證模型的準確性和穩定性,而采集大量的光譜數據需要很高的成本,可采用數據增強的方式擴充數據集。

基于以上背景,本文對茶葉光譜數據進行預處理,分別采用聯合區間偏最小二乘法(siPLS)、連續投影算法(SPA)、競爭性自適應重加權算法(CARS)選取光譜特征波長,對特征波長數據建立基于CNN的茶葉品種和等級的鑒別模型,最后使用平移法、線性疊加法、添加噪聲法對光譜數據集進行數據增強,驗證特征提取結合卷積神經網絡模型的穩定性。

1 實驗部分

1.1 樣品收集與制備

市售的5種茶葉分別是龍井、雨花茶、碧螺春、金駿眉和鐵觀音,分別制備30個樣本共計150個樣本。將市售的4個不同等級的龍井茶葉,分別制備30個樣本,共計120個樣本。所有樣本低溫避光儲藏,具體信息如表1所示。實驗前,將不同品種和等級的茶葉樣品粉碎成粉末,并通過100目篩后,取茶葉粉末2 g壓片制成樣品。

表1 5個品種和4個等級茶葉樣品信息Table 1 Sample information of five varieties and four grades of tea

1.2 近紅外光譜采集

實驗使用美國PerkinElmer Lambda 950紫外-可見近紅外分光光度計,對壓片樣品進行漫反射光譜掃描,波長范圍800~2 500 nm,設置間隔為1 nm,每個樣品進行3次光譜采集,取3次采集光譜的均值作為該樣品的光譜。維持室溫在25 ℃左右,相對濕度保持在45%~50%,測試前儀器預熱3 min以保證儀器的穩定性。

1.3 光譜預處理

由于檢測器檢測到的光譜信號不僅包含樣品信息,還有各種儀器干擾信息,這些干擾信息會影響所建立模型穩定性和可靠性,因此有必要在數據處理前對采集的光譜數據進行合理的處理[24],從而減弱甚至消除非目標因素對光譜信息的影響。本文用小波分析(WT)算法對光譜數據進行平滑去噪預處理。

1.4 特征波長選擇

1.4.1 siPLSsiPLS是一種常用的特征變量篩選方法,是聯合同一次區間劃分后的子區間建立的PLS模型,最終篩選出精度較高的特征變量。為了得到最佳的篩選結果,需要對子區間的劃分數及聯合區間數進行優化,以交互驗證均方根誤差(Root Mean Square Error of Cross Validation,RMSECV)為評判標準,Bias是檢驗樣品的預測值與真實值之間的整體平均偏差。

1.4.2 SPASPA是一種使矢量空間共線性最小化的前向變量選擇算法,在有效信息獲取和降低共線信息的研究中取得了較好的效果。通過投影方式選取線性關系最小的波長組合,從光譜信息中尋找含有最低冗余信息的變量組,使得變量之間的共線性達到最小,同時保留原始數據的絕大部分特征,被選取的特征波長物理意義明確,具有很強的解釋能力,因此,可以有效地提高建模的速度以及模型的穩定性。

1.4.3 CARSCARS算法利用自適應重加權采樣手段選出PLS模型中回歸系數絕對值相對較大的波長點,去除權重相對較小的波長點,并使用RMSECV值最低的子集,可以有效地尋找到變量的最優組合。

1.5 模型的方法及評價指標

1.5.1 CNNCNN是深度學習中最經典的模型之一,它巧妙的減少了參數數量并且達到了全連接神經網絡實現不了的效果。CNN的基本結構通常由卷積層、池化層和全連接層三個部分組成,具體細節又可以分為濾波器、步長、卷積操作和池化操作等。由于近紅外光譜是一維信號,因此采用的卷積核為一維卷積核。池化是一種非線性的降采樣方法,主要是對卷積層輸出的特征值進行降維,減少運算規模。目前,池化方式主要分為最大值池化和平均值池化兩種方式,本工作則采用最大池化法對模型進行降采樣處理。為了防止過擬合現象,本模型選擇交叉熵函數(Cross-entropy)與模型權重系數L2正則化的結合作為模型的損失函數(Loss function)。

(1)

其中

(2)

式中,zi為第i個節點的輸出值;C為輸出節點的個數,即分類的類別個數;p(i)是輸出的概率值;W為模型權重;λ為正則化參數。

1.5.2 模型評價指標本研究將識別準確率(Accuracy)作為茶葉品種和等級鑒別模型的判別指標。

(3)

其中,Ncorrect為測試集中預測正確的數量;Ntotal為測試集樣本總數量。

2 結果與討論

2.1 光譜分析

用小波函數Daubechies的正交小波基Db3進行光譜信號去噪,其中分解尺度為4。圖1為隨機選取某一樣本處理前后的光譜,從中可以看出平滑去噪效果明顯。

圖1 隨機選取樣本的原始光譜和小波變換處理后的光譜Fig.1 Original spectrum of randomly selected samples and the spectrum after wavelet transform

圖2(a)和(b)分別為5個不同茶葉品種和4個不同龍井茶等級經預處理后的近紅外光譜??梢钥闯霾煌贩N和等級的茶葉光譜變化趨勢相似,如在1 400~1 500 nm,1 900~2 000 nm,2 200~2 400 nm范圍內有強度不同的吸收峰,由吸收峰的位置結合茶葉化學組分分析,以上吸收峰依次為氨基酸(R-NH),茶多酚(=C-H),咖啡堿(-OH)類化合物。不同品種和等級茶葉的茶多酚、氨基酸和咖啡堿等物質成分的含量有差異,這些差異是應用近紅外光譜實現茶葉品種和等級快速檢測的光譜信息基礎。要進一步找到與茶葉更為密切的特征波長,需要利用化學計量學方法對隱含特征波長進一步挖掘[25]。

圖2 5種茶葉預處理后的平均光譜(a)和4個等級龍井茶葉預處理后的平均光譜(b) Fig.2 Average spectra of 5 kinds of tea after pretreatment(a) and average spectra of 4 grades of Longjing tea after pretreatment(b)

2.2 特征波長選擇

2.2.1 siPLS特征波長選擇以5種茶葉光譜數據為例,4:1劃分訓練集和測試集,經反復比較,當劃分區間數為20,聯合區間數為4,對應選取的子區間的波數范圍為1 215~1 300 nm,1 500~1 585 nm,1 800~1 885 nm,2 200~2 285 nm波長區間,一共340個波長變量,最優波長區間如圖3(a)所示。此時測試集的RMSECV最小為0.0435,相關系數r為0.9992,如圖3(b)所示。

圖3 siPLS選取的最優子區間(a)和相關系數及誤差(b) Fig.3 Optimal subinterval(a) and correlation coefficient and error(b) selected by siPLS

2.2.2 SPA特征波長選擇SPA在選取截取后的訓練集光譜數據的特征波長點時,利用均方根誤差(Root Mean Square Error,RMSE)最小化原則選出均方根誤差的導數變小的過渡點,在過渡點之前冗余信息被剔除。由圖4(a)可知最后選取的特征波長數為15個,RMSE為0.0634。圖4(b)為選取的15個特征波長,依次為912、1 186、1 506、1 621、1 734、1 877、1 902、1 937、2 024、2 185、2 216、2 327、2 376、2 409、2 452 nm,這些波長基本都在茶葉光譜的吸收峰附近。

圖4 SPA特征波長選取個數(a)和選取的特征波長(b)Fig.4 Number of SPA characteristic wavelengths selected(a) and selected characteristic wavelengths(b)

2.2.3 CARS特征波長選擇對預處理后的訓練集光譜數據使用CARS進行特征波長選擇,經反復嘗試,本實驗將蒙特卡羅采樣次數設定為50,采用5折交叉驗證。由圖5(a)可知,隨著取樣運行次數的增加,選取變量的數量逐步遞減。由圖5(b)可知,RMSECV值先緩慢遞減后遞增。RMSECV值遞減,說明種茶葉光譜數據中部分無用的信息被剔除,RMSECV值遞增,說明茶葉光譜數據中有部分重要信息被剔除。當RMSECV值達到最小時,各變量的回歸系數如圖5(c)中豎線處,此時的采樣運行次數是17,RMSECV=0.014,CARS提取的最優波長點數量為19。所選取的特征波長依次為891、972、1 190、1 233、1 421、1 463、1 537、1 549、1 635、1 689、1 735、1 748、1 901、1 967、1 973、2 004、2 112、2 134、2 219 nm。

圖5 CARS特征波長選取取樣變量數(a)、RMSECV(b)和回歸系數路徑(c) Fig.5 CARS characteristic wavelength selection sampling variable number(a),RMSECV(b) and regression coefficient path(c)

2.3 基于CNN的茶葉品種和等級鑒別

2.3.1 CNN搭建在建模之前先對光譜數據集進行劃分,按照4∶1劃分訓練集和測試集,并采用5折交叉驗證,輸出為模型的平均正確率。CNN通常由卷積層(Convolutional layer)、池化層(Pooling layers)與全連層(Fully connected layers,FC)等構成。卷積層用于提取特征,池化層可以減小卷積層提取的特征維數,從而加速神經網絡收斂,全連接層可將網絡前端輸出的特征還原給輸出層,最后由輸出層輸出分類結果。對特征波長選取后的光譜數據,搭建了5層的卷積神經網絡,包括了3個卷積層和2個全連接層,具體實現過程如圖6所示,卷積層均使用大小為1×3×1的卷積核(kernel),步長(stride)設置為1,池化方式采用最大池化(Max Pooling,MP),卷積層的卷積核數量(kernel number)分別為32、64和128,將卷積運算后的光譜數據輸入到全連接層,兩個全連接層的神經元個數分別為256和512個(以siPLS提取的茶葉特征波長數據為例,SPA和CARS結構與之相同)。

圖6 卷積神經網絡結構圖Fig.6 Convolution neural network structure diagram

2.3.2 CNN訓練與測試CNN的訓練和優化依賴于損失函數,損失函數計算預測值和真實值之間的誤差,通過反向傳播算法將誤差從最后一層反向傳播至網絡各層并更新權值。更新后的參數繼續參與訓練,循環往復,直到損失函數值達到最小,即達到了最終訓練的目的。損失函數下降采用Adam優化器[26],選擇訓練過程中最佳梯度下降方向,可加速模型的收斂。學習率(learning-rate)初始化為0.01,dropout設置為0.5,迭代次數設置為500后開始訓練。如果測試集損失值相比上一個訓練周期沒有下降,則經過50個周期后停止訓練,以防止過擬合,不同模型在茶葉品種和等級鑒別的結果如圖7所示。

圖7(a)、7(b)為全光譜結合卷積神經網絡建模結果,訓練集損失值(loss)和測試集損失值(val_loss)在訓練過程中迅速下降,模型為過欠擬合狀態,模型的準確度較低。經過特征波長選取后,相比圖7(c)、7(d) 的siPLS+CNN模型和圖7(e)、7(f)的SPA+CNN模型,圖7(g)、7(h)的CARS+SPA模型測試集精度更高,模型訓練效果更好。

圖7 全光譜品種鑒別結果(a)、全光譜等級鑒別結果(b)、siPLS+CNN品種鑒別結果(c)、siPLS+CNN等級鑒別結果(d)、SPA+CNN品種鑒別結果(e)、SPA+CNN等級鑒別結果(f)、CARS+CNN品種鑒別結果(g)、CARS+CNN等級鑒別結果(h)Fig.7 Full spectra variety identification results(a),full spectra grade identification results(b),siPLS+CNN variety identification results(c),siPLS+CNN grade identification results(d),SPA+CNN variety identification results(e),SPA+ CNN grade identification results(f),CARS+CNN variety identification results(g),CARS+CNN grade identification results(h)

表2為采用不同特征提取方法結合CNN模型對5種茶葉和4個茶葉等級分類檢測的結果,在全光譜范圍類,卷積神經網絡模型在茶葉品種和等級鑒別的精度僅有66.7%和75%,這是由于全光譜中含有許多無用信息且變量數過多。經過特征波長提取后的光譜數據再結合卷積神經網絡模型,在茶葉品種和等級的鑒別上可以實現更好的檢測精度,其中siPLS+CNN對品種和等級區分分別達到了91.67%和93.33%的準確率,SPA+CNN提高到95.83%和96.67%的準確率,CARS+CNN將準確率進一步提升到97.72%和98.67%。

表2 特征提取及卷積神經網絡建模結果Table 2 Results of feature extraction and convolution neural network modeling

表3為特征提取結合支持向量機(Support vector machine,SVM)、K近鄰(K-nearest neighbor,KNN)、極端梯度提升(Extreme gradient boosting,Xgboost)、隨機森林(Random Forest,RF)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)模型在茶葉品種和等級的鑒別結果(僅列舉CARS特征提取方法),模型參數均已調到最優,其中CARS+Xgboost模型表現最好,在品種和等級鑒別分別實現91.56%和93.33%的正確率,但和特征提取結合卷積神經網絡模型結果仍有差距。

表3 特征提取結合其他分類模型結果Table 3 Results of feature extraction combined with other classification models

2.3.3 模型穩定性驗證針對機器學習模型所需樣本量大的問題,本文采用平移法、添加噪聲法和線性疊加法三種數據增強的方法對原始的光譜數據進行擴充。圖8為隨機選取的鐵觀音茶葉原始光譜通過不同方法的數據增強結果,圖8(a)為平移法生成的光譜數據,將原始光譜的橫坐標隨機左右移動1~5 nm實現。圖8(b)為通過線性疊加法生成光譜數據,將兩個隨機樣本光譜數據求和之后再除以比例生成。圖8(c)為添加噪聲法生成的光譜數據,通過添加1~20 dB的高斯白噪聲得到。

圖8 平移法(a)、線性疊加法(b)和添加噪聲法(c)Fig.8 Translation method(a),linear superposition method(b) and noise addition method(c)

利用以上3種方法將原始光譜5個不同品種和4個等級的茶葉各擴充500個光譜數據,將增強的光譜數據和原始光譜數據混合建模,按照4∶1的比例劃分訓練集和測試集,采用5折交叉驗證,CARS+CNN模型的分類結果如表4所示(僅列舉CARS+CNN模型結果)。CARS+CNN模型在原始光譜的茶葉品種和等級的鑒別準確率為97.72%和98.67%,通過表4的結果可知,擴充后的數據集在CARS+CNN的建模結果和原始光譜結果非常接近,平移法和線性疊加法對模型的精度略有提升,而添加噪聲法使模型精度略有下降??傊?,CARS+CNN模型在三種不同數據增強方法擴充的數據集都實現了和原始光譜建模相近的結果,說明了原始光譜建立的CARS+CNN模型具有很好的穩定性。

表4 數據增強的卷積神經網絡建模結果Table 4 Data-enhanced convolutional neural network modeling results

3 結論

本文利用近紅外光譜技術,通過對光譜數據進行特征提取,對選取后特征數據建立卷積神經網絡模型,實現了茶葉品種和等級的鑒別。其中SPA+CNN對茶葉品種和等級識別率分別達95.83%和96.67%,CARS+CNN對茶葉品種和等級識別率分別達97.72%和98.67%,為后續相應裝置的研發提供了模型支持。同時,特征提取結合卷積神經網絡模型在茶葉品種和等級鑒別結果優于傳統的分類模型。本文使用平移法、線性疊加法、添加噪聲法對光譜數據集進行數據增強,驗證了特征提取結合卷積神經網絡模型的穩定性。因此,特征提取結合卷積神經網絡的方法,可以實現近紅外光譜茶葉品種和等級的高精度鑒別,為茶葉品種和等級的快速鑒別提供幫助,減少專業人員的感官評審工作量,可作為傳統化學檢測法的有效補充。

猜你喜歡
特征提取波長光譜
基于三維Saab變換的高光譜圖像壓縮方法
杯中“日出”
高光譜遙感成像技術的發展與展望
基于Gazebo仿真環境的ORB特征提取與比對的研究
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
基于頻域分析方法的軌道高低不平順敏感波長的研究
日本研發出可完全覆蓋可見光波長的LED光源
星載近紅外高光譜CO2遙感進展
RP—HPLC波長切換法同時測定坤泰膠囊中6個成分的含量
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合