太赫茲光譜在轉基因菜籽油鑒別中的應用:基于改進蜉蝣算法的支持向量機模型*

2024-04-01 08:01陳濤李欣

物理學報 2024年5期

陳濤李欣

(桂林電子科技大學電子工程與自動化學院,桂林 541004)

為實現對轉基因和非轉基因菜籽油的快速準確鑒別,結合太赫茲時域光譜技術,提出了一種基于改進蜉蝣優化算法的支持向量機模型.以兩種轉基因和兩種非轉基因菜籽油為研究對象,應用太赫茲時域光譜技術獲取其光譜信息,發現相比于非轉基因菜籽油,轉基因菜籽油在太赫茲波段具有更強的吸收特性,同時它們的吸收光譜極為相似,難以通過觀察法進行準確區分.為此,提出一種基于改進蜉蝣優化算法的支持向量機模型,通過采用蜉蝣優化算法對支持向量機參數進行尋優,并引入自適應慣性權重和Lévy 飛行兩種策略改進蜉蝣優化算法在尋優過程容易陷入局部最優解的問題,增強蜉蝣優化算法的全局搜索能力和穩健性.實驗結果表明:改進后的蜉蝣優化算法能夠更有效地尋找到支持向量機的最優參數組合,提升鑒別模型的整體性能,該模型對4 種菜籽油的識別精度為100%.因此,本研究為轉基因菜籽油的類型鑒別提供了一種快速有效的新方法,也為其他轉基因物質的鑒別提供了有價值的參考.

1 引言

菜籽油是世界上第三大植物油品種,其富含不飽和脂肪酸、維生素E 和多種礦物質,有助于心血管健康,維持皮膚健康,為人體提供重要的營養成分和能量來源.據農業生物技術應用國際服務機構統計,2019 年,全球油菜中有27%是轉基因作物[1].轉基因油菜是全球四大轉基因作物之一,其主要用途是生產菜籽油.雖然轉基因菜籽油已成為生活中常見的食用油,但截至目前還沒有任何研究能夠徹底否認其潛在危害[2].在消費市場上,不注明轉基因標示或將轉基因產品標識為非轉基因的情況屢見不鮮.因此,基于對公眾食品安全的考慮,對轉基因菜籽油的鑒別具有重要的現實意義.目前常見的轉基因產品檢測方法有兩種:一種是基于脫氧核糖核酸(deoxyribonucleic acid,DNA)的方法[3],另一種是基于蛋白質的檢測技術[4].由于轉基因菜籽油中DNA 和蛋白質含量極低,采用上述兩種方法均存在提取過程繁瑣、耗時較長、會損壞原有物質和非專業人員難以勝任等問題.因此,尋找一種快速無損和操作便捷的轉基因菜籽油檢測方法顯得尤為重要.

太赫茲(terahertz,THz)波是指頻率在0.1—10 THz 范圍的一段電磁波,是宏觀電子學和微觀光子學的交叉研究領域,具有很大的應用價值和學術價值[5,6].理論研究表明,許多生物分子(如DNA、蛋白質和脂肪等)的振動和轉動能級正好處于THz頻帶范圍內[7,8].因此,應用太赫茲時域光譜(terahertz time-domain spectroscopy,THz-TDS)技術探測生物樣品產生共振吸收峰,并通過THz 光譜來識別生物樣品成為了可能[9].目前,利用THz 光譜進行轉基因食用油的檢測識別已較多.文獻[10]報道了THz-TDS 在檢測轉基因大豆油上的應用,文獻[11]報道了THz-TDS 在檢測轉基因玉米油上的應用,文獻[12]報道了THz-TDS 在檢測轉基因山茶油上的應用.

然而,通過對文獻[10-12]的分析可知,同種轉基因和非轉基因植物油的THz 光譜極為相似,難以直接從光譜上對它們進行準確區分,需要結合一些模式識別方法才能實現對它們的準確區分.因此,本文應用支持向量機(support vector machine,SVM)方法對轉基因和非轉基因菜籽油進行鑒別.由于SVM 對參數較為敏感,選取合適的參數才可較好提升其性能[13],因此SVM 常與優化算法結合使用.蜉蝣優化算法(mayfly optimization algorithm,MOA)與其他傳統優化算法相比,有著較好的求解精度和較快的收斂速度,但也由于較快的收斂速度,其在尋優過程中容易陷入局部最優解,全局搜索能力較弱[14],因此為了提升MOA 的整體搜索性能和精度,本文引入自適應慣性權重(adaptive inertia weight,AIW)以及Lévy 飛行兩種策略來改進MOA(命名為ALMOA).本文將ALMOA 應用于SVM 重要參數的尋優過程中,從而得到一種基于改進蜉蝣優化算法的支持向量機模型(ALMOASVM),來實現對轉基因和非轉基因菜籽油的快速準確鑒別.

2 實驗部分

2.1 實驗設備

本文采用的實驗設備為美國Zomega 公司生產的Z-3 THz-TDS 系統,該系統主要由超快飛秒光纖激光器、THz 輻射產生裝置、THz 輻射探測裝置和延時控制裝置四部分組成,系統原理圖如圖1所示.該系統激光的中心波長為780 nm,脈沖寬度低于100 fs,信噪比高于70 dB.整個實驗在室溫下進行,為避免潮濕空氣中水分對THz 波吸收的影響,實驗前在樣品實驗艙中充滿干燥的氮氣,使其內部密閉空間的相對濕度小于2%,以保證實驗數據的準確性.

圖1 THz-TDS 系統原理圖Fig.1.Schematic diagram of THz-TDS system.

2.2 樣品制備

實驗選取的樣品為在市面上容易獲取的4 種不同品牌的轉基因和非轉基因菜籽油,樣品信息如表1 所示.所有油樣均為具有國家質量監督檢驗檢疫認證的合格產品.實驗樣品在實驗前都在低溫避光環境下儲存以防止變質和氧化.實驗樣品架選擇窗片材料為聚四氟乙烯薄膜的可拆卸液體池,由于聚四氟乙烯在THz 波段具有較低的吸收特性,所以不會對待測樣品產生干擾.可拆卸液體池的厚度為0.5 mm,中心為面積為270 mm2的橢圓孔.在制樣時,采用5 mL 的一次性醫用注射器吸取約2 mL 的油樣,沿液體池壁輕壓注射器,使油樣緩慢注入液體池中,以避免氣泡的產生.每種菜籽油制作90 個樣本,共計360 個,其中每種菜籽油隨機選取70%的樣本作為訓練集,剩余的30%作為測試集.

表1 實驗樣品信息Table 1.The information of experimental sample.

2.3 數據處理方法與模型評價指標

在太赫茲時域光譜中,獲取的信息較為有限,為進一步研究轉基因和非轉基因菜籽油在THz 波段的吸收特性,對實驗測得的太赫茲時域參考信號和樣品信號進行快速傅里葉變換,得到各自的頻域信號,然后通過(1)式計算獲得樣品的吸光度,以此來表征4 種菜籽油對THz 波的吸收程度.

其中,Eref(ω) 為頻域參考信號,Esam(ω) 為頻域樣品信號,ω為角頻率.

為了更好地對分類鑒別模型的性能進行評估,采用查準率P、查全率R和精度A作為模型評價指標,計算公式如下:

其中,TP 為真正類,即模型正確地將某類物質(設為正類)預測為該類物質(正類)的個數;FP 為假正類,即模型錯誤地將其他類物質(設為負類)預測為該類物質(正類)的個數;TN 為真負類,即模型正確地將其他類物質(負類)預測為其他類物質(負類)的個數;FN 為假負類,即模型錯誤地將該類物質(正類)預測為其他類物質(負類)的個數.

3 分類模型

3.1 支持向量機

SVM 是一種基于統計學習理論的有監督學習方法[15,16].其核心原理在于將數據映射到高維空間,以尋找一個能夠最大化不同類別數據間邊界距離的超平面,從而實現對數據的有效分類.通過引入核函數,SVM 可以處理非線性分類問題,將其轉化為在高維特征空間中的線性分類任務.同時,SVM 以結構風險最小化為原則,通過在特征空間中找到最優超平面來解決分類問題,具有較強的泛化能力和對噪聲的抵抗能力.

在實際的應用中,合適的SVM 參數選擇將決定模型的泛化能力和分類性能優劣,本文選擇徑向基函數(radial basis functions,RBF)作為SVM的核函數,因此該模型的分類能力主要取決于正則化參數c和徑向基函數g兩個參數,本文進一步采用蜉蝣優化算法(MOA)對SVM 的參數進行尋優.

3.2 蜉蝣優化算法

MOA 是2020年由Konstantinos等[17]根據蜉蝣的飛行和繁衍行為提出的啟發式算法,用于解決復雜的函數優化問題.算法的工作原理如下:最初,隨機生成兩組蜉蝣,分別代表雄性和雌性種群.將每個蜉蝣隨機放置在問題空間中,作為由d維向量x=(x1,x2,x3,···,xd) 表示的候選解,并在預先定義的適應度函數f(x) 上評估其性能.蜉蝣的速度v=(v1,v2,v3,···,vd) 定義為其位置的變化,每只蜉蝣的飛行方向是個體和社會飛行經驗動態交互作用.雄性通過全局最優位置和自身歷史最優位置移動,雌性則是向優于自己的配偶移動,若配偶弱于自己則自行局部搜索,移動結束后,雌性和雄性蜉蝣進行交配并產生后代,子代有較小的概率產生變異,最后淘汰子代和親代中適應度較差的個體,維持種群整體數量不變,重復上述過程.

3.3 蜉蝣優化算法的改進

3.3.1 引入自適應慣性權重

慣性權重對解的搜索精度和收斂次數有著良好的指導性作用,較大的慣性權重有利于全局搜索,較小的慣性權重則有利于局部搜索.由于MOA采用的是線性的慣性權重,其全局和局部搜索能力一般,為了更好地發揮算法的全局搜索以及局部搜索能力,本文采用一種自適應非線性慣性權重[18,19],使之在迭代初期緩慢減小,主要發揮算法的全局搜索能力,從而達到圈定最優解范圍的目的,在迭代后期,慣性權重減小加快,從而快速增強算法的局部搜索能力,精準鎖定最優解位置.這里,定義自適應非線性慣性權重w如(5)式所示:

其中,wmax和wmin分別為最大和最小慣性權重,分別取值0.8 和0.4;tmax為最大迭代次數;t為當前迭代次數.

將慣性權重w引入MOA 中,雄性蜉蝣個體的速度更新為

3.3.2 融合Lévy 飛行策略

針對MOA 容易陷入局部最優的問題,利用Lévy 飛行的跳躍能力來增強其跳出局部最優的能力[20].Lévy 飛行策略模擬自然界中動物的隨機覓食行走,假設種群中的蜉蝣均存在一定的概率不直接沿著最優路徑移動,而是根據Lévy 飛行策略在最優路徑附近進行隨機游走,從而達到跳出當前局部最優位置,擴大全局搜索能力的目的.同時為了避免在迭代后期,蜉蝣一直在全局最優位置周圍游走,而不收斂于全局最優位置,為Lévy 飛行增加步長調整參數δ[21]:

其中,δmax和δmin分別為最大和最小步長調整參數,分別取值1 和0;a,b為常數,分別取值4 和20.

通過上述參數的取值,此時δ∈[0,1),在迭代前期,δ從1 開始緩慢減小,發揮Lévy 飛行的全局游走優勢,增強算法的全局搜索能力,在迭代中期δ開始迅速減小,并至迭代后期逐漸趨于零,目的是為了保證算法在迭代后期主要進行局部搜索,從而快速收斂于全局最優位置.

雄性和雌性蜉蝣個體的位置更新為

其中,L(α) 符合Lévy 分布,穩定參數α=1 .

通過上述兩種策略的改進,相比于MOA,ALMOA 在迭代前期具有更強的全局搜索能力,在迭代后期具有更強的局部搜索能力.由此構建得到的ALMOA-SVM 模型,解決了MOA 在SVM 參數尋優過程中容易陷入局部最優解的問題,增強了SVM 最優參數的搜索精度,提升了模型的整體性能.

4 實驗結果與分析

4.1 光譜分析

通過實驗獲取4 種菜籽油共計360 個樣本的THz 時域光譜如圖2 所示,實驗設置的掃描窗口長度為30 ps,光譜分辨率約為33.3 GHz,圖中Reference 表示參考信號,為實驗艙中樣品架空載時的測量值.由圖2 可見,同種菜籽油不同樣本的時域波形之間存在一定的差異,不同菜籽油樣本的時域波形之間存在一定的交叉重疊.為了更清楚地觀測到轉基因與非轉基因菜籽油存在的差異,對每種菜籽油90 個樣本的THz 時域光譜數據求平均,得到4 種菜籽油的THz 平均時域光譜如圖3 所示.可以看出,所有菜籽油的譜線相對于參考信號,在幅值上均呈現一定程度的衰減,在時間上均呈現一定的時延,表明菜籽油對THz 光譜具有一定的吸收特性.其中,Non-GMO1 油樣的相位延遲最長,GMO2 油樣的振幅衰減最多.總體上看,轉基因菜籽油樣品相對于非轉基因菜籽油樣品,在相位上延遲更少,在幅值上衰減更大.

圖3 4 種菜籽油及參考信號的THz 時域光譜Fig.3.THz time-domain spectra of four types of rapeseed oils and reference signal.

為了進一步研究轉基因和非轉基因菜籽油在THz 波段內各頻率的變化特性,將平均時域光譜補零后進行快速傅里葉變換得到其平均頻域譜,如圖4 所示.可見,所有樣品信號相對于參考信號,在0.3 THz 之后均開始出現一定程度的衰減,同時在1.8 THz 之后參考信號和樣品信號均開始出現明顯的振蕩現象,表明在1.8 THz 之后信號受噪音影響加劇.從整體上看,在0.3—1.8 THz 波段,轉基因菜籽油樣品相對于非轉基因菜籽油樣品,在幅值上呈現出更大的衰減趨勢.通過上述分析可知,轉基因菜籽油樣品相對于非轉基因菜籽油樣品,在THz 波段表現出更強的吸收特性.

圖4 4 種菜籽油及參考信號的THz 頻域光譜Fig.4.THz frequency-domain spectra of four types of rapeseed oils and reference signal.

通過(1)式計算4 種菜籽油在0.3—1.8 THz頻段內的太赫茲吸光度,獲得360 個菜籽油樣本的太赫茲吸光度譜如圖5 所示.可見,所有菜籽油樣本在0.3—1.8 THz 波段呈現出相似的波形和相近的幅值,無顯著差異.通過對每種菜籽油90 個樣本的吸光度取平均,計算得到4 種菜籽油樣品的平均吸光度譜如圖6 所示.可以看出轉基因菜籽油樣品相對于非轉基因菜籽油樣品,在THz 波段的吸光度更高,說明轉基因菜籽油樣品在THz 波段具有更強的吸收特性[10,11],與頻域譜中觀測到的結果相一致,這可能是由于轉基因油菜中引入了外源基因,如高油酸基因、亞麻酸合成基因等,改變了菜籽油的脂肪酸組成含量,從而使轉基因菜籽油在太赫茲波段具有更強的吸收特性[22,23].同時可以清楚地發現轉基因和非轉基因菜籽油樣品的波形極為相似,吸收峰所處頻率位置也基本一致,這可能是由于轉基因和非轉基因菜籽油的成分極為相似所致,而波形存在差異的原因之一可能是由于不同來源菜籽油中相似成分的含量存在差異,從而導致它們與太赫茲共振吸收峰在光譜上呈現出一定的差異,因此,采用直接觀察的方式很難對它們進行準確的鑒別.

圖5 360 個菜籽油樣本在0.3—1.8 THz 波段內的吸光度譜Fig.5.Absorption spectra of 360 rapeseed oil samples in the 0.3—1.8 THz range.

圖6 4 種菜籽油在0.3—1.8 THz 波段內的平均吸光度譜Fig.6.Average absorption spectra of four types of rapeseed oils in the 0.3-1.8 THz range.

4.2 主成分分析

由于菜籽油樣品的吸光度數據維數過高,若將其直接輸入到鑒別模型中,計算量較大且十分耗時,這將會對模型性能產生負面影響.因此,為了減少光譜數據的冗余,提高建模效率,采用主成分分析(principal component analysis,PCA)對菜籽油吸光度譜中0.3—1.8 THz 波段的原始數據(330 維)進行降維,得到各主成分的方差貢獻率變化條形圖如圖7 所示.可以看出,前3 個主成分占據了原始數據的絕大部分信息,其累計方差貢獻率達到了98.27%,圖8 給出了前3 個主成分的三維(3D)散點圖,從圖8 可以看出,4 種菜籽油的主成分在三維空間中呈現出了不同的聚集區域,但也存在一些交叉重疊的地方,如Non-GMO1 的主成分分布較為分散,與其他3 種油樣的主成分均有部分區域重疊;而Non-GMO2,GMO1 和GMO2 的主成分則分布則較為集中,但它們聚集區域的邊緣位置也存在部分區域相互重疊.因此僅通過PCA 不足以對樣本進行完全正確的分類,但也說明了PCA能夠有效提取不同菜籽油吸光度譜中的特征信息.從圖7 可以看出,前9 個主成分的累積方差貢獻率超過了99.8%,可以近似解釋所有原變量,因此采用這9 個新變量代替原始光譜數據來進行后續建模處理.

圖7 吸光度的主成分方差貢獻率變化條形圖Fig.7.Bar chart of variance contribution rates for absorbance’s principal components.

圖8 吸光度前3 個主成分的3D 散點圖Fig.8.3D scatter plot of the first three principal components of absorbance.

4.3 參數尋優及模型鑒別

在訓練集中分別用MOA 和ALMOA 對SVM進行參數尋優,尋找最佳的正則化參數c和徑向基函數g參數,尋優過程如圖9 所示,尋優結果如表2 所示.從圖9(a)可以看出,MOA 的收斂速度很快,在迭代前期便快速取得了最佳適應度97.22%(最佳參數(c,g)=(12.42,0.79)),同時平均適應度也幾乎同步增長至最佳適應度附近,但在迭代中期和迭代后期,最佳適應度一直穩定不變,平均適應度也僅在最佳適應度下略微起伏,這說明MOA 在迭代前期快速取得較高的局部最佳適應度后,迭代中期至迭代后期一直在局部最佳適應度附近進行尋優,未能跳出局部最優解擴大全局搜索范圍.經多次實驗發現,MOA 常常在參數尋優的迭代前期便陷入了不同的局部最優解,說明MOA 較為依賴雌雄蜉蝣初始的隨機位置,全局搜索能力較差.從圖9(b)可以看出,ALMOA 在迭代前期也快速取得了局部最佳適應度97.62%,但由于該算法在迭代前期具有較強的全局搜索能力,在圖中具體表現為其平均適應度在迭代前期有較大的波動,因此其順利跳出了當前的局部最優解,并在迭代中期再次跳出了局部最優解,最終取得了全局最佳適應度98.41% (最佳參數(c,g)=(84.62,0.12)).同時,從圖9(b)中的平均適應度曲線變化可以發現,其波動幅度大致隨著迭代次數增加而緩慢較小,且曲線整體上呈現上升趨勢,并在迭代后期收斂于全局最佳適應度曲線附近,說明ALMOA 在迭代前期發揮了較強的全局搜索能力,在迭代后期發揮了較強的局部搜索能力,達到了預期的優化效果.

表2 兩種算法的SVM 參數尋優結果Table 2.Results of SVM parameter optimization under two algorithms.

圖9 兩種算法下SVM 參數尋優過程中的適應度變化曲線 (a) MOA;(b) ALMOAFig.9.Fitness evolution curves during SVM parameter optimization process for two algorithms:(a) MOA;(b) ALMOA.

將MOA 和ALMOA 的最佳參數尋優結果分別代入SVM 中,并對測試集進行識別,最終得到MOA-SVM 模型和ALMOA-SVM 模型的分類結果混淆矩陣如圖10 所示,模型的性能評價如表3所示.可見,采用MOA-SVM 模型的識別精度為98.15%,其預測結果中存在兩個誤判,分別將兩個Non-GMO2 樣品,一個誤判為Non-GMO1 樣品,另一個誤判為GMO1 樣品,所得Non-GMO2 的查全率為92.59%,Non-GMO1 的查準率為96.43%,GMO1 的查準率為96.43%.采用ALMOA-SVM 模型的識別精度為100%,所有菜籽油樣品均被正確識別.由此可見,ALMOA 有效避免了參數尋優過程中陷入局部最優解的情況,增強了其全局搜索能力,從而使鑒別模型的分類性能得到了較好提升.

表3 MOA-SVM 模型與ALMOA-SVM 模型的性能評價Table 3.Performance evaluation of the MOASVM model and ALMOA-SVM model.

圖10 兩種模型的分類結果混淆矩陣 (a) MOA-SVM 模型;(b) ALMOA-SVM 模型Fig.10.Confusion matrices of the classification results for the two models:(a) MOA-SVM model;(b) ALMOA-SVM model.

5 結論

本文采用THz-TDS 技術研究了兩種轉基因和兩種非轉基因菜籽油的THz 光譜,發現轉基因菜籽油相對于非轉基因菜籽油在THz 波段具有更強的吸收特性.通過對0.3—1.8 THz 范圍內的菜籽油吸光度譜進行主成分分析,選取累積方差貢獻率超過99.8%的前9 個主成分替代原始光譜數據,降低了數據維度,提升了后續建模效率.在SVM參數尋優過程中,針對MOA 容易陷入局部最優解的問題,引入自適應慣性權重和Lévy 飛行兩種改進策略,提出了ALMOA.結果表明,相比于MOA,ALMOA 在迭代前期具備更強的全局搜索能力,在迭代后期也具有較為出色的局部搜索能力,對SVM參數的搜索精度更高;基于本文實驗獲取的菜籽油吸光度數據集,ALMOA-SVM 模型對4 種菜籽油的識別精度為100%,優于MOA-SVM 模型獲得的98.15%的識別精度.因此,THz-TDS 技術結合ALMOA-SVM 模型為轉基因菜籽油的分類鑒別提供了一種快速有效的新方法,同時也為其他轉基因物質的檢測提供了方法參考.