?

基于ATR-FTIR光譜的γ-PGA發酵批次分類研究

2022-11-08 11:18劉隆興
東北大學學報(自然科學版) 2022年10期
關鍵詞:波數光譜準確率

單 鵬,吳 綴,何 年,劉隆興

(東北大學秦皇島分校 控制工程學院,河北 秦皇島 066004)

聚谷氨酸(γ-polyglatamic-acid,γ-PGA)由于其水溶性、吸附性好等特點,它及其衍生物被廣泛應用于食品工業、化妝品行業,以及醫療保健行業[1].γ-PGA作為一種批次發酵的產物,其發酵過程復雜,易受到各種因素的影響,無法嚴格保證每個批次發酵條件完全相同,使得不同批次生產的γ-PGA產品質量有所差異.通過對γ-PGA發酵批次的鑒別,可以為鑒別γ-PGA產品質量提供關鍵的信息.傳統的CTAB法[2]、HPLC法[3]、GPC法[4]等化學檢測方法對γ-PGA發酵過程提供信息十分有限,而且上述分析方法大多相對復雜、耗時長且需要專業技能.此外,通常需要對樣品進行預處理,這樣不僅進一步增加檢測的復雜性和成本,還可能改變γ-PGA發酵有機分子官能團特征.相比之下,衰減全反射傅里葉變換紅外光譜(ATR-FTIR)是一種相對簡單、快速、廉價且非侵入性的技術[5],無需任何復雜的樣品預處理;此外其光譜范圍在4 000到400 cm-1之間,能夠準確地提供γ-PGA發酵過程中大部分有機分子化學鍵和官能團信息,非常適用于γ-PGA發酵過程的監測.

由于發酵條件無法保證完全相同,不同批次γ-PGA發酵液光譜存在差異.根據這些光譜差異,可以對γ-PGA產品批次進行鑒別.γ-PGA光譜信息量大,而且變量之間存在多元相關性.傳統的判別分析方法,如線性判別分析(linear discriminant analysis, LDA)[6]、二次判別分析(quadratic discriminant analysis,QDA)[7]、K近鄰(K-nearest neighbor,KNN)[8]無法處理多元共線性,分類效果很不理想,所以本文采用了適合處理多元共線性問題的偏最小二次判別分析(partial least squares discriminant analysis, PLSDA)[9]方法.PLSDA方法包括了主成分分析、多元線性回歸分析、典型相關性分析,對于本文處理γ-PGA發酵光譜的高維度、噪聲大、變量間存在相關性的數據十分適用[10-15].

本文采集了5個批次的γ-PGA發酵液ATR-FTIR數據.先利用波數選擇的方法挑選出了重要變量,再利用PLSDA建立分類模型,對樣品的批次進行定性分析,測試樣品的準確率可以達到87%以上.實驗表明,波數選擇結合PLSDA可以對ATR-FTIR采集的γ-PGA發酵液光譜實現快速鑒別分類.

1 實驗部分

1.1 對菌種進行發酵培養

γ-PGA發酵實驗選用中國工業微生物菌種保藏管理中心(China Center of Industrial Culture Collection, CICC)枯草芽孢桿菌亞種為菌種(編號20643).菌種是以凍干粉形式儲存的,將菌種溶于無菌水恢復活性后,用接種環將菌群接種于固體培養基,再將其置于電熱恒溫箱培養24~48 h.隨后挑選一株長勢良好的菌體,接種在種子培養基中,然后在37 ℃和180 r/min的恒溫振蕩培養箱中(THZ-92A,躍進醫療器械有限公司,中國 上海)培養10~16 h.接著將種子培養基中種子液按2%接種量接種至發酵培養基中,并將3 L的發酵培養基置于5 L的發酵罐(GRJB-5D,綠色生物工程有限公司,中國 鎮江)中,在37 ℃恒溫和300 r/min攪拌速度的條件下進行發酵.上述三種培養基配置如下,固體培養基:蛋白胨(10 g/L),牛肉膏(5 g/L),氯化鈉(5 g/L)以及2%瓊脂粉;種子培養基:葡萄糖(10 g/L),牛肉膏(5 g/L),蛋白胨(10 g/L),氯化鈉(5 g/L);發酵培養基:葡萄糖(35 g/L),酵母膏(5 g/L),谷氨酸鈉(30 g/L),氯化銨(2 g/L),磷酸氫二鉀(5 g/L)和硫酸鎂(0.5 g/L).三種培養基均需在121 ℃下滅菌20 min.

1.2 對發酵液進行光譜采集

圖1 γ-PGA 5個發酵批次的光譜圖

1.3 模型建立

1.3.1 PLSDA原理簡介

PLSDA是一種有監督的判別分析統計方法[16],該方法被用來建立γ-PGA發酵液樣品光譜與發酵批次之間的關系模型,來實現對樣品批次的預測.PLSDA是基于LDA基礎上的偏最小二乘(partial least squares,PLS),它同時對樣本光譜矩陣X∈Rm×n(m和n分別為樣本數和光譜變量數)和類別標簽向量y∈Rm×1進行分解,突顯類別信息在光譜分解時的作用,以提取出與樣本類別最相關的光譜信息,即最大化提取不同類別光譜之間的差異.

PLSDA建立X與y之間的數學模型:

y=XB+E.

(1)

其中:B∈Rn×1為回歸系數向量;E為殘差向量.

在建立模型(1)之前,先通過PLS對X和y進行雙線性分解:

X=TPT+EX,

(2)

y=UQT+Ey.

(3)

式中:T=[t1,…,tc]∈Rm×c和U=[u1,…,uc]∈Rm×c為關于X和y的得分矩陣;P∈Rq×c和Q∈Rq×c是X和y的載荷矩陣;EX和Ey是X和y的殘差矩陣.

T和U中的得分向量為原始變量的線性組合:

ti=Xwi,

(4)

ui=yvi.

(5)

式中:wi和vi是投影向量,用非線性迭代偏最小二乘(nonlinear iterative partial least squares,NIPLS)方法提取c組得分,提取c組得分關鍵在于求解wi和vi,只有求解出wi和vi才能得到ti和ui.提取每組得分需要滿足目標函數:

(6)

(7)

1.3.2 波數選擇方法

經典的光譜波數選擇方法包括了子窗口置換分析(subwindow permutation analysis, SPA)、競爭自適應重加權采樣(competitive adaptive reweighted sampling, CARS)、隨機青蛙(random frog, RF)等.其中SPA算法能夠考慮到多變量的協同效應,以及能夠識別信息“峰”,來進行變量重要性評估[17].CARS算法以簡單的“適者生存”原則[18],結合偏最小二乘回歸來選擇全光譜中的最佳波段.RF是一種基于模型整體分析的變量挑選方法,借鑒了可逆跳躍馬爾可夫鏈蒙特卡羅(reversible jump Markov chain-Monte Carlo, RJMCMC)[19]的思想,生成了一系列可以在整個模型空間中隨機跳躍的模型,根據每個變量的選擇概率作為變量重要性的度量[20].其中RF,SPA和CARS算法挑選的波數見圖2.通過觀察挑選波數的分布情況,發現SPA算法中挑選的波數位于波峰波谷處的多;RF算法挑選波數呈現出分散狀態,正好對應了其隨機跳躍的特點.CARS對于變量重要程度判斷標準較為嚴格,是三種方法中挑選出波數最少的.

圖2 5個批次的平均光譜及不同選擇方法挑選的波數

1.3.3 建立模型

本文主要關注每個批次與其他批次的分類效果,因此采用二分類分類器,將每個批次作為一個小類,將其余4個批次作為一個大類.為了保證樣本劃分均衡,對大類和小類同時進行KS(kennard-stone)劃分.用KS算法將γ-PGA發酵液光譜數據按照3∶1比例劃分,其中3份作為訓練集,建立模型;一份作為測試集,用來驗證模型.用波數選擇方法,挑選出重要性高的波數.采用5折交叉驗證,對挑選出的變量交叉驗證分析,從1~20 中選出最佳潛在變量個數.最后利用PLSDA算法對訓練集建立模型,用測試集來驗證模型精度.所有模型建立之前,光譜數據均進行中心化預處理.

1.3.4 評價指標

所得模型根據正確率、準確率、召回率、特異性、F1得分共5個指標來評價,其中真陽性(true positive,TP)、假陽性(false positive,FP)、假陰性(false negative,FN),真陰性(true negative,TN)評價指標計算公式如下:

正確率表示預測正確樣本占總樣本數比例:

(8)

準確率表示預測為正類中正確的比例:

(9)

召回率(敏感度)表示預測為正類正確個數占實際正類比例:

(10)

特異性表示預測為負類正確個數占實際負類比例:

(11)

F1得分表示準確率與召回率的調和平均數:

(12)

利用PLSDA和三種經典的波數選擇方(SPA-PLSDA,CARS-PLSDA和 RF-PLSDA),對采集的5個批次γ-PGA發酵ATR-FTIR光譜進行判別分析,通過對比波數選擇和無波數選擇判別分析精度、敏感度、F1得分來找到最適合γ-PGA發酵批次判別的方法.

2 結果與討論

2.1 PLSDA(無波數選擇)結果分析

不進行波數挑選,直接利用PLSDA算法進行5次二分類,5個批次訓練集的精度都達到了100%,測試集精度除了批次3為100%,其余4個批次也在92.1%~94.9%之間.具體數據如表1所示.

表1 PLSDA方法分類結果

2.2 不同波數選擇結合PLSDA的結果分析

2.2.1 SPA-PLSDA結果分析

通過1 000次蒙特卡洛實驗,SPA挑選出合理的波數,再結合PLSDA對挑選出的波數進行建模,實驗結果見表2.挑選的波數(見圖2c)主要集中在波峰與波谷處,挑選出連續的波數,對應了其移動窗口選擇波數的特點.相比于不進行波數選擇,SPA-PLSDA模型在5個訓練集模型精度都接近100%,測試集精度4個批次達到了100%,批次1為97.4%,而且F1得分、測試集敏感度以及測試集精度上都有顯著提升.經過波數選擇后,大大降低了模型的復雜度,但預測精度仍然能夠保持甚至提升.這些結果都表明了SPA-PLSDA十分適用于γ-PGA發酵批次分類.

表2 SPA-PLSDA方法分類結果

2.2.2 CARS-PLSDA結果分析

利用CARS算法進行波數選擇,首先構建包含所有變量的模型,接著以迭代方式消除最不重要的變量.每次迭代中要消除的變量數量由指數遞減函數和自適應加權采樣技術所決定.且在每次迭代中,不是對單個變量重要性評估,而是對變量子集進行評估[21].CARS算法對于變量重要程度判斷標準較為嚴格,挑選的波數(見圖2d)主要集中在波段的前部和中后部;其中批次3雖然只挑選了10個特征波數的組合(279,282,501,569,602,793,937,943,952和996 cm-1),但預測性能與全波段模型性能相當.相比于表1不進行波數選擇情況,盡管訓練模型的精度仍然是100%,但測試集精度顯著降低,其中批次1,2和4都降低了5%~8%,降低幅度較大,特別是在測試集批次1中,將所有類別都歸為了大類,而僅僅在批次5有一點提升,各項指標也不夠理想,具體數據如表3所示.

表3 CARS-PLSDA方法分類結果

2.2.3 RF-PLSDA結果分析

RF通過在模型空間中模擬一條服從穩態分布的馬爾科夫鏈,來計算每個變量的被選概率,然后根據所有變量的排名選擇變量[22].挑選的波數見圖2b,整個波數的選擇都比較隨機,在整個波段中也比較均勻分散.特別是批次3與5分別挑選出10個(951,963,941,952,603,601,938,185,569和282 cm-1)和8個(207,233,336,536,760,529,491和585 cm-1)特征波數組合,仍然取得了測試集100%和97.4%的準確率.相比直接進行PLSDA分類,經過RF算法挑選波數,訓練集準確率仍然為100%,除了測試集3個批次仍然保持100%外,其他幾個批次均有2%~8%左右的提升,測試集準確率均在97.4%以上,其余指標如敏感度以及F1得分方面也有明顯提升,模型的復雜度經過波數選擇后顯著降低,具體數據如表4所示.

表4 RF-PLSDA方法的分類結果

2.3 三種波數選擇方法比較

將SPA-PLSDA,CARS-PLSDA,RF-PLSDA三種方法進行比較.對于訓練集來說經過波數選擇后對于鑒別γ-PGA批次準確率都非常高,對于測試集來說CARS-PLSDA方法效果較差,主要是因為CARS-PLSDA將批次1分類中全部歸為了大類,導致準確率低.而SPA-PLSDA和RF-PLSDA兩種波數選擇方法取得的效果相差不大,均能很好地對γ-PGA發酵批次進行判別.其中SPA-PLSDA將批次2,4和5的準確率提升到了100%,RF-PLSDA將批次2和4的準確率提升到了100%,將批次5提升了2.5%達到97.4%.具體數據如表5所示.

表5 三種波數選擇方法比較

3 結 論

1)利用波數選擇的方法對ATR-FTIR光譜儀測量的γ-PGA發酵液的5個批次進行快速鑒別,相比于直接應用PLSDA,波數選擇方法顯著降低了模型復雜度.

2)在波數選擇方法中,CARS算法由于每次迭代中要消除的變量數量由指數遞減函數決定,消除變量數太多,盡管大幅降低模型復雜度,但其他指標并不理想.

3)RF和SPA算法都取得了良好的效果,經過SPA和RF波數選擇后,批次2,4和5的各項指標都得到了提升.其中SPA-PLSDA方法在批次2~5上的準確率更是達到100%,批次1達到97.4%.因此合適的波數選擇的方法結合PLSDA可以成功應用到γ-PGA的批次鑒別上.

猜你喜歡
波數光譜準確率
一種基于SOM神經網絡中藥材分類識別系統
基于三維Saab變換的高光譜圖像壓縮方法
基于3D-CNN的高光譜遙感圖像分類算法
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
6 個不同廠家的黑白胡椒粉紅外光譜分析
二維空間脈動風場波數-頻率聯合功率譜表達的FFT模擬
薄膜光伏組件在不同光譜分布下的測試差異
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合