?

Q型因子光譜轉移法用于煙草化學成分近紅外預測模型的傳遞

2024-03-14 01:32張諾涵王洪波李蓓蓓梁友艷郭軍偉
煙草科技 2024年2期
關鍵詞:校正光譜矩陣

張諾涵,趙 樂,王 迪,劉 雨,王洪波,李蓓蓓,梁友艷,郭軍偉*

1.中國煙草總公司鄭州煙草研究院,鄭州高新技術產業開發區楓楊街2 號 450001 2.山東中煙工業有限責任公司青島卷煙廠,山東省青島市嶗山區株洲路137 號 266300

近紅外(Near infrared,NIR)是一種快速、高效、無損的分析技術,目前在煙草行業廣泛應用于煙葉化學成分分析[1]、煙葉質量評價[2]、打葉模塊組配[3]、復烤片煙質量均一性控制[4]、卷煙原輔材料質量控制[5]和卷煙配方維護與設計[6]等。由于光學系統和元器件的微小差異,在一臺近紅外光譜儀上構建的預測模型并不能直接應用到另外一臺近紅外光譜儀上。要將近紅外預測模型應用到其他光譜儀上,必須進行模型轉移。預測模型轉移能夠避免繁瑣重復的建模過程,實現預測模型利用的最大化,實現分析數據的統一、可比,對大數據積累與分析挖掘具有重要意義[7]。

目前,近紅外模型轉移方法主要有對模型參數校正的算法、對預測結果校正的算法和對光譜校正的算法3 種[8]。其中,轉移效果最好的是光譜校正法,且光譜校正法非常有利于網絡化連接的儀器群,對于直接利用近紅外光譜圖進行數據分析而不使用化學成分預測模型的應用場景,這種光譜校正方法也可以將子機群的光譜統一到可比基礎之上,具有很大優勢。目前,煙草行業多采用基于光譜校正的模型轉移方法中的分段直接校正法[9](Piecewise direct standard,PDS)和光譜空間轉換[10](Spectral space transformation,SST)等,而SST 在重組光譜時需要根據經驗選取適當的主成分數,同時PDS 法也需要根據經驗選擇最優窗口大小及主成分數。因此,建立了一種基于光譜校正模型轉移的Q 型因子光譜轉移法(Q-factor spectral transformation,QFST),該方法根據類間可分性原則,將主機和子機光譜的眾多原始變量歸結為幾個綜合因子,以此構建兩者的轉換關系,旨在以最小的信息損失實現對不同儀器間光譜的校正。

1 材料與方法

1.1 材料和儀器

2021年全國各中煙工業有限責任公司的醇化片煙樣品,共1 012個;采用Kennard-Stone(KS)方法[11]篩選出199個具有代表性的醇化片煙樣品。

主機M1 和子機S1、S2 均為Antaris Ⅱ型傅里葉變換近紅外光譜儀配并備積分球漫反射采樣系統、ICS 6000 離子色譜儀(美國Thermo Scientific 公司);主機M2 和子機S3 為Tango Ⅱ型傅里葉變換近紅外光譜儀(德國Bruker 公司);ZM200 型粉碎機(德國Retsch 公司);BSA124S 型電子天平(感量0.000 1 g,德國Satorious 公司);TRACE 1310/TSQ QUANTUM XLS 氣相色譜-串聯質譜聯用儀(GC-MS/MS,美國Thermo Fisher Scientific 公司);AA3 連續流動分析儀(德國BRAN+RUBBE 公司);A300全自動氨基酸分析儀(德國MembraPure GmbH公司);1200 液相色譜儀(美國Agilent 公司);AB Sciex Triple TOF TM 4600 質譜儀(美國Applied Biosystems公司);UPLC-CLASS超高效液相色譜系統(美國Waters 公司);7500 型電感耦合等離子體質譜儀(ICP-MS,美國Agilent 公司);702 SM Titrino pH計(瑞士Metrohm公司)。

1.2 方法

1.2.1 樣品處理與化學指標檢測

所有煙草樣品均按照行業標準[12]干燥處理。干燥后的樣品通過帶孔徑0.250 mm(60 目)分篩網的粉碎機粉碎研磨,混勻后裝入密封袋。采用行業標準或文獻方法測定樣品的總植物堿[13]、還原糖和總糖[14]、總氮[15]、鉀[16]和氯[17]6種常規化學指標、12種有機酸[18]、21種氨基酸[19]、17種Amadori化合物[20]、6種多酚類化合物[21]、二氯甲烷提取物[22]、淀粉[23]、鎂離子和鈣離子[24]、硫酸根和磷酸根[25]、茄尼醇[26]以及pH[27]等共70種化學指標。

1.2.2 光譜采集與預處理

主機和子機的光譜采集參數:儀器的掃描范圍為4 000~10 000 cm-1,掃描次數為64次,光譜分辨率為8 cm-1。

光譜預處理方法:采用一階求導和Savitzky-Golay卷積平滑處理,平滑窗口為17,平滑階數為2。

1.2.3 Q型因子光譜轉移法(QFST)

因子分析法是將眾多的原始變量歸結為少數幾個因子變量的一種多變量統計分析方法[28]。該方法通過將原始變量中相關性較高的變量歸為同一類別,其中,每個類別代表一個基本結構,即公共因子。通過使用適量的公共因子的線性函數與特殊因子的組合描述原始的每個分量。

因子分析模型有R 型和Q 型之分,R 型、Q 型分析的對象不同。R型因子分析是研究指標之間的相互關系,實現對樣品的分類;而Q型因子分析主要是分析樣品間的相似程度,并實現對變量的分類[29]。由于煙葉樣品間的相似性很強,故可采用Q 型因子分析方法提煉具有代表性的公共因子。

Q型因子光譜轉移法(QFST)就是通過采用Q型因子分析分別得到煙葉樣品在主機和子機上的公共因子,并重組其相應的光譜矩陣,從而得到主機和子機之間的光譜轉換關系矩陣,實現主機和子機間的光譜轉移。具體計算過程如下:

求主機和子機的因子載荷矩陣和因子得分矩陣。采用主因子法,即主成分法對主機光譜Xmori和子機光譜Xsori進行估計,得到因子載荷矩陣和因子得分:

式中,Xmori—主機光譜;Xsori—子機光譜;光譜矩陣Xmori和Xsori的每行表示同一組標準樣品在主機和子機上測量的相應光譜;Amori—主機因子載荷矩陣;Asori—子機因子載荷矩陣;Fmori—主機因子得分矩陣;Fsori—子機因子得分矩陣;Em—主機特殊因子矩陣;Es—子機特殊因子矩陣;上標“T”表示轉置。

重組主機和從機的光譜矩陣。采用最大方差正交旋轉法,將變量進行分類,即因子載荷的絕對值向0和1兩極分化,再通過矩陣計算得到具有代表性的公共因子,進一步選擇主因子數重組得到新的主機光譜矩陣Xm和子機光譜矩陣Xs:

式中,Xm—主機的重組光譜,Xs—子機的重組光譜;Am—旋轉后的主機因子載荷矩陣;As—旋轉后的子機因子載荷矩陣;Fm—旋轉后的主機因子得分矩陣;Fs—旋轉后的子機因子得分矩陣。

求主機和子機間的光譜轉移矩陣。由公式(4)通過矩陣變換得到:

將公式(5)帶入公式(6)中,主機光譜矩陣Xm可以表示為

根據公式(7)得到轉換關系矩陣P:

由此,利用轉換關系矩陣P 可以得到子機在主機上的轉換光譜Xtrans:

通過轉換光譜Xtrans就可以預測在子機上測量的光譜轉移到主機上的相應光譜。由此在主機上建立的校正模型就可以用QFST 法通過模型轉移應用到子機上。

1.2.4 光譜轉移及化學成分預測

以主機M 掃描的標準樣品光譜為主機光譜,子機S1 和子機S2 掃描的標準樣品光譜為其相應的子機光譜,采用QFST、SST和PDS 3種模型轉移方法將子機光譜校正后,使用主機模型進行各個化學指標的分析預測,待得到各模型轉移方法相應的指標預測結果后再統計分析。

在中國,安道麥推出了多款標桿性殺菌劑產品,包括獲得中國植保產品貢獻獎的“喜思安?”“樂譜道?”“道立鋒?”等一批優秀殺菌劑,其中,明星產品“喜思安?”將于2019年全新升級,給果農更強的防病美果體驗。2017年,“安普博?”作為一款同類進口配方產品,以其更強的防病增產表現,迅速獲得了不少水稻大戶的青睞?!鞍畛?”的推出補強了真菌、細菌混發性病害解決方案。2018年,淮安全球制劑中心為中國供應的第一個產品“靚快?”也表現不俗,先進的配方和工藝使得產品品質在同類中脫穎而出。第一個在國內登記的進口氟啶胺·烯酰嗎啉“寶福特?”將會在2019年上市,針對低等真菌病害市場,壯大蔬菜產品線。

光譜相似度:計算同一樣品測得的兩個光譜之間的皮爾遜相關系數,取皮爾遜相關系數的平方得到決定系數(Rs2),最后取所有樣品的決定系數的平均值評價兩個光譜矩陣的相似度。

其中,在應用PDS時需要調整窗口的大小,本數據集中當窗口大小為7時,Rs2最大。

1.2.5 傳遞結果評價

選擇煙草行業近紅外分析系統的醇化片煙近紅外分析模型作為評估模型[30],用于本研究中模型轉移效果評價。對不同轉移方法得到的子機光譜的預測結果進行統計分析,采用化學指標的校正標準誤差(SEC)和模型決定系數(R2)作為評價指標[31],分別對模型轉移效果進行分析比較。用SEC評估預測值與檢測值之間差異的標準偏差,代表模型的整個殘余誤差。此處的R2是預測值與檢測值皮爾遜相關系數的平方,用來評價驗證集預測值與檢測值之間的相似程度數。

1.2.6 數據處理方法

所有數據分析過程通過MATLAB R2022b(美國MathWorks公司)實現。

2 結果與分析

2.1 儀器間定性誤差分析

將儀器主機M1和子機S1、子機S2上采集的199個光譜進行平均,得到的平均光譜見圖1??芍?,相同的煙葉樣本在3臺儀器上測量所得的光譜形狀非常相似,但有一定的背景差異,子機光譜與主機光譜相比,其整體吸光度產生了不同程度的偏移。其中,子機S2 光譜相對于主機M1 光譜的偏移較大,子機S1 光譜的偏移較小。為了進一步說明儀器間的差異,圖2中給出了主機和子機所有光譜主成分分析后的第1和第2主成分的得分圖,其中,第1主成分貢獻率為90.41%,第2主成分貢獻率為8.22%。從圖2中可以看出,子機S1 的光譜與主機M1 的光譜存在一定的重疊,而子機S2與主機M1的光譜在第1主成分的得分上存在明顯差異,偏移較大。

圖2 3臺儀器光譜在第1、第2主成分的得分Fig.2 PC1 and PC2 scores of the spectra measured on three instruments

由此可知,使用不同的儀器對相同樣品進行光譜采集時,會使光譜發生不同程度的偏移。將主機的近紅外預測模型直接應用到子機上時,會引起較大的系統預測誤差。因此,需要采用合適的模型轉移方法提高模型預測的準確性。采用QFST 法對兩臺子機光譜進行轉移,得到的平均光譜和主成分得分圖如圖3 和圖4 所示。由圖3 可知,經QFST 法處理后的子機S1光譜和子機S2光譜與原始主機M1光譜能相對重合。由圖4可以看出,經QFST法處理后的子機光譜和主機光譜主成分差異非常小,其中,第1 主成分貢獻率為69.28%,第2 主成分貢獻率為27.35%。采用QFST 法可以大幅消除儀器變化所產生的影響,從而減少子機S1 和子機S2 與主機M1 之間的差異。

圖3 經QFST轉移后的NIR平均光譜圖Fig.3 NIR mean spectra after QFST transfer

圖4 經QFST轉移后3臺儀器光譜在第1、第2主成分的得分Fig.4 PC1 and PC2 scores of the spectra measured on three instruments after QFST transfer

為驗證QFST 法在其他型號近紅外光譜儀上的適用性,選取在Tango Ⅱ型近紅外光譜儀的主機M2和子機S3 上采集的245 個煙葉樣品光譜進行驗證。主機M2、子機S3 和采用QFST 法對子機S3 光譜進行轉移的平均光譜見圖5??芍?,相同的煙葉樣本在兩臺近紅外光譜儀上測量所得光譜的整體吸光度產生了偏移,經QFST 法處理后的子機S3 光譜與主機M2光譜基本重合。

圖5 主機M2和子機S3轉移前、轉移后的NIR平均光譜圖Fig.5 NIR mean spectra of the master M2 and slave S3 before and after transfer

主機M2光譜、子機S3光譜和采用QFST法對子機S3進行轉移后光譜的第1和第2主成分得分圖見圖6,其中,第1主成分貢獻率為77.06%,第2主成分貢獻率為20.53%??芍?,轉移前光譜在第1 主成分的得分上存在明顯差異,經QFST法轉移后的子機光譜和主機光譜主成分差異非常小。因此,QFST法同樣適用于其他型號的近紅外光譜儀之間的光譜轉移,可消除儀器變化所產生的影響。

圖6 主機M2和子機S3轉移前、轉移后的光譜在第1、第2主成分的得分Fig.6 PC1 and PC2 scores of spectra of the master M2 and slave S3 before and after transfer

2.2 主成分數對校正模型轉移方法的影響

QFST是基于主成分分析的模型轉移方法,即主因子法,因此,所述QFST 的主因子數也就是主成分數。因QFST 需要采用具有代表性的主因子重構光譜矩陣,所以需選擇大于或等于3的主因子數才能重構出數據集,并優化主成分數對模型轉移的影響。

選定主因子數從3到50后,采用QFST法將子機S1 光譜和子機S2 光譜轉移到主機M1,分別計算相應的決定系數,結果見圖7a 和7b??梢钥闯?,主成分數越大,采用QFST 法進行模型轉移的效果越好。當主成分數≥4 時,Rs2≥0.999 6,說明子機光譜經模型轉移后與主機光譜一致性好。

圖7 主成分數對模型轉移方法的影響Fig.7 Effects of the number of principal components on model transfer method

QFST法的目標是盡可能包含原數據的信息量,沒有要求減少因子的數量。因此,對于QFST 來說,可以選擇大于5的主成分數,在實際應用時可根據需求選擇更大的主成分數。

2.3 標準化樣本數對QFST的影響

優化模型轉移方法與標準化樣本的數量密切相關。增加標準化樣本的數量會提高模型轉移的效果,但是模型轉移成本也隨著增加。因此,在實際應用中通過優化選擇較少的標準化樣本數量獲得可靠的結果。由于主因子數表示代表性樣品的數量,因此,標準化樣本數需要大于或等于主因子數。

主因子數(f)選定5、10、15 和20 后,在199 個樣本中選取所需標準化樣本,剩余樣本作為驗證集樣本。采用QFST 法將子機S1 光譜和子機S2 光譜轉移到主機M1,分別計算相應的決定系數,結果見圖8??梢钥闯?,隨著標準化樣品數量的增加,光譜平均相似度逐漸增加,當標準化樣品數量為主因子數的2.5 倍時,光譜平均相似度增加幅度基本平穩,但是當標準化樣品數量增加到一定閾值時,再增加標準化樣本數量對模型轉移效果的影響變小。因此,選擇標準化樣本數量為選取的主因子數的2.5 倍或以上,在實際應用中可根據自己所能承擔的成本確定合適的標準化樣本數。

圖8 標準化樣本數對QFST結果的影響Fig.8 Effects of the number of standardization samples on QFST results

2.4 模型轉移預測結果評價

在199個樣本中選取100個標準化樣本,剩余99個樣本作為驗證集樣本。應用建立的QFST 法對子機S1和子機S2的驗證集樣本進行光譜轉移,采用主機模型預測70項化學指標,采用預測效果最佳的主因子數,其中,S1的主因子數選取22個,S2的主因子數選取28 個。將SEC 和R2作為模型預測結果的評價指標,兩個子機光譜在不同模型轉移方法下化學指標的R2統計詳見表1和表2。

表1 子機S1光譜在不同模型轉移方法下化學指標的R2統計Tab.1 The R2 statistics of chemical indices of the slave S1 spectra by different model transfer methods (個)

表2 子機S2光譜在不同模型轉移方法下化學指標的R2統計Tab.2 The R2 statistics of chemical indices of the slave S2 spectra by different model transfer methods (個)

從表1和表2可以看出,子機S1和S2應用QFST法進行模型轉移后的預測結果整體優于直接應用主機模型對子機光譜進行預測的結果,QFST法和SST法的整體預測效果優于PDS 法,其中,QFST 法預測結果R2≥0.9的化學指標最多。對于總植物堿、還原糖、總糖、總氮和氯等常規化學成分,3種模型轉移方法的預測結果R2均大于或等于0.9。與直接預測相比采用QFST法轉移后預測,亞油酸、亮氨酸、酪氨酸和色氨酸等指標的R2從小于0.8提升到大于等于0.8但小于0.9 的范圍;總植物堿、鉀、氯、淀粉和二氯甲烷提取物等指標的R2從大于等于0.8但小于0.9提升到≥0.9;在R2≥0.9的指標里,淀粉、二氯甲烷提取物和鈣離子等指標采用QFST 法后的預測結果更接近測量的結果。

由于預測結果R2≥0.9 已經達到很高的預測標準,因此,以子機S2 為例,選取QFST 方法預測結果R2<0.9的55個指標,對比分析QFST法與SST法的結果,即將QFST法得到的化學指標SEC比值和R2比值與SST法進行比較,結果見圖9。SEC為化學指標的校正標準誤差,因此,SEC 值越小越好,而R2值越大越好。由圖9a可知,對于多酚類化合物的預測,采用QFST法與SST法轉移后預測效果相近;對于有機酸的預測,從整體上看,采用QFST 法轉移后預測的效果略優于SST 法;磷酸根與硫酸根的R2比值大于1,采用QFST 法略優于SST 法。由圖9b 和9c 可以看出,對于氨基酸和Amadori 化合物等煙草中質量分數較低的化學成分來說,62%的氨基酸的R2比值大于1,采用QFST 法轉移后預測的效果略優于SST法;88%的Amadori 化合物的R2比值大于1,采用QFST法轉移后預測的效果優于SST法。

圖9 部分化學指標采用QFST法和SST法的SEC和R2的比較Fig.9 Results of SEC and R2 by QFST and SST methods for some chemical components

3 結論

(1)建立了QFST 模型轉移方法,并將其應用于煙草近紅外預測的模型轉移中,可以有效解決子機與主機間的儀器差異所帶來的光譜影響。

(2)對QFST 法優化的結果表明,選取的主成分數越大,模型轉移的效果越好。在實際應用中可以選擇大于4甚至更大的主成分數,標準化樣本數則應為選取的主成分數的2.5倍或以上。

(3)將建立的QFST模型轉移法與SST和PDS模型轉移法進行比較,對于煙草70 種化學指標,QFST法和SST法的模型預測效果整體上優于PDS法。應用QFST、SST 和PDS 3 種模型轉移方法后進行預測,其中,總植物堿、還原糖、總糖、總氮和氯等常規化學成分的R2均達到0.9 以上。尤其是對于氨基酸和Amadori 化合物等煙草中質量分數較低的化學成分來說,采用QFST法進行模型轉移后預測的效果優于SST法。

猜你喜歡
校正光譜矩陣
基于三維Saab變換的高光譜圖像壓縮方法
劉光第《南旋記》校正
一類具有校正隔離率隨機SIQS模型的絕滅性與分布
機內校正
初等行變換與初等列變換并用求逆矩陣
星載近紅外高光譜CO2遙感進展
矩陣
矩陣
矩陣
苦味酸與牛血清蛋白相互作用的光譜研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合