?

基于改進隨機森林算法的薏苡仁產地溯源研究

2024-01-11 07:38趙漢卿王斌陳瑤唐章奉方鑫陳增萍楊健鄧婷
輕工學報 2023年6期
關鍵詞:降維決策樹產地

趙漢卿,王斌,陳瑤,,唐章奉,方鑫,陳增萍,楊健,鄧婷

1.中南林業科技大學 理學院/應用化學研究所,湖南 長沙 410004;2.湖南工業大學 生命科學與化學學院,湖南 株洲 412007;3.湖南大學 化學化工學院/化學生物傳感與計量學國家重點實驗室,湖南 長沙 410082;4.中國中醫科學院道地藥材國家重點實驗室培育基地 國家中藥資源中心,北京 100700

0 引言

薏苡仁為一年生草本植物薏苡的干燥成熟種仁[1],含有人體所必需的8種氨基酸和多種礦物質元素,且富含不飽和脂肪酸、多糖、維生素E等物質[2-3],有較高的藥用價值,具有抗腫瘤[4-5]、消炎鎮痛[4]、清熱利濕、活血化瘀、調節血糖[6]、提高免疫力[7]等功效。薏苡仁產地范圍較廣,不同產地薏苡仁的品質有明顯區別[8],因此開發可快速判別薏苡仁產地的檢測技術具有重要意義。

目前,已有一些關于薏苡仁品質、種類和產地分類方面的研究報道。例如,X.Liu等[9]利用近紅外光譜結合模式識別方法實現了不同種類薏苡仁的快速鑒別;劉星等[10]構建了基于薏苡仁中主要營養成分(粗脂肪、蛋白質、氨基酸、礦質元素)含量的判別模型,實現了不同產地大顆粒薏苡仁和小顆粒薏苡仁的準確區分;鄭利等[11]通過薄層液相色譜法測定薏苡仁中甘油三油酸酯含量,以鑒別不同產地薏苡仁;W.W.Tang等[12]采用超高效液相色譜-四極桿飛行時間串聯質譜和高效液相色譜-蒸發光散射檢測技術檢測薏苡仁在加工和儲存過程中甘油三酯類成分含量的變化,以監控薏苡仁產品的品質。雖然上述方法可以對薏苡仁進行鑒別,但處理和檢測過程較為復雜。

熒光光譜分析技術具有分析速度快、靈敏度高、選擇性好等優點,應用于白術、天麻、葛根等產地溯源及摻假檢測方面已有一定的研究成果[13-16]。S.Matthias等[17-18]嘗試通過激發-發射矩陣(Excitation-Emission Matrix ,EEM)熒光光譜結合隨機森林算法以實現薏苡仁產地的快速準確溯源分析。與偏最小二乘[19]等多元線性判別分析方法相比,隨機森林算法對非線性數據擬合效果更好,且其預測結果的準確度高于多數基礎模型算法預測結果。然而,EEM熒光光譜數據的維數較高,在原始EEM熒光光譜數據基礎上直接使用隨機森林算法構建判別模型的計算成本較高,將數據降維方法(如主成分分析(PCA))[19-20]與隨機森林算法結合可以減少非重要特征數量,從而提高隨機森林判別模型的訓練速度,且能在一定程度上避免過擬合情況的發生。鑒于不同產地薏苡仁中所含物質的組成和含量相近,其提取液的EEM熒光光譜數據相似程度較高,直接采用PCA進行無監督模式分類難以對薏苡仁進行準確的產地溯源分析,本文擬提出一種改進的隨機森林算法,通過對EEM熒光光譜數據進行標準化和PCA降維處理,并利用網格篩選法找出最佳保留主成分數和模型超參數來獲得最優薏苡仁產地判別模型,以期為薏苡仁產地的高效準確溯源提供一種可行的技術方案。

1 材料與方法

1.1 主要材料、試劑與儀器

主要材料:薏苡仁粉末,來自安徽、福建、河北、黑龍江、吉林、遼寧、內蒙古、山東、陜西9個產地,每個產地取30個樣品,共270個樣品。

主要試劑:超純水,湖南大學實驗室;無水乙醇(分析純),國藥集團化學試劑有限公司。

主要儀器:ZWM型超純水儀,湖南中沃水務環??萍加邢薰?F-7000型熒光光譜儀,日本日立公司;KM-500DE型超聲波清洗儀,昆山美美超聲責任有限公司;Super Mini Dancer桌面型迷你離心機,生工生物工程股份有限公司。

1.2 實驗方法

1.2.1 薏苡仁樣品預處理稱取薏苡仁粉末樣品各15 mg,分別溶于1 mL體積分數為70%的乙醇溶液中,超聲處理30 min后,于5000 r/min條件下離心10 min,靜置1 h,取150 μL上清液與1.35 mL 體積分數為70%的乙醇溶液混合后,檢測其EEM熒光光譜。

1.2.2EEM熒光光譜檢測使用熒光光譜儀測試薏苡仁樣品的EEM熒光光譜數據,參數設置為:激發波長范圍 200~450 nm,發射波長范圍 250~750 nm,波長間隔 5 nm;激發和發射狹縫寬度5 nm;電壓700 V;掃描速度30 000 nm/min。

1.2.3 數據分析將270個薏苡仁樣品按6∶2∶2的比例劃分為訓練集、驗證集、測試集。使用訓練集和驗證集的EEM熒光光譜數據構建用于產地溯源的隨機森林判別模型,用該判別模型對測試集樣品的產地進行預測,流程圖見圖1。使用相同的數據集,利用通用算法(偏最小二乘法)構建判別模型,并對兩種算法所構建模型的準確度進行對比分析。每個樣品的EEM熒光光譜數據陣的大小為101×51,將其按行首尾相接展開成長度為5151的行矢量,則270個薏苡仁樣品的熒光光譜數據為270×5151的矩陣。本文所用數據分析程序均采用Python語言進行編寫。

圖1 改進的隨機森林算法流程圖Fig.1 Flow chart of the modified random forest algorithm

2 結果與討論

2.1 不同產地薏苡仁的EEM熒光光譜分析

圖2為不同產地薏苡仁樣品去除背景后的EEM熒光光譜圖。由圖2可知,薏苡仁樣品的主要熒光信號均出現在激發波長為290~350 nm、發射波長為270~330 nm的區域內,但在熒光信號強度、最大熒光信號對應的激發波長和發射波長及光譜形狀上均存在明顯差異,這為利用EEM熒光光譜進行薏苡仁樣品的產地溯源提供了數據基礎。

圖2 不同產地薏苡仁樣品去除背景后的EEM熒光光譜圖Fig.2 Background-subtracted EEM fluorescence data of extracts of Coix seeds produced in different areas

2.2 基于EEM熒光光譜數據的薏苡仁產地鑒別分析

2.2.1 基于PCA降維的無監督模式分類圖3為保留的PCA主成分數與累計方差貢獻率之間的關系曲線。由圖3可知,在保留PCA主成分數(PCs)少于12個時,累計方差貢獻率隨著保留PCs的增加而急劇升高;當保留PCs為12個左右時,累計方差貢獻率提升速率趨于平緩;當保留PCs達到71個時,累計方差貢獻率高于85%。

圖3 保留的PCA主成分數與累計方差貢獻率之間關系曲線Fig.3 Relationship curve between retained PCA principal component scores and cumulative variance contribution rate

為了更直觀地顯示不同產地薏苡仁樣品之間的差異,取前兩個PCs作不同產地樣本兩兩之間的散點圖(見圖4)。由圖4可知,PC1的方差貢獻率為35.9%,PC2的方差貢獻率為16.5%;安徽薏苡仁樣品與河北、黑龍江、吉林、遼寧的薏苡仁樣品之間,福建薏苡仁樣品與河北、黑龍江、吉林、遼寧的薏苡仁樣品之間,黑龍江薏苡仁樣品與內蒙古、陜西的薏苡仁樣品之間均有明確的分類邊界,吉林薏苡仁樣品與陜西薏苡仁樣品之間,遼寧薏苡仁樣品與陜西薏苡仁樣品之間也有明確的分類邊界,可以進行準確區分。但是部分產地(如安徽與內蒙古、吉林與遼寧、河北與黑龍江)薏苡仁樣品之間重疊嚴重,難以區分。因此,基于PCA降維技術的無監督模式分類難以對薏苡仁進行準確產地溯源分析。

圖4 取前兩個PCs時不同產地樣本之間的散點圖Fig.4 Scatter plots of the first two principal components among samples of different origins

2.2.2 隨機森林模型的構建和應用將270個薏苡仁樣品通過分層抽樣,以6∶2∶2的比例拆分為訓練集、驗證集和測試集,使用標準差標準化對相應EEM熒光光譜數據矩陣進行標準化處理后,進行PCA降維處理,將降維后的數據輸入隨機森林算法程序構建隨機森林判別模型。通過網格篩選法優化PCA降維過程中保留PCs、決策樹數量、決策樹深度和葉節點最小樣本數來獲得最優隨機森林判別模型。隨機森林算法超參數的搜索范圍為:決策樹數量100~500棵(步長50);決策樹最大深度1~6(步長1);葉節點最小樣本數1~6(步長1)。

為使預測準確度與計算成本相對最優,PCA降維過程中所保留PCs的范圍應控制在保留PCs與累計方差貢獻率曲線的斜率突變點附近,故保留PCs的取值范圍設定為5~25。在此PCs范圍內構建隨機森林判別模型,并確定在保留不同PCs時所對應的最佳決策樹數量、決策樹最大深度和葉節點最小樣本數(見圖5)及相應驗證集和測試集的準確度(見圖6)。

圖5 保留不同PCs時所構建的隨機森林模型的最優超參數Fig.5 The optimal hyperparameters of the random forest model constructed by retaining different PCs

圖6 保留不同PCs時所構建的隨機森林判別模型對驗證集和測試集的預測準確度Fig.6 The accuracy of prediction for the validation and test sets obtained by the random forest model constructed by retaining different PCs

確定最優PCs值的基本原則為:1)所構建的隨機森林判別模型具有最佳的預測準確度;2)在保證預測準確度的前提下,隨機森林判別模型的計算成本應最小,即決策樹數量、決策樹最大深度和葉節點最小樣本數值越小越好。綜合圖4和圖5,當保留PCs為16時,所構建的隨機森林判別模型最優,對驗證集和測試集的預測準確度均為100%,而此時決策樹數量為100棵,決策樹最大深度為3,葉子節點最小樣本數為1個,均為最小值。表1為采用上述最優參數值構建的隨機森林判別模型對不同產地驗證集和測試集樣品的混淆矩陣。由表1可知,隨機森林判別模型對驗證集和測試集中的108個樣品均實現了正確的產地溯源,表明該模型結合EEM熒光光譜對薏苡仁樣品的產地溯源具有較強的可行性。

表1 最優隨機森林判別模型對不同產地驗證集和測試集樣品的混淆矩陣Table 1 Confusion matrix of the optimal random forest discriminant model for the validation and test samples of different origins

2.2.3 改進隨機森林算法中各模塊的必要性考查與常用隨機森林算法相比,本文采用的改進隨機森林算法加入了標準差標準化和PCA降維兩個模塊。為考查這兩個模塊的必要性,將按以下4種策略構建的隨機森林判別模型的預測能力、最優超參數和計算時間進行比較研究,結果見圖7。

圖7 基于4種策略構建的隨機森林判別模型的預測能力、最優超參數和計算時間Fig.7 The predictive ability, optimal hyperparameters and computation time of the random forest classification model constructed based on four different strategies

策略1(未加入標準差標準化和PCA降維模塊):基于該策略構建的隨機森林判別模型的最佳模型參數為決策樹數量200棵、決策樹最大深度3、葉子節點最小樣本數1個。模型構建所需計算時間為199.93 s。該模型對驗證集和測試集樣本的預測準確度分別為100%和94.4%。測試集中有2個內蒙古薏苡仁樣品被誤判為山東樣品,1個山東薏苡仁樣品被誤判為黑龍江樣品。

策略2(僅加入標準差標準化模塊):基于該策略構建的隨機森林判別模型的最佳模型參數為決策樹數量200棵、決策樹最大深度3、葉子節點最小樣本數1個。模型構建所需計算時間為174.74 s。該模型對驗證集和測試集樣本的預測準確度分別為100%和94.4%。測試集中有2個陜西薏苡仁樣品被誤判為山東樣品,1個山東薏苡仁樣品被誤判為黑龍江樣品。

策略3(僅加入PCA降維模塊):基于該策略構建的隨機森林判別模型的最佳模型參數為決策樹數量300棵、決策樹最大深度6、葉節點最小樣本數1個。模型構建所需計算時間為84.59 s。該模型對驗證集和測試集樣本的預測準確度分別為94.4%和100%。驗證集中有2個河北薏苡仁樣品被誤判為遼寧樣品,1個安徽薏苡仁樣品被誤判為陜西樣品。

策略4(加入標準差標準化和PCA降維模塊):基于該策略構建的隨機森林判別模型的最佳模型參數為決策樹數量100棵、決策樹最大深度3、葉節點最小樣本數1個。模型構建所需計算時間為81.23 s。該模型對驗證集和測試集樣本的預測準確度均為100%。

綜上可知,基于策略4所構建的最優隨機森林判別模型的決策樹數量為100棵,明顯小于其他3種策略所構建模型的數量,且其所需計算時間最短,預測準確度最高。因此,本研究采用的標準差標準化和PCA降維這兩個模塊均對隨機森林判別模型的性能起到了正面作用。

2.2.4 改進隨機森林算法與偏最小二乘法構建模型準確度對比使用相同的訓練集、驗證集和測試集,利用偏最小二乘法構建和測試PLS-DA模型,PLS-DA模型潛變量數(13)由十折交叉驗證法確定,其驗證集和測試集準確度均為96%。表2為利用偏最小二乘法構建的PLS-DA模型對不同產地驗證集和測試集樣本的混淆矩陣。由表2可知,在驗證集中,有1個河北薏苡仁樣品被誤判為吉林樣品,1個山東薏苡仁樣品被誤判為內蒙古樣品;在測試集中,有1個河北薏苡仁樣品被誤判為吉林樣品,1個內蒙古薏苡仁樣品被誤判為河北樣品。由此可知,利用偏最小二乘法構建的PLS-DA模型雖然可以對不同產地薏苡仁實現有效識別,但其準確度低于改進隨機森林算法構建的模型。

表2 利用偏最小二乘法構建的PLS-DA模型對不同產地驗證集和測試集樣本的混淆矩陣Table 2 Confusion matrix of the PLS-DA model constructed using the partial least squares method for the validation and test samples of different origins

3 結論

本文設計了一種基于EEM熒光光譜與改進的隨機森林算法的薏苡仁產地鑒別方法。該方法首先采用標準差標準化對EEM熒光光譜數據進行標準化處理,然后進行PCA降維處理,由篩選出的主成分構成隨機森林算法的特征集,最終通過網格篩選法優化PCA降維過程中保留PCs、決策樹數量、決策樹最大深度和葉節點最小樣本數來獲得最優隨機森林判別模型。結果表明:改進的隨機森林判別模型(加入標準差標準化和PCA降維模塊)最佳參數為決策樹數量100棵,決策樹最大深度3,葉節點最小樣本數1個;該模型構建所需計算時間僅為81.23 s,對驗證集和測試集的預測準確度均為100%,優于偏最小二乘法構建的PLS-DA模型(96%),可以實現對不同產地薏苡仁樣品進行準確的溯源分析。本研究為規范薏苡仁產地來源及從源頭控制薏苡仁品質提供了一種操作簡單、準確度高的技術方案。

猜你喜歡
降維決策樹產地
混動成為降維打擊的實力 東風風神皓極
降維打擊
一種針對不均衡數據集的SVM決策樹算法
警惕“洗產地”暗礁
食物離產地越遠越好
決策樹和隨機森林方法在管理決策中的應用
測定不同產地寬筋藤中5種重金屬
基于決策樹的出租車乘客出行目的識別
加強產地檢疫實現以檢促防
基于肺癌CT的決策樹模型在肺癌診斷中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合