?

高光譜結合離散二進制粒子群算法對久保桃可溶性固形物含量的檢測

2024-03-06 02:15張立秀張淑娟孫海霞薛建新景建平崔添俞
光譜學與光譜分析 2024年3期
關鍵詞:適應度波長可溶性

張立秀, 張淑娟, 孫海霞, 薛建新, 景建平, 崔添俞

山西農業大學農業工程學院, 山西 晉中 030801

引 言

“久保桃”是水蜜桃的一種早熟品種, 果型大, 汁液多, 深受消費者喜愛[1]。 可溶性固形物(SSC)是評判鮮桃內部品質的主要指標[2]。 無損、 快速檢測鮮桃可溶性固形物含量(SSC)有利于實現水果品質分級。

高光譜成像技術具有分辨率清晰, 波段數多的特點, 被廣泛用于果蔬品質的無損檢測[3]。 近年來, 高光譜技術結合相應的化學計量學方法評價新鮮水果的品質, 尤其是與口感相關的內部品質如可溶性固形物含量(SSC)、 成熟程度、 軟硬程度、 含水量[4]等方面已經取得了重大進展。 Li[5]等利用近紅外光譜技術結合連續投影法(SPA)建立了能夠預測梨硬度和可溶性固形物含量的偏最小二乘(PLS)模型。 Fan[6]等將高光譜成像技術結合競爭性自適應重加權算法(CARS)建立能夠預測蘋果的可溶性固形物含量的模型。 Wang[7]等采用高光譜圖像技術結合群采樣裕度影響分析(GSMIA)預測了庫爾勒香梨的可溶性固形物(SSC)含量。 目前采用高光譜技術結合離散二進制粒子群算法(BPSO)及基于BPSO組合算法提取光譜的特征波長, 建立最小二乘支持向量機模型, 研究久保桃的可溶性固形物含量(SSC)含量還未見報道。

離散二進制粒子群算法(BPSO)具有精度高, 收斂快的特點, 能夠快速篩選重要光譜特征[8]。 本工作選取久保桃為研究對象, 將光譜技術與基于BPSO算法形成的不同特征變量組合方法相結合, 建立久保桃的SSC含量檢測模型。 先利用高光譜儀采集久保桃的高光譜數據, 之后采用BPSO算法、 競爭性自適應重加權算法(CARS)、 連續投影算法(SPA)、 無信息變量消除法(UVE)對久保桃的光譜數據進行特征波長篩選, 并進行建模分析, 同時依據算法之間優勢互補的特點, 提出基于BPSO的一次組合與二次組合特征波長篩選方法, 建立遺傳算法優化的支持向量機模型(GA-SVM)和最小二乘支持向量機模型(LS-SVM), 確定預測久保桃SSC含量的最優模型。 在久保桃SSC檢測方面, 此(BPSO+SPA)-SPA-LS-SVM方法尚未見報道, 為久保桃SSC含量的無損檢測提供了新的檢測方法。

1 離散二進制粒子群算法(BPSO)原理

1.1 BPSO位置更新原理

標準粒子群算法(PSO)是一種優化全局搜索能力, 解決組合優化存在問題的算法, 主要適用于處理優化連續空間內的問題。 在求解優化問題時, 搜索尋找空間中的任何一個最優的“粒子”即可找到連續空間內問題的最優解, 任一粒子都有著決定其將要飛行方向的初始位置和決定其飛行距離的初始速度以及由優化函數決定的適應值。 在每一次找尋問題最合適的答案的迭代循環過程中, 每個粒子通過追蹤單個極值和群體極值來更新自身的位置和速度[9]。 其速度和位置更新公式如式(1)和式(2)所示。

設: 粒子的目標搜尋空間為D維,N個粒子組成的種群X={x1,x2, …,xN}T, 則每個粒子可用R維向量表示:xi=(xi1,xi2, …,xiR)T。 粒子飛行速度vi=(vi1,vi2, …,viR)T該粒子當前最優解為pi=(pi1,pi2, …,piR)T, 該種群當前最優解gt=(gt1,gt2, …,giR)T。 其更新過程為

(1)

(2)

其中,i=1, 2, …,N為種群范圍;d=1, 2, …,R為粒子群算法解的找尋空間;t為進化迭代數;r1,r2為均勻分布在[0, 1]之間的隨機數;c1,c2為學習因子;w為慣性權重, 主要是描述每一個粒子上一代的速度對當前代速度的影響大小;pid為第i個粒子在D維空間搜索的最優位置點;pgd為整個種群在D維搜索到的最優位置點[10]。

(3)

其中sigmoid型函數為

(4)

1.2 BPSO特征篩選原理

將BPSO算法應用于篩選久保桃的光譜數據時, 每個粒子均對應著久保桃光譜數據的適應度值,pid和pgd是由粒子的適應度值來決定, 適應度值由適應度函數計算得到[13], 適應度函數與篩選出的光譜特征波長有相關性。 根據適應度函數將適應度值高的粒子優選出來。 每個粒子對應一種光譜的特征組合, 粒子的每一維對應一個波長, 根據式(3), 粒子的某一維取值為1時表示選擇這一維光譜, 取值為0時表示不選擇這一維光譜, 依次選出粒子對應的光譜數據特征組合, 即為篩選出的特征波長。

1.3 基于BPSO的降維組合方法

2 實驗部分

2.1 樣本

實驗樣本采自山西省晉中市太谷區西山底村桃園, 品種為“早熟大久?!?。 為保證研究結果的可靠性, 采摘時選擇大小均勻, 外形類似的久保桃, 共選取了198個久保桃樣本。 利用Kennard-Stone算法按照3∶1的比例隨機分為147個校正集和51個預測集。

2.2 儀器設備與SSC測量

采用的光譜儀是“蓋亞”高光譜分選儀(北京卓立漢光儀器有限公司), 選用光譜波長范圍為900~1 700 nm, 分辨率為5 nm。 實驗樣本曝光時間為20 ms, 樣本到鏡頭的高度為22 cm, 電控移動平臺前進的速度為2 cm·s-1, 黑白校正方式見參考文獻[15]。 采集光譜所用軟件為: SpecView圖像采集軟件, 處理數據軟件為: ENVI4.7(ITT Visual in formagtion Solutions, Boudler, 美國), Matlab2016b(The MathsWorks, Natick, 美國)、 The Unscrambler X10.1(CAMO AS, Oslo, 挪威)、 Origin8.5(Origin Lab, 美國)。 SSC含量測量采用PAL-106糖度計(杭州齊威儀器設備有限公司)。

參照GB/T10788-89《水果、 蔬菜制品中可溶性固形物含量的測定》。 對每個久保桃實驗樣本的可溶性固形物含量(SSC)進行測定。 SSC值如表1所示。

表1 久保桃SSC的實測值(%)

2.3 原始光譜曲線

使用ENVI4.7軟件提取久保桃樣本中心位置80像素×80像素的感興趣區域, 經處理分析后得到久保桃樣本的原始光譜曲線。 在原始光譜曲線的基礎上, 計算了均值, 繪制了原始光譜曲線的均值曲線圖, 并在均值曲線圖上對特征吸收峰進行了相應的標注。 如圖1所示。

圖1 樣品光譜

由圖1知, 久保桃樣本的光譜數據在1 216.56和1 467.86 nm處出現較為明顯的吸收峰, 在939.21、 987.08和1 652.04 nm處出現小的吸收峰, 其中900~1 216.56 nm波段之間的吸收峰, 與久保桃表皮及桃果實細胞中葉綠素和類胡蘿卜素的吸收有關, 1 216.56~1 700 nm之間的吸收峰, 與久保桃果實內部所含水分的多少與糖分含量有關, 分別屬于O—H三級和二級倍頻特征吸收峰[16]。

2.4 特征光譜變量的提取與組合

特征光譜變量的提取是為了提取原始全波段光譜中有用的波長信息, 以提高預測模型的精準性, 提取特征光譜變量時, 既要盡可能減少總的波長個數, 又要確保不遺漏重要光譜信息。

2.4.1 基于BPSO的特征光譜變量提取

利用BPSO算法提取特征光譜變量時, 設置循環次數T為10次, 最大迭代次數150, 慣性因子初始值c1=c2=2, 最大速度vmax為6, 最大慣性wmax為0.9, 最小慣性wmin為0.4。 BPSO挑選特征波長過程中, 最優粒子適應值的變化曲線如圖2所示。 橫坐標表示迭代次數, 縱坐標表示適應度曲線。

圖2 BPSO提取特征波長過程

光譜數據的適應度曲線變化和篩選誤差成正比, 隨著迭代次數的增加, 適應度曲線呈下降趨勢, 模型誤差也在減小, 當誤差下降到最低值時, 篩選出的特征波長變量即為最優特征波長, 最終基于離散二進制算法提取了114個特征波長。 分別為: 899、 905、 911、 918、 924、 927、 931、 940、 943、 950、 953、 959、 962、 982、 985、 988、 994、 998、 1 004、 1 010、 1 023、 1 036、 1 052、 1 055、 1 058、 1 061、 1 064、 1 071、 1 074、 1 084、 1 093、 1 103、 1 128、 1 131、 1 135、 1 141、 1 144、 1 151、 1 154、 1 163、 1 170、 1 189、 1 192、 1 208、 1 227、 1 230、 1 233、 1 243、 1 249、 1 265、 1 287、 1 297、 1 303、 1 310、 1 319、 1 322、 1 326、 1 329、 1 335、 1 348、 1 351、 1 357、 1 364、 1 367、 1 386、 1 396、 1 402、 1 412、 1 418、 1 427、 1 437、 1 446、 1 453、 1 456、 1 459、 1 475、 1 485、 1 488、 1 491、 1 500、 1 507、 1 513、 1 520、 1 526、 1 539、 1 554、 1 561、 1 570、 1 574、 1 586、 1 589、 1 593、 1 596、 1 612、 1 615、 1 618、 1 621、 1 624、 1 628、 1 631、 1 634、 1 637、 1 640、 1 643、 1 647、 1 656、 1 659、 1 662、 1 666、 1 669、 1 672、 1 681、 1 688和1 700 nm。

2.4.2 基于CARS、 SPA、 UVE的特征光譜變量提取

對久保桃樣本的原始全波段光譜數據分別采用競爭性自適應重加權算法(CARS)[17]、 連續投影算法(SPA)[18]、 無信息變量消除算法(UVE)[19]從原始光譜數據中提取特征波長, 最終采用CARS算法挑選了43個特征波長, SPA算法挑選了12個特征波長, UVE算法挑選了79個特征波長, 結果如表2所示。

表2 不同選擇方法篩選出的特征波長

由表2可知, CARS算法篩選出的波長存在著信息冗余的問題, SPA算法提取的變量數過少, UVE算法存在著間斷性連續的篩選, 導致篩選的波長不具有代表性。 因此為了彌補單一特征波長提取算法存在的不足, 后續采用基于BPSO的特征變量組合算法對久保桃的特征光譜數據作進一步篩選。

2.4.3 特征變量的組合

由前四種單一算法篩選出的特征波長可知, BPSO算法篩選出特征光譜僅為局部最佳特征波長, 且變量數目過多。 CARS、 SPA、 UVE算法存在著不穩定, 變量數過少和連續篩選的問題。 因此文章提出基于BPSO的組合算法, 建立LS-SVM模型和GA-SVM模型。 各個方法提取的有效波長變量個數如表3所示。 提取的有效波長如表4所示。

表3 不同特征提取方法提取到的特征變量數

表4 組合降維特征提取方法提取到的特征波長

2.5 建模與分析

2.5.1 GA-SVM模型

遺傳算法(GA)是一種模擬自然進化的自適應優化搜索方法, 具有高適應度, 高效率, 快速搜索的特點[20]。 引入GA優化SVM模型的超參數, 可以將GA算法的優勢應用于SVM模型中, 獲得時間短, 效率高的優化模型, 從而獲得更準確的預測。 設置遺傳算法(GA)的最大遺傳迭代數為100, 種群規模數量為20, 采用5折交叉驗證方式, 得出最優懲罰因子(Cost)記為c和核心參數(gamma)記為r。 利用GA-SVM算法建立判別模型優化參數BestC和Bestg和預測結果如表5所示。

表5 不同變量優選方法建立的GA-SVM模型參數優化及預測結果

2.5.2 LS-SVM模型

最小二乘支持向量機模型(LS-SVM)建模方法, 主要針對SVM的目標參數r和σ2進行全局尋優, 使得均方根誤差RMSEC取得最小值的原理[21]。 不同特征光譜變量優選方法建立的LS-SVM預測結果見表6。

表6 不同變量優選方法建立的糖度LS-SVM模型預測結果

2.5.3 模型對比分析

圖3 兩種模型的預測結果圖

3 結 論

基于高光譜技術結合離散二進制粒子群算法(BPSO)及基于BPSO的組合特征波長選擇方法建立模型, 以實現久保桃可溶性固形物含量(SSC)的快速, 無損檢測, 研究結果如下:

(1)與常規特征波長提取算法CARS、 SPA、 UVE比較, 基于BPSO算法建立的兩種模型預測性能均比較好, 預測集決定系數均達到了0.97以上。

猜你喜歡
適應度波長可溶性
HPLC-PDA雙波長法同時測定四季草片中沒食子酸和槲皮苷的含量
改進的自適應復制、交叉和突變遺傳算法
鮮地龍可溶性蛋白不同提取方法的比較
雙波長激光治療慢性牙周炎的療效觀察
日本研發出可完全覆蓋可見光波長的LED光源
基于空調導風板成型工藝的Kriging模型適應度研究
可溶性Jagged1對大鼠靜脈橋狹窄的抑制作用
可溶性ST2及NT-proBNP在心力衰竭中的變化和臨床意義
便攜式多用途光波波長測量儀
少數民族大學生文化適應度調查
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合