?

混合卷積神經網絡用于高光譜小麥品種鑒別

2024-03-07 01:51李國厚李澤旭金松林趙文義潘細朋張衛東
光譜學與光譜分析 2024年3期
關鍵詞:注意力光譜卷積

李國厚, 李澤旭, 金松林, 趙文義, 潘細朋, 梁 政, 秦 莉, 張衛東*

1. 河南科技學院信息工程學院, 河南 新鄉 453003

2. 北京郵電大學人工智能學院, 北京 100876

3. 桂林電子科技大學計算機與信息安全學院, 廣西 桂林 541004

4. 安徽大學互聯網學院, 安徽 合肥 230039

5. 寧波大學信息科學與工程學院, 浙江 寧波 315211

引 言

與可見光圖像相比, 高光譜成像技術不僅能夠較好地反映種子的形狀和大小, 還能夠反映樣本內部的化學成分差異。 同時, 機器學習和深度學習在計算機視覺領域廣泛應用于識別、 分隔、 檢測等[1]。 因此可利用該技術輔助機器學習或深度學習進行種子的快速、 高效及無損鑒別[2-4]。 高光譜成像技術能夠捕獲小麥種子的光譜和空間信息, 深度學習能夠充分挖掘和利用高光譜圖像內部的像元依賴關系, 進而實現種子的鑒別。

傳統的高光譜圖像鑒別方法主要以提取數據的光譜特征為主, 但受天氣、 光強、 噪聲等因素干擾, 所捕獲的光譜信息和高光譜圖像之間存在非線性, 限制了傳統方法的鑒別能力。 Wei等[5]將隨機子空間線性判別和高光譜技術應用于大豆品種的無損鑒別, 但其鑒別性能不穩定。 朱啟兵等[6]利用支持向量數據描述方法構建高光譜玉米鑒別模型, 分類精度達到92.28%, 并解決了傳統分類器對新類別樣本的錯分問題。 Mahesh等[7]將線性判別分析和二次判別方法結合起來對小麥種子高光譜圖像進行鑒別, 但小樣本嚴重制約該模型的鑒別能力。 總的來說, 不足的樣本和有限的特征限制了傳統鑒別方法的性能。

基于機器學習的高光譜圖像分類方法依據光譜特性手動或半自動地提取特征。 例如, Fabiyi等[8]提出一種基于隨機森林方法的水稻種子分類器, 將RGB和高光譜水稻圖像相結合, 取得良好的分類效果。 Miao等[9]將流形學習算法中的t分布隨機鄰域嵌入機制引入到高光譜圖像分類中, 對8個品種糯玉米種子的分類精度達到97.5%。 Wang等[10]采用高光譜成像技術對四種大豆品種進行分類, 并建立基于全波長的支持向量機分類模型, 分類準確率為95.19%。 Sivakumar等[11]在近紅外和短波紅外區域使用高光譜成像技術采集豆類粉的光譜數據, 并使用最小二乘判別分析對其進行鑒別, 分類模型精度可達95%。 Shao等[12]采用高光譜成像技術對蜂蜜建立了純蜂蜜和摻假蜂蜜的樣本分析模型, 并使用支持向量機進行分類, 但分類性能欠佳。 張航等[13]使用支持向量機對小麥種子高光譜圖像進行分類, 但隨著小麥種子的品種增多, 分類精度不斷下降。 上述研究表明, 傳統方法和機器學習方法都過于依賴光譜信息, 而高光譜圖像存儲具有“同譜異物性”和“同物異譜性”, 想要準確鑒別變得頗為不易。

基于深度學習的方法結合高光譜技術逐漸應用到種子鑒別領域。 例如: Nie等[14]使用深度卷積神經網絡建立了雜交種子品種分類模型, 六種雜交黃秋葵種子和雜交絲瓜種子的分類精度達到95%。 Zhao等[15]使用一維和二維卷積對小麥種子的高光譜圖像進行分類, 分類精度為95.65%。 Wu等[16]提出一種帶加權損失的深度卷積神經網絡, 根據老化時間將高光譜成像的水稻種子分為三類, 為每一類分配適當的權重, 獲得的最高精度為97.69%。 Gai等[17]提出一種基于一維卷積神經網絡的光譜分析模型對具有瘀傷蘋果的高光譜圖像進行鑒別, 精度可達95.79%。 Liu等[18]提出一種基于改進ResNet18高光譜圖像的大豆品種鑒別方法, 分類精度為97.36%。 Hao等[19]對枸杞的高光譜圖像和紋理數據進行融合, 通過選取最佳波長構建不同區域的枸杞光譜鑒別模型, 使用二維卷積神經網絡的分類精度可達97.34%。 由此可見, 深度學習相較于傳統方法和機器學習, 具有非常明顯的優勢, 能夠較好地解決非線性、 小樣本和過擬合等問題。

深度學習是一種對數據進行表征學習的方法, 一般通過無監督或半監督的方式學習數據的特征, 用來取代人工獲取的特征。 卷積神經網絡具備較強的特征提取和模型表達能力, 又是最典型的深度學習模型之一, 因此本文以不同品種的小麥高光譜圖像為研究對象, 基于卷積神經網絡提出一種基于注意力機制的三維卷積和二維卷積混合卷積網絡模型(attention-based mix convolutional neural network, AMCNN)。 該網絡模型中的三維卷積可以提取空間和光譜信息, 但是會增加計算復雜度, 而二維卷積能夠提取空間信息和圖像紋理信息, 兩者的結合能夠加強空間和光譜之間的信息融合, 減少復雜度和算法運行時間。 加入注意力機制又能夠提取圖像紋理信息, 提高了鑒別的準確性。 試驗結果表明, 本文提出的方法具有良好的鑒別性能, 為小麥品種鑒別及分類提供了一種新的思路。

1 實驗部分

AMCNN的網絡框架, 由三維卷積層、 二維卷積層和全連接層組成, 如圖1所示。 (1)首先對數據進行預處理, 即感興趣區域提取、 主成分分析降維和多元散射校正, 然后將處理好的數據輸入AMCNN模型。 (2)AMCNN模型的三維卷積層中包括三個三維卷積, 每次卷積運算后添加批次規則化層(batch normalization, BN), 以減少過擬合并加速收斂。 (3)AMCNN模型的二維卷積層中包括三個二維卷積, 在每個卷積操作后引入注意力機制, 它會沿著通道維度和空間維度推斷注意力圖, 然后將注意力圖乘以輸入特征圖進行自適應特征優化。 Leaky ReLU用于三維卷積層和二維卷積層模塊的激活函數, 防止神經元在輸入為負時無效, 充分利用三維和二維卷積模塊的自動學習特征能力。 (4)AMCNN模型的全連接層使用LogSoftmax作為模型最后一層的輸出, 將原本由CrossEntropy Loss損失函數處理的Log工作提到預測概率分布中, 跳過了中間的存儲步驟, 防止中間數值的下溢出, 使得數據更加穩定。

圖1 AMCNN框架示意圖

1.1 混合卷積模塊

傳統的二維卷積模塊中, 卷積僅應用于空間維度, 覆蓋前一層的所有特征圖, 以計算二維鑒別特征圖。 但是高光譜圖像需要捕獲多個頻帶中編碼的光譜信息及空間信息。 二維卷積無法處理光譜信息。 引入的三維卷積可以從高光譜圖像中提取不同光譜間的特征關系, 三維卷積模塊首先用于人類行為識別[20], 能夠在空間和時間維度中同時捕捉特征, 但增加了計算代價。

(1)

(2)

參數詳情如式(1)。

1.2 注意力機制模塊

卷積注意力模塊(convolutional block attention model, CBAM)[21]是一種簡單高效的用于前饋神經網絡的注意力模塊, 也是一個輕量級通用模塊, 所以它可以嵌入任何卷積架構中, 而無需考慮模塊損失并進行端到端訓練。 主要網絡架構是由一個通道注意力模塊和一個空間注意力模塊組成, 如圖2所示。

圖2 CBAM模塊示意圖

通道注意力機制是在空間維度上壓縮特征圖以得到一維矢量, 然后對其進行操作, 不僅考慮平均池化(average pool), 還考慮最大池化(max pool), 發送聚合特征映射的空間信息到共享網絡, 然后壓縮輸入特征圖的空間維數, 最后將MLP輸出的特征進行基于element-wise的加和操作, 再經過sigmoid激活操作以生成通道注意力圖。 平均池化對特征圖上的各像素點都有反饋。 在進行梯度反向傳播計算時, 最大值池化僅對特征圖中響應最大的地方有梯度的反饋, 通道注意力機制的表達式見式(3)

Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

(3)

空間注意力機制是壓縮通道中的特征圖, 通道維度上分別進行平均池化和最大池化。 將生成的通道注意力圖和輸入特征圖做乘法操作, 進行最大池化操作以從通道上提取最大值; 進行平均池化操作的目的是提取通道平均值。 最大池化和平均池化均以高乘以寬的次數進行提取, 然后對提取的特征圖進行融合獲得一個2通道特征映射。 空間注意力機制的表達式見式(4)

Ms(F)=σ(f3×3([AvgPool(F); MaxPool(F)]))

(4)

式(4)中,σ為sigmoid操作, 3×3表示卷積核的大小。

1.3 損失函數

使用交叉熵損失函數CrossEntropy Loss作為損失函數, 用于評估實際輸出與期望輸出之間的接近程度。 交叉熵原本是信息論中的概念, 用來估算平均編碼的長度。 在深度學習中, 一般作為多分類問題的損失函數, 交叉熵刻畫的是兩個概率分布的距離, 交叉熵值越小, 兩個概率分布越接近。 對于給定的兩個概率分布p、q, 其表達如式(5)

(5)

式(5)中,p(xi)表示正確分布,q(xi)表示預測分布。 實際上交叉熵度量的是預測值和真實標簽值之間的信息損失, 其與KL散度的表達式見式(6)

=-H(p)+H(p,q)

(6)

顯然, 只有當q(xi)=p(xi)時,DKL(p‖q)有最小值, 這意味著預測的結果越接近越好。

2 結果與討論

2.1 實驗數據

高光譜圖像采集系統如圖3所示, 采集設備是SOC710便攜式可見/近紅外成像光譜儀, 其光譜范圍為400~1 000 nm, 光譜分辨率為4.687 5 nm, 共128個波段, 圖像像素為696×520。 原始高光譜圖像采用ENVI 5.3軟件進行數據格式轉換, 并截取感興趣區域。

圖3 高光譜圖像采集系統示意圖

實驗采用的小麥種子是從河南、 山東兩省選取出的8類優質小麥, 如表1所示。 首先, 收集圖像數據。 為了確保每個樣本上光譜數據能夠最好地展示出來, 采集了每個小麥種子的背面(小麥種子的凸面)和正面(小麥種子的凹面)數據。 從每個小麥種子品種中采集60個樣本, 每個品種樣本共采集120張圖片。 選取了8個品種的小麥種子, 共獲得960個高光譜圖像數據, 尺寸為696×520×128, 如圖4所示。

表1 小麥品種信息表

圖4 小麥種子部分光譜波段示意圖

2.2 收斂分析

計算機具體配置為AMD Ryzen 7 3700X 8-Core CPU、 16GB運行內存、 NVIDIA Geforce GTX 1650 super顯卡、 4GB顯存。 軟件環境為在64位Windows 11下的Python3.6和torch-gpu-1.10.1。

訓練模型時, 為了防止模型過擬合, 全連接層使用Dropout, 即在全連接層中的節點有20%的概率為0。 使用Adam優化器, 基于分類結果選擇了最優學習率0.01, 并使用指數衰減學習率, 以在后期獲取更加穩定的模型。 采用批量訓練的方法, 設置批量大小為36。 經過120次迭代后, 損失率趨于穩定。 如圖5所示, 模型訓練中的收斂曲線在前30次迭代中迅速下降; 經過80次迭代后, 模型的損失值穩定且趨近于0, 表現出良好的性能和穩定性。

圖5 AMCNN的收斂曲線

2.3 多分類評估

按照“訓練集∶測試集=9∶1”的原則進行隨機劃分, 選取support vector machine (SVM)[22]、 K-nearest neighbor (KNN)[23]、 stochastic gradient descent (SGD)[24]、 random forest (RF)[25]四類機器學習模型和dual convolutional neural network (DCNN)[26]、 residual networks (ResNet)[27]、 hybrid spectral net (HybridSN)[28]三類深度學習模型, 共7類作為對比模型, 評價指標使用F1-sorce、 Recall、 Precision和Accuracy的加權平均來進行驗證。 Accuracy為分類結果正確的樣本(包括正負樣本)占所有樣本的比例。 Precision表示分類出的正確的正樣本占所有分類結果為正樣本的比例。 Recall表示分類結果正確的正樣本占所有正樣本的比例。 F1-sorce由Precision和Recall共同決定。 以上指標的值越高, 模型分類效果越好。 分類結果如表2所示。

表2 AMCNN模型與其他分類模型分類結果

整體而言, AMCNN網絡在所有指標上均顯著優于其他模型, AMCNN網絡的Accuracy為97.92%, 比機器學習的Accuracy高約1.04%~3.13%, 比其他深度學習模型的Accuracy高約2.08%~3.13%, 改善了小麥高光譜分類的效果。 而且AMCNN算法表現也很突出, 整體結果可以看出, 在樣本比較少時, 由于深度學習依賴于大量數據集, 在整個測試集上表現并不突出, 而機器學習能夠在這種情況下表現出其優勢, 本文提出的AMCNN由于綜合了高光譜的空間和光譜信息, 能夠在訓練集數量較少的情況下表現出較高的分類準確率。

AMCNN網絡模型測試集樣本分類的混淆矩陣如圖6所示, 分析能夠得出, AMCNN網絡模型對8種小麥種子的品種鑒別準確率均超過了90%, 其中鄭麥101、 鄭麥366、 百農AK58、 濟麥22、 周麥28的鑒別準確率最高為100%, 原因是這5個品種的小麥種子與其他品種的小麥種子在親緣關系上無交集, 因而特征存在較大差異, 易于鑒別。 鄭麥7698和百農207的鑒別較差, 且與中育9307三者之間存在錯誤鑒別樣本, 原因是這三者不僅產地相同, 且都是由周麥16雜交獲得。

圖6 測試集中AMCNN模型的分類混淆矩陣

2.4 消融研究

為證明本方法中每個模塊的有效性, 對提出的網絡進行消融實驗, 包括無注意力模塊(-w/o AM)、 無BN層(-w/o BN)以及無三維卷積(-w/o 3DCNN)和無二維卷積(-w/o 2DCNN)。 評價指標包括F1-sorce、 Recall、 Precision和Accuracy的加權平均。 每次修改一項, 其余參數設置與原網絡保持一致, 以進行公平比較, 消融結果如表3所示。

表3 消融實驗

相較于無二維卷積的模型, 無三維卷積的模型分類準確率下降了5.21%。 這是由于光譜的“同譜異物性”和“同物異譜性”造成的。 實驗結果表明, 三維卷積的引入改進了模型, 提高了分類精度。 這是因為高光譜圖像具有很強的波段相關性, 通過在不同特征圖上的滑動卷積運算, 可以更好地提取每個圖像的特征, 有助于提高分類模型的精度。 無BN層和無注意力模塊的分類準確率相較于原網絡分別下降了2.08%和1.04%, 說明BN層和注意力模塊影響著網絡, 能有效提高分類效果。

3 結 論

提出了一種AMCNN模型, 利用高光譜成像技術對小麥種子進行無損鑒別, 結合三維卷積和二維卷積, 引入注意力機制模塊, 能夠在樣本數量較小的情況下進行分類, 且準確率能達到97.92%, 在7類對比實驗中取得了較好的結果, 證明了本文提出的網絡模型的可行性和有效性。

盡管本文提出的網絡可以提高小樣本數據的分類精度, 但在對一些多樣化種子進行分類時, 由于年份、 產地不同, 可能會導致模型泛化能力不足。 近年來, 遷移學習技術用于改善深度神經網絡模型泛化能力, 但在基于深度卷積神經網絡的高光譜種子品種鑒定領域仍然有待試驗, 需要進一步進行研究。 在未來的工作中, 我們將擴大小麥種子的種類和數量, 以驗證我們的AMCNN模型。

猜你喜歡
注意力光譜卷積
基于三維Saab變換的高光譜圖像壓縮方法
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
星載近紅外高光譜CO2遙感進展
苦味酸與牛血清蛋白相互作用的光譜研究
一種基于卷積神經網絡的性別識別方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合