?

基于類激活映射的可解釋性方法在農作物檢測識別中的發展現狀與趨勢

2023-12-16 04:08郭文娟馮全
關鍵詞:解釋性農作物可視化

郭文娟,馮全

(1.甘肅政法大學網絡空間安全學院,甘肅蘭州,730070;2.甘肅農業大學機電工程學院,甘肅蘭州,730070)

0 引言

我國是農業大國,加快農業信息化發展能夠促進農業更好更快地發展[1-2]。農業信息化指計算機應用、通信、微電子、光電、遙感以及物聯網等相關技術系統應用在農業上的過程。圖像是農業信息中的形式之一,直觀性強,是農業信息化中非常重要的載體。隨著人工智能的快速發展,圖像處理技術尤其是深度學習算法在農作物的檢測和識別中應用廣泛[3-5]。深度學習算法在圖像識別上具有更高的準確率,優于普通的圖像識別算法[6]。

但是,深度學習“端到端”的決策模式使得模型的決策過程無法被用戶所理解,是不可解釋的模型[7]。如果能從人類的角度理解并解釋模型決策過程,將會尋找到更優模型。同時,在很多應用領域中,可解釋性缺乏降低了用戶對深度學習模型的信任,妨礙了模型的實際應用。因此,深度學習模型的可解釋性研究具有十分重要的意義[8-12]。

類激活映射算法是常見的可解釋性方法,該類算法能夠高度區分類,使得卷積神經網絡更加“透明”。文章主要介紹基于類激活映射的可解釋性方法在農作物病害分類和檢測、農作物蟲害檢測識別、農作物品種分類、目標農作物檢測以及其他應用上的研究進展,分析類激活映射算法存在解釋精細度不高、梯度不穩定、缺乏評估標準和應用背景單一等問題,并展望未來可解釋性的發展方向。

1 類激活映射算法

在卷積神經網絡中,全連接層的特征令人難以理解,但是最后一層卷積單元含有最全面的語義信息,并且各個通道能夠檢測目標的不同激活區域。因此充分利用最后一層卷積單元的特征信息解釋網絡模型,采用可視化技術理解神經網絡的內部特征,實現對模型決策的解釋。常見的基于類激活映射可解釋性算法包括類激活映射算法CAM[13]、梯度加權類激活映射算法Grad-CAM[14]和Grad-CAM++算法[15]等,本文主要通過梯度加權類激活映射算法Grad-CAM 展開研究。

類激活映射算法[13](class activation mapping,CAM)采用全局平均池化(global average pooling,GAP)層替換了卷積神經網絡中的全連接層,計算最后一個卷積層內各個特征圖的平均值,然后加權求和以得到最終的輸出結果,如圖1 所示。CAM 算法在加權求和后會得到卷積神經網絡的類激活圖,接著將類激活圖通過熱力圖方式進行可視化,從而獲得輸出結果的顯著特征圖。

圖1 CAM 算法框架圖Figure 1 CAM algorithm frame diagram

梯度加權類激活映射算法[14](gradient-weighted class activation mapping,Grad-CAM)流程基本上和CAM 算法相似,為避免過度依賴于全局平均池化層,Grad-CAM 算法在反向傳播中計算通道梯度的平均值作為通道的權重,然后計算特征圖對應權重后加權求和,最終通過熱力圖可視化網絡模型的注意力,如圖2 所示。

圖2 Grad-CAM 效果圖Figure 2 Grad-CAM renderings

Grad-CAM++算法[15]和Grad-CAM 算法接近,只是采用的通道權重不同。Grad-CAM++算法增加了額外權重對梯度圖的權重進行二次加權,體現了梯度圖中各元素貢獻的差異性,改善了包含多目標的圖像可視化效果。上述三種算法的內部原理如圖3所示。

圖3 三種類激活映射算法原理圖Figure 3 Schematic diagram of three class activation mapping algorithms

其中,γC表示類C在全連接層的分數值;表示在(i,j)位置處類C熱力圖的值表示第k層類C的權重值表示第k層特征圖上的第(i,j)元素;Z為常數,表示歸一化因子表示類C在第k層的特征圖上二次加權的權重值。

2 基于類激活映射的可解釋性方法在農作物檢測識別中的應用

本文主要從5 個方面介紹類激活映射算法Grad-CAM 在農作物檢測識別中的具體應用。

2.1 農作物病害分類和檢測

農業生產中正確診斷病害是防控病害的有效措施。隨著人工智能的快速發展,圖像處理技術尤其是深度學習算法在農作物病害檢測和識別中應用廣泛[16-18]。為驗證卷積神經網絡對病害識別的有效性,采用類激活映射算法進行可視化分析。

在農作物病害分類方面,王美華等[19]提出了改進后的注意力模塊,在5 種分類網絡上添加改進的注意力后對農作物病蟲害進行識別,平均準確率為84.78%,采用Grad-CAM 對引入不同注意力模塊的模型可視化,體現新注意力模塊的優越性;王澤鈞等[20]提出了改進的輕量網絡模型,59 種農作物病害的平均識別準確率為88.08%,對模型中間層和最后卷積層的特征可視化,有助于理解提出模型的訓練過程;李大湘等[21]在蘋果病害數據集上采用所提模型識別病害,識別準確率高達98.23%,對注意力圖可視化,體現了定位細粒度特征的有效性;于明等[22]提出FCMSAN 模型識別61 種農作物病蟲害,分類準確率為87.97%,可視化不同模型,證明提取病害特征的有效性;賈璐等[23]提出新模型MANet 進行葡萄病害識別,在自建數據集和公開數據集上識別準確率的平均值為93.79%,可視化不同模型的識別效果,如圖4 所示,體現出最優性能的模型。在農作物病害檢測方面,李康順等[24]采用改進的YOLOX-Nano 檢測農作物病害,識別精度平均值達到了99.56%,可視化引入注意力前后的特征提取過程,明確了模型提取特征的效果。

圖4 不同模型識別效果的可視化Figure 4 Visualization of recognition effect of different models

綜上,不管是農作物病害分類還是病害檢測,采用Grad-CAM 算法在不影響模型分類性能的同時能夠很好地定位病害區域,在熱圖上區分顯示了不同區域對于目標病害分類和檢測的貢獻度。

2.2 農作物蟲害檢測識別

在農作物蟲害檢測識別方面,由于害蟲本身具有隱蔽性和遷移性,檢測害蟲個體存在一定的難度。目前常用的方法是通過深度學習技術對田間害蟲的圖像進行檢測分析,從而獲取相關的蟲情信息[25-26]。

Grad-CAM 算法廣泛應用于農作物蟲害檢測中。鮑文霞等[27]利用輕量殘差網絡識別13 類水稻害蟲,獲得92.5%的識別準確率,采用Grad-CAM 在不同層上輸出特征圖和可視化關鍵特征圖,如圖5 所示,體現模型較強的特征提取能力。

圖5 關鍵特征圖可視化結果Figure 5 Visualization of key feature maps

甘雨等[28]提出改進的EfficientNet 模型識別作物害蟲,識別準確率為69.45%,但是模型參數大幅減少。對改進前后模型可視化分析,發現改進后的模型更能進準定位到害蟲所在的位置。彭紅星等[29]改進ShuffleNetV2 模型識別荔枝病蟲害,準確率為84.9%,對模型分類結果可視化,突出注意力機制的優勢。田有文等[30]采用卷積神經網絡對藍莓光譜圖像進行果蠅蟲害檢測,識別準確率高達95.69%,可視化檢測結果,增強模型的可解釋性。

由此可見,Grad-CAM 算法應用提高了農作物蟲害檢測識別模型的可解釋性,在蟲害圖像上實現了區域級可視化,且該算法適用于任何基于卷積神經網絡結構的模型。

2.3 農作物品種分類

為實現自然條件下農作物品種的識別,采用深度學習算法提取農作物圖像中穩定的作物特征,獲得較高的識別準確率,Grad-CAM 算法應用于解釋模型對農作物品種的識別結果。

如蘇寶峰等[31]提出了ResNet50-SE 模型在復雜背景下對葡萄品種分類識別,準確率達88.75%,通過Grad-CAM 解釋模型在各個層所提取到的葡萄特征。孟莉莎等[32]基于CA-EfficientNetV2 模型對蘑菇圖像進行分類,獲得了96.8%的分類準確率。通過運用Grad-CAM 可視化模型最后一層特征層,證明改進模型提取特征的精確度更高,如圖6 所示。

圖6 圖像可視化結果對比圖Figure 6 Comparison of image visualization results

趙立新等[33]利用雙維度注意力機制檢測西紅柿的成熟度,檢測率為99%,單張圖片檢測時間僅為1.5 s。對不同模型進行Grad-CAM 可視化,表明新模型定位的準確度更高,能在短時間內完成高精度檢測。唐恒翱等[34]構建了統計紋理殘差學習網絡對11 種成熟期的葡萄葉片分類,分類準確率92.26%,使用Grad-CAM 確定模型關注區域。朱學巖等[35]提出了雙線性注意力EfficientNet 網絡識別4 個油橄欖品種,識別準確率為90.28%,通過Grad-CAM 可視化圖對正確識別和錯誤識別的情況分別予以解釋。

因此,基于深度學習的模型可以在多種農作物上進行品種分類和識別,Grad-CAM 算法可視化了模型的關注區域,對關鍵特征的提取增加了解釋依據。

2.4 目標農作物檢測

在果實識別、農作物器官檢測、田間計數測產等方面應用目標檢測算法進行檢測,對檢測結果運用Grad-CAM 算法進行解釋和分析。龍燕等[36]用改進YOLOv7 對疏果期的蘋果進行檢測,平均檢測精度為95.2%,利用Grad-CAM 生成目標檢測的熱圖,表明改進模型具有較強的目標特征提取能力。王昱等[37]利用改進了YOLOv7-tiny 模型去檢測甜椒畸形果,平均檢測精度為94.5%。

張宏鳴等[38]利用改進YOLO 獲取玉米幼苗的株數,檢測精度為87.22%,通過Grad-CAM 直觀了解到不同模型所關注的特征。張日紅等[39]用改進YOLOv4 分別檢測種植密集和稀疏的菠蘿苗心,檢測精度均值為95.1%,對改進前后模型可視化對比分析,解釋了改進模型識別率較高的原因。張萬枝等[40]采用改進YOLO v5s 檢測馬鈴薯種薯芽眼,平均檢測精度為95.2%,對模型輸出層可視化分析,證明改進模型檢測的有效性。

由此可見,Grad-CAM 算法的靈活性好,準確度高,使得該算法同樣適用于目標檢測模型,能有效反映出模型所關注的輸入特征。

2.5 其他應用

Grad-CAM 算法還可以應用于基于卷積神經網絡的田間雜草檢測、田間導航、稻穗分割等領域。趙輝等[41]通過改進的DenseNet 識別田間雜草,識別準確率為98.63%,采用Grad-CAM 算法可視化改進前后模型提取特征的過程,證明改進模型能夠有效加強對重要雜草特征的提取能力,如圖7 所示。

圖7 可視化熱圖Figure 7 Visualized heat map

楊森森等[42]利用改進的輕量網絡檢測田間雜草,檢測準確率為99.61%,使用Grad-CAM 可視化不同的檢測模型,可以發現改進模型在莖稈、葉片等關鍵位置具有較高的激活值。饒秀勤等[43]基于語義分割識別棉花、玉米、甘蔗等農作物的壟間導航路徑,平均交并比為0.871,通過Grad-CAM 解釋模型的識別過程和遷移學習的過程。

陳紅等[44]基于Deeplab-MV3 提取三七壟間的導航線,像素準確率為94.53%,展示不同模型的Grad-CAM 圖,證明改進模型的有效性。宋余慶等[45]采用DBSE-Net 分割大田稻穗圖像,像素準確率為94.32%,Grad-CAM 圖體現了引入注意力機制后的優越性。朱德利等[46]基于SwinT-YOLACT 在玉米果穗圖像上進行實例分割,平均精度為79.43%,對比不同模型提取特征的Grad-CAM 圖,證明改進模型的優勢所在。

綜上所述,為了體現卷積神經網絡提取特征的優勢所在,在語義分割、實例分割等網絡上引入Grad-CAM 算法實現了對模型的可解釋性分析。

3 存在的問題

通過深度學習和可解釋性方法的結合,獲得高精度檢測識別率的同時提供了模型的決策機制,拓寬了深度學習在農業領域的應用前景。Grad-CAM 算法不僅能夠適用于不同的任務和多種卷積神經網絡結構中,而且不需要修改模型結構,也不需要重新訓練模型,被廣泛應用于農作物檢測識別中。但是,Grad-CAM 算法存在以下不足:

1)Grad-CAM 算法解釋精細度不高,所提供的解釋結果為粗粒度,無法應用于解釋結果高精度的需求。

2)由于卷積神經網絡普遍存在梯度飽和現象,當梯度飽和時,偏導將趨于零,使得偏導不能準確反映出輸入各個區域對網絡決策的貢獻度。

3)Grad-CAM 算法在實際應用中表現參差不齊,缺乏統一的評估標準。

4)現有研究中采用Grad-CAM 算法主要用來證明模型的有效性,導致可解釋性方法應用背景單一。

鑒于此,未來研究需要開發應用范圍更廣的解釋算法,同時建立可解釋性算法的統一評估標準,拓寬可解釋性方法的應用背景。

4 展望

深度學習技術將會徹底改變傳統的農作物檢測和識別模式,端到端的深度學習技術具有極大的應用潛力。為了更好地將深度學習投入到實際應用中,未來研究方向主要為4 個方面。

1)構建既具有高準確率又具有可解釋性的網絡模型。增加可解釋性算法的復雜度,用來解釋算法復雜度高的模型,確保解釋結果能代表所研究模型,保證不過度簡化模型提取的基本特征。

2)融合已有不同類型的解釋算法,構建新型解釋算法。根據目前可解釋性算法特點,有導向性地將不同類型的可解釋性算法進行融合,構建成的新型解釋算法兼具不同類型可解釋性算法的優點。

3)建立可解釋性算法統一的評估標準。為實現對可解釋性算法標準化的度量,構建符合特定條件的數據集,不同的解釋算法針對相同的數據集進行比較,實現統一評估。

4)保證可解釋性算法的正確性。預測結果源于模型,與可解釋性算法無關,而解釋結果源于可解釋性算法。如果預測結果和解釋結果能夠相互印證,可以證明可解釋性算法的正確性。

猜你喜歡
解釋性農作物可視化
高溫干旱持續 農作物亟須“防護傘”
俄發現保護農作物新方法
夏季農作物如何防熱害
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
厲害了!農作物“喝”上環保酵素
論行政自由裁量的“解釋性控權”
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
英漢互譯中的認知隱喻翻譯探究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合