?

基于改進輕量化網絡MobileViT的蘋果樹葉病害識別

2024-04-08 13:10馬維娣吳欽木
江蘇農業科學 2024年3期
關鍵詞:蘋果樹

馬維娣 吳欽木

摘要:針對傳統的蘋果樹葉病害識別模型準確率低,參數數量多和移動端部署困難的問題,提出了一種基于改進輕量化網絡MobileViT的的蘋果樹葉病害識別方法。該網絡模型以MobileViT作為主干網絡,高效編碼全局信息,同時引入MV2模塊編碼局部信息,將原MobileViT網絡結構中的Swish激活函數替換為SMU激活函數提高網絡性能,并在全連接層后添加Dropout層防止數據過擬合。針對常見的多病癥葉片、銹病葉片等蘋果樹葉病害進行識別。試驗結果表明,改進后的MobileViT相對于其他輕量級網絡識別準確率高,相對于重量級網絡更輕量、反應更迅速,測試集識別的準確率達到95.73%,參數數量所占顯存空間僅為5.6 MB,單張蘋果樹葉病害圖片的響應時間為4.32 ms。最終將模型部署在在移動設備,落地實現成為可能。

關鍵詞:蘋果樹;病害識別;SMU;輕量級;MV2;MobileViT

中圖分類號:S126;TP391.41? 文獻標志碼:A

文章編號:1002-1302(2024)03-0229-08

中國是全球蘋果最大產區,種植面積和產量超過世界的50%。蘋果的產量每年都會因為病蟲的危害大大降低[1]?!笆奈濉蓖七M農業農村現代化規劃的通知中提到聚焦智慧農業、農業綠色投入品等關鍵領域,加快研發與創新一批關鍵核心技術及產品。近年來,隨著大數據、深度學習的發展,蘋果種植人員利用卷積神經網絡識別病害,針對病害種類對癥下藥,提高產量和質量[2]。Zhong等基于DenseNet-121深度卷積網絡,提出利用回歸、多標簽分類和焦點損失函數3種方法來識別蘋果葉片病害,準確率達到92.29%[3];Chao等將DCNN模型結合DenseNet和Xception,使用平均池代替全連接層來提取特征,最后使用支持向量機對蘋果樹葉病害進行分類,達到了98.82%的準確率[4]。

以上研究雖然對于蘋果病害識別的準確率達到90%以上,但是隨著準確率的提高,模型的參數量和復雜度也在提高,對將模型部署到移動設備造成困難,因此提高精度的同時對模型進行壓縮,減少參數數量成為研究的趨勢。Wang等將注意力機制集成到EfficiencyNet-B4網絡中,使用深度可分離模塊進行卷積運算以減少參數數量,并引入 h-swish 激活函數實現快速識別,準確率達到98.92%[5];Li等提出了一種新的輕量級卷積神經網絡RegNet,在學習率設置為0.0001時,測試集的準確率達到99.23%[6];Yu等在深度殘差網絡ResNet18的基礎上,通過分組卷積構建多尺度特征提取層,實現壓縮模型,并通過引入通道注意力模塊(ECANet)來抑制復雜背景的噪聲,準確率達到97.80%[7];以上研究模型大小雖然在一定程度上進行了壓縮,但是單純的卷積神經網絡因為感受野有限很難捕獲全局信息且網絡性能不穩定,因此,研究一種模型更小、泛化能力更強且更益部署、網絡性能更穩定的模型成為研究趨勢。

MobileViT是2022年發表在ICLR會議中的一種網絡模型[8],該網絡模型利用輕量級卷積神經網絡CNN與Vision Transformer[9]的優勢,將兩者進行結合,是一種輕量級、通用的、響應快以及針對移動端更加友好的網絡模型。本研究以MobileViT網絡模型作為主干網絡,提出基于改進MobileViT的蘋果樹葉病害識別模型,讓深度學習技術更好地服務于智慧農業的發展。

1 數據集構建

1.1 數據集介紹

試驗采用的蘋果葉片數據來自于Plant Pathology[10]提供的數據集。樹葉的采集是在康奈爾大學數字農業研究中心的贊助支持下完成的,在樹葉不同成熟階段和一天中不同時間以及不同焦距相機設置下拍攝的葉片圖像,均可以用來反映真實的現場場景。數據集由行業專家標注,本研究針對我國蘋果樹葉較為常見的病害:多病癥(complex)、銹?。╮ust)、黑星?。╯cab)、灰斑?。╢rogeye leaf spot)、白粉?。╬owdery mildew)以及健康葉片(healthy)進行分類識別,各蘋果樹葉病害種類如圖1所示。其中健康葉片4 624張,銹病葉片 1 860 張,黑星病葉片4 824張,多病癥葉片1 602張,灰斑病葉片3 181張,白粉病葉片1 184張。

1.2 數據預處理

由于蘋果樹病害葉片的數量分布是不均勻的,為了得到具有泛化能力的模型,進行數據增強處理。常見的數據增強技術有:翻轉(水平和垂直)、旋轉、縮放、裁剪、平移、亮度變換和添加高斯噪聲等。本試驗通過垂直翻轉、水平翻轉、高斯模糊和亮度變換方法對數據集進行擴充,數據增強后的效果如圖2所示。通過數據增強技術處理,擴充后的蘋果樹葉數據集有健康葉片4 824張,銹病葉片 3 826 張,黑星病葉片5 125張,多病癥葉片3 572張,灰斑病葉片4 027張,白粉病葉片3 721張。

2 蘋果樹葉病害識別模型設計

2.1 MV2模塊

由于移動設備的運算能力和存儲能力有限,若將蘋果樹葉病害識別模型部署到移動端,需要參數量較小的模型來滿足設備的資源設置。MV2(inverted residual block)模塊[11]通過深度可分離卷積降低模型參數以減少網絡規模,其網絡結構如圖3所示。該網絡結構首先通過1×1卷積進行升維,然后通過3×3卷積進行深度卷積(DW卷積),最后通過1×1卷積進行降維(PW卷積),在最后1×1卷積降維操作后,由于輸出的是低維特征,故使用Linear線性激活函數。在卷積操作過程中,若卷積步長等于1(Stride=1)且輸入特征矩陣的維度與輸出特征矩陣的維度相同時,需要進行特征拼接。

該網絡結構相對于傳統卷積而言,假設輸入特征矩陣的高為H,寬為W,通道數為M,卷積核的大小為K,輸出特征矩陣的通道數為N,傳統卷積的計算量如式(1)所示,深度可分離卷積的計算量如式(2)所示,由式(3)可知,理論上傳統卷積的計算量是深度可分離卷積的K2倍,即3×3大小的卷積核的9倍,因此,利用深度可分離卷積代替普通卷積可大大減少參數量,從而減少模型占用內存的空間,更有利于將模型部署。

F1=K×K×M×N×H×W;(1)

F2=K×K×M×H×W+M×N×H×W;(2)

F2F1=1N+1K2。(3)

2.2 MobileViT模塊

蘋果樹葉病害識別模型在降低模型大小的同時應保證擁有較高的識別準確率。但通過MV2模塊進行卷積運算只能提取病害的局部特征,為了得到較高的識別準確率,可通過MobileViT模塊提取病害的全局信息。該模塊主要由普通卷積、Transformer[12]模塊、全局池化以及全連接層組成,如圖4所示。對于輸入的寬為W,高為H,通道數為C的特征圖表示為X[H,W,C],通過大小為3×3的卷積核進行卷積操作,提取蘋果樹葉病害圖像特征,然后通過1×1的卷積放縮通道數為d,得到 X′[H,W,d]。其中,3×3卷積編碼X的局部空間信息,1×1卷積用于升維(d>C)。然后將X′[H,W,d]展開為序列X″[P,N,d]送入L個Transformer模塊中進行并行運算提取全局空間信息,輸出Y″[P,N,d],接著將得到的特征序列折疊成原特征圖 Y′[H,W,d],其中P=H×W,N=H×W/P,每個序列patch[P,1,d]有H×W個像素位置,共有N個patch。最后通過 1×1 的卷積再次調整通道數,將Y″[H,W,d]調整為[H,W,C],并與X[H,W,C]進行拼接(shortcut),通過3×3 的卷積進行特征通道融合得到最終的特征圖Y。

MobileViT模塊中的Transformer能夠獲取更多需要關注蘋果樹葉病害的細節信息,而抑制其他無用信息。Layer Normalization操作能夠將輸入的特征信息進行標準化;接著通過多頭注意力機制(muti-head-attention)對不同的特征信息賦予不同的權重,將得到的特征信息與一開始輸入的特征信息進行相加操作實現特征融合,再次進行Layer Normalization操作,通過MLP模塊與Dropout層,將得到的特征信息與得到的融合特征信息再次進行相加操作,實現特征融合。

2.3 SMU激活函數

激活函數在卷積操作運算后將神經網絡模型中的線性變換轉換為非線性變換,使網絡模型擁有更強的學習能力。

SMU(smooth maximum unit)函數于2022年被提出[13],可以平滑逼近一般的激活函數,且最大函數在原點處不平滑,在網絡的訓練和性能上均超越Swish函數[14],優于廣泛使用的激活函數,具有較好的泛化能力和穩定的優化能力。其計算公式如式(4)、式(5)所示。因此,為了提高模型的泛化能力、穩定性以及蘋果樹葉病害識別的精度和速度,將原MobileViT模塊中的Swish激活函數替換為SMU激活函數。

fSMU(x,αx;μ)=(1-α)x+(1-α)x·erf[μ(1-α)x]2;(4)

erf(x)=2π∫x0e-t2dt。(5)

式中:α表示超參數;μ表示可訓練參數;erf(x)表示高斯誤差函數。在蘋果樹葉病害模型訓練時α的取值為0.25;μ通過調用Pytorch中的API實現前向傳播,初始值設置為1.0,通過微分自動更新參數。

2.4 MobileViT網絡改進

為了得到輕量、識別準確率高且易于部署的蘋果樹葉病害識別模型。本研究在MobileViT網絡結構的基礎上,添加MV2,網絡結構如圖5所示(↓2表示對特征圖進行下采樣)。主干網絡由5個模塊組成,每個模塊由MV2、MobileViT組成。利用MV2提取局部特征,提供位置偏執,利用MobileViT block提取全局特征,各個模塊結構參數如表1所示。將MobileViT模塊中的Swish激活函數替換為SMU激活函數;并在網絡結構的全連接層后添加Dropout層防止數據過擬合,最后通過SoftMax函數輸出蘋果樹葉病害結果的預測值。

3 試驗結果分析與應用

3.1 試驗環境及相關配置

本試驗是在實驗室服務器運行完成的,試驗時間為2022年10月至2023年3月,環境配置如表2所示。

3.2 模型參數設置

對進行數據增強后的數據按照8 ∶2 的比例劃分為訓練集和測試集。將圖片大小調整為256像素×256像素,劃分好的數據集送入蘋果樹葉病害識別模型進行訓練,訓練迭代次數的大小設置為30,batch_size的大小設置為32,學習率通過使用余弦退火算法進行動態衰減,即通過余弦函數降低學習率,優化器設置為Adam,損失函數設置為交叉熵損失函數,改進MobileViT網絡結構中的Dropout設置為0.3。

3.3 評價指標

為評價蘋果樹葉病害識別模型的可行性,采用準確率(Accuracy)、參數數量、單張蘋果樹葉病害圖片響應時間作為模型的評價指標。準確率的計算公式如式(6)所示。其中 TP代表正確分類為正樣本的數量,TN代表正確分類為負樣本的數量,FN代表錯誤分類為負樣本的數量,FP代表錯誤分類為正樣本的數量。

Accuracy=TP+TNTP+FP+TN+FN。(6)

3.4 結果分析與對比

3.4.1 改進后的MobileViT模型與原模型試驗效果對比 為了驗證改進后的網絡模型是否得到了有效提升,與原MobileViT網絡模型進行試驗對比。在其他試驗模型參數設置保持一致的情況下,得到的驗證集與測試集的準確率與損失函數圖像如圖6所示。從準確率變化曲線得知,訓練集上2種模型的識別準確率都在99%以上;測試集上改進后的網絡模型識別的準確率高于原模型,改進后的網絡模型在第5代完全收斂,原網絡模型在第10代完全收斂。從損失函數變化曲線來看,訓練集與測試集上改進后的網絡模型的損失更接近0,改進后的網絡模型的變化曲線有較小波動且收斂速度較快 原網絡模型有較大波動且收斂速度較慢。因此,本研究提出的改進后的網絡模型相比原網絡模型擁有較強的魯棒性、穩定性、識別準確率和泛化能力。

3.4.2 改進MobileViT模型與其他網絡模型效果對比 為了驗證改進后的MobileViT網絡模型的有效性,本研究選擇輕量級CNN模型、重量級CNN模型以及Transformer模型進行試驗對比,其中輕量級CNN模型包括MobileNet[15]、MobileNet v2、ShuffleNet[16]、ShuffleNet v2[17],重量級CNN模型包括VGG16[18]、ResNet-18[19]、DenseNet-121[20],Transformer模型包括ViT、ConViT[21]。各模型的評價指標如表3所示,DenseNet-121模型在測試集的識別準確率達到最高,高出改進后的MobileViT網絡模型1.02百分點,但同時參數量達到最高,是改進后的MobileViT網絡模型參數量的3倍,對于內存空間較小的移動端并不適用;輕量級網絡模型ShuffleNet、ShuffleNet v2的參數量最小,但對圖片的識別率僅僅在92%左右,低于改進后的MobileViT網絡模型3百分點左右;MobileNet v2模型單張圖片識別最快,但是識別準確率較低。綜合考慮,改進后MobileViT模型在保證模型較小的同時擁有較高的準確率,能夠滿足移動端的內存大小和算力要求。

為了進一步得到改進后的MobileViT網絡模型與其他模型對6種蘋果樹葉識別的情況,11種網絡模型在測試集上對6種蘋果樹葉分類準確率的混淆矩陣如圖7所示。按照8 ∶2的比例劃分訓練集與測試集,測試集中6種蘋果樹葉的數量分別為健康965張,多病癥715張,黑星病1 025張,銹病765張,灰斑病805張,白粉病744張。對于健康葉片與多病癥葉片而言,2種葉片的特征較為明顯,但ShuffleNetV2網絡模型的識別準確度最低,正確識別健康葉片僅為832張,其他網絡模型正確識別均接近900張;由于灰斑病和銹病的病斑特征具有某些相似性,11種網絡模型將小部分灰斑病錯誤分類為銹病,對灰斑病與銹病正確識別的結果較低,但改進后的MobileViT網絡模型相對于其他輕量級網絡模型而言,對灰斑病與銹病正確識別的結果較高,有效地驗證了改進后的MobileViT網絡模型能夠高效地編碼葉片的局部和全局信息,對蘋果樹葉病害圖片進行有效識別。

3.4.3 消融試驗 為了證明蘋果樹葉病害識別模型的改進對性能的提高,分別對不同的改進進行消融試驗,共分為4組。以MobileViT作為主干網絡,試驗數據集和其他試驗參數均保持不變,結果如表4所示,其中“√”表示添加,“×”表示未添加。由表4可以得知,在原網絡結構的基礎上添加MV2模塊雖然導致參數量和識別時間有所提高,但是蘋果樹葉病害識別的準確率提升了0.52百分點;在全連接層添加Dropout層有效地提升了單張圖片的識別速度,將Swish激活函數替換為SMU激活函數在一定程度提高了識別的準確率和單張圖片的識別速度;同時添加MV2、Dropout以及替換為SMU激活函數使網絡性能有了較大提升,使網絡具有較強的泛化能力。

3.5 蘋果樹病害識別移動端設計及應用

將訓練好的改進MobileViT模型通過Pytorch Mobile加速推理框架完成模型文件格式的轉換、模型的量化剪枝處理以及模型的加載;通過Android Studio開發工具、JDK和SDK完成UI界面設計和模型的調用與調試工作并運行生成 .APK 文件。軟件調試使用的手機機型為小米9,其蘋果樹葉病害識別頁面如圖8所示,通過點擊上傳圖片按鈕或者通過掃一掃調用攝像頭完成蘋果樹葉圖片的識別,并將蘋果樹葉圖片的識別結果顯示在圖片下方。

4 結束語

為了滿足移動端的內存空間大小和算力要求,并同時提高識別準確率和縮小識別時間,本研究基于蘋果樹葉病蟲害的特點,提出了一種基于改進輕量化網絡MobileViT的網絡模型。 該模型通過引入MV2模塊、SMU激活函數,Dropout層對MobileViT進行了改進,通過消融試驗驗證了不同改進的必要性,在同一個數據集上與原網絡模型、其他網絡模型進行對比試驗,結果表明,改進后的MobileViT網絡模型在與重量級網絡模型識別準確率相差僅為

1.02百分點的情況下由于其網絡模型的輕量性更易于部署在移動端,其泛化能力和穩定性均優于其他網絡,最終將模型部署在移動端驗證了改進后MobileViT網絡模型的有效性和可行性,接下來的研究將針對更多復雜場景的數據進行識別以及應用到具體場景。

參考文獻:

[1]霍學喜,劉天軍,劉軍弟,等.? 2020年度中國蘋果產業發展報告(精簡版)[J]. 中國果菜,2022,42(2):1-6.

[2]郭文娟,馮 全,李相周. 基于農作物病害檢測與識別的卷積神經網絡模型研究進展 [J]. 中國農機化學報,2022,43(10):157-166.

[3]Zhong Y,Zhao M. Research on deep learning in apple leaf disease recognition [J]. Computers and Electronics in Agriculture,2020,168:105146.

[4]Chao X F,Sun G Y,Zhao H K,et al. Identification of apple tree leaf diseases based on deep learning models [J]. Symmetry,2020,12(7):1065.

[5]Wang P,Niu T,Mao Y R,et al. Identification of apple leaf diseases by improved deep convolutional neural networks with an attention mechanism [J]. Frontiers in Plant Science,2021,12:723294.

[6]Li L L,Zhang S J,Wang B. Apple leaf disease identification with a small and imbalanced dataset based on lightweight convolutional networks [J]. Sensors,2021,22(1):173.

[7]Yu H L,Cheng X H,Li Z Q,et al. Disease recognition of apple leaf using lightweight multi-scale network with ECANet [J]. Computer Modeling in Engineering & Sciences,2022,132(3):711-738.

[8]Mehta S,Rastegari M. Mobilevit:light-weight,general-purpose,and mobile-friendly vision transformer [EB/OL]. (2021-10-05) [2023-03-23]. https://arxiv. org/abs/2110.02178.

[9]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An image is worth 16x16 words:transformers for image recognition at scale [C]//Proceedings of the international conference on learning representations. Virtual Event:PMLR,2021:10096-10106.

[10]Thapa R,Zhang K,Snavely N,et al. The plant pathology challenge 2020 data set to classify foliar disease of apples [J]. Applications in Plant Sciences,2020,8(9):e11390.

[11]Sandler M,Howard A,Zhu M L,et al. MobileNetV2:inverted residuals and linear bottlenecks [C]//Proceedings of the IEEE conference on computer vision and patternrecognition. Salt Lake City,USA:IEEE,2018:4510-4520.

[12]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]//Proceeding of the 31st international conference on neural information processing systems. Long Beach,California,USA. New York:ACM,2017,30:5998-6008.

[13]Biswas K,Kumar S,Banerjee S,et al. SMU:smooth activation function for deep networks using smoothing maximum technique [EB/OL]. (2022-10-31) [2023-03-23]. https://arxiv. org/abs/2111.04682.

[14]Ramachandran P,Zoph B,Le Q V,et al. Swish:a self-gated activation function [EB/OL]. (2017-10-16) [2023-03-23]. https://arxiv. org/abs/1710.05941v1.

[15]Howard A G,Zhu M,Chen B,et al. Mobilenets:efficient convolutional neural networks for mobile vision applications [EB/OL]. (2017-04-17) [2023-03-23]. http://arxiv. org/abs/1704.04861.

[16]Zhang X,Zhou X,Lin M,et al. Shufflenet:an extremely efficient convolutional neural network for mobile devices [C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Salt Lake City,USA:IEEE,2018:6848-6856.

[17]Ma N N,Zhang X Y,Zheng H T,et al. ShuffleNet V2:practical guidelines for efficient CNN architecture design [C]//Computer Vision-ECCV 2018:15th european conference. New York:ACM,2018:122-138.

[18]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2014-09-04) [2023-03-23]. https://arxiv. org/abs/1409.1556.

[19]He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition [C]//Proceedings of 2016 conference on computer vision and pattern recognition(CVPR). Piscataway,NJ,USA:IEEE,2016:770-778.

[20]Huang G,Liu Z,Van Der Maaten L,et al. Densely connected convolutional networks [C]//Proceedings of 2017 conference on computer vision and pattern recognition(CVPR). Las Vegas:IEEE,2017:4700-4708.

[21]dAscoli S,Touvron H,Leavitt M L,et al. ConViT:improving vision transformers with soft convolutional inductive biases [EB/OL]. (2021-03-19) [2023-3-23]. https://arxiv. org/abs/2103.10697.

猜你喜歡
蘋果樹
光禿禿的蘋果樹
蘋果樹
入冬后 蘋果樹管理注意這四點
做一顆永遠成長的蘋果樹
蘋果樹下的守候
奔跑的蘋果樹
秋天的蘋果樹
給蘋果樹的信
蘋果樹
神奇的蘋果樹
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合