?

基于深度遷移學習的鳳凰單叢茶葉病害識別方法

2024-01-20 10:23謝森林王春武董曉慶林一帆
韓山師范學院學報 2023年6期
關鍵詞:準確率病害茶葉

謝森林,王春武,董曉慶,林一帆,王 暢

(韓山師范學院 物理與電子工程學院,廣東 潮州 521041)

潮州市是廣東省代表茶區、中國烏龍茶四大產區之一、中國工夫茶文化的重要傳承地和發祥地,也是國內特色小眾茶——鳳凰單叢茶的原產地,已建成廣東省級茶葉產業園、專業鎮、專業村100 多個,茶葉種植面積達23萬畝,年初制茶產值超過64億元,帶動就業超過50萬人.

潮州地屬亞熱帶海洋性季風氣候,具有高溫高濕氣候特點,茶樹易滋生細菌.病害可造成茶葉變色、變形、枯萎、脫落進而影響茶樹的生長發育,且部分病害具有傳播性,嚴重的可以影響整個園區,嚴重影響茶葉產量;病害也影響了茶葉的品質,造成茶湯渾濁、茶味苦澀,給茶農造成嚴重的經濟損失[1].因此及時準確地發現茶樹病害的類別,精準防治,對提高茶葉的產量和質量有重要意義.

茶葉病蟲害鑒別及防治存在很多難題,諸如茶樹病害種類多、某些病癥相似性高、不同季節、不同地區有不同的表現等[2-7].由于大部分茶農專業知識匱乏,易出現誤診,而茶園大多依山而建,面積、海拔跨度大,植保專家難以全面開展現場指導.因此,研究有效的茶葉病害自動識別方法具有較大的實際意義.

農作物病害的識別和分類算法,有經典的機器學習方法和使用深度學習網絡模型等兩種方法.經典的機器學習方法實現植物病害分類是通過病害的特征提取和專家知識完成的,分類器識別性能的好壞,與病害特征描述是否完整,以及專家知識是否正確有關;此外,與分類器設計是否合理、概括性強,且先驗知識是否有較好區分度有關.圖像特征通常通過形狀、顏色、紋理特征來描述,經典算法有SVM、小波分析、灰度分析、直方圖分析、灰度共生矩陣等.Sun Y 等[8]提出了一種將SLIC(簡單線性迭代聚類)與SVM(支持向量機)相結合的算法,對261 幅病害圖像進行測試,準確度達到96.8%.Billah M 等人[9]提出使用小波變換提取彩色茶葉圖像特征,基于自適應神經模糊推理系統的茶葉病害診斷系統,在作者的數據庫上僅僅以45 張圖片作為訓練集,30 張圖片作為測試集,獲得95.7%的識別正確率.以上兩種以SVM 和小波分析為代表的經典機器學習算法,優點是模型結構層次較淺、計算量較小、計算時間較短,不需要以大量的圖像為基礎,即可完成圖像的識別分析;另一方面,缺點也同樣明顯,無法從原圖像中獲取更高層次的語義特征和深度特征,當受到人為以及外界因素的干擾,圖像識別率較低,面對大規模數據集的情況下,若離開人為設計即無法獲取圖像特征,算法泛化性差[10].近年來興起的深度學習技術,因其可提取更深層次的圖像特征,且圖像特征表達更豐富,實用效果較好,應用廣泛.如Hu[11]使用GAN 技術擴充僅有120張病害的茶葉數據庫,再使用VGG 實現病害分類,獲得90%的平均識別率,準確率遠高出傳統機器學習算法;牟文芊等[12]提出了一種基于SENet和深度可分離卷積膠囊網絡的茶樹葉部病害圖像識別算法,訓練數據庫來自山東省泰安市茶溪谷人工采摘的15 000 張茶葉圖片,最終識別準確率達到94.20%.Zhang 等[13]使用Efficient Net 訓練識別2 816 張黃瓜病蟲害圖片,最高正確率達96.00%;王春山等[14]使用Multi-scale Res Net識別PlantVillage、AI challenge 數據集中三種植物病蟲害19 517 張圖片,最高正確率達95.95%.上述方法使用深度學習網絡對植物病蟲害分類開展研究,取得了較好的分類準確率.

深度學習在目標檢測、分類的應用上效果出眾,但需以大量訓練數據為前提[15].另外,不同種類植物病害特征各異,不同產區、不同品種茶葉病害也有所不同,并沒有普適性的自動識別方法.如Mohanty等[16]將在PlantVillage數據上訓練的深度學習模型,應用于識別另外一個同類型植物數據庫上時,正確率下降到50%以下.目前,較多的研究是在高質量的公開數據庫上開展的,而基于茶葉病蟲害數據庫較少,基于潮州鳳凰單叢茶的數據庫到目前為止未有記載.因此,本文借鑒上述成果,探索基于深度學習算法的潮州鳳凰單叢茶病害自動識別的可行性,重點研究:

1)以潮州鳳凰單叢茶“鴨屎香”品種為對象,采集自然環境下的不同季節、不同光照條件下的茶葉病害照片,聯合潮州市茶葉科學研究中心專家對茶葉病害進行標注,構建高質量茶葉病害數據集.

2)搭建基于深度學習算法的茶葉病害識別平臺,選取VGG、ResNet 和Vision Transformer 等三種深度學習算法進行測試,驗證潮州單叢茶病害自動識別方法的可行性.

1 茶葉病蟲害數據集

茶葉病害圖片數據集采樣于:饒平縣大崠山茶業有限公司茶苗培養基地,構建數據庫以本地典型品種“鴨屎香”為研究對象.為了更好還原光照情況,在不同時段和不同天氣環境下,以4 024×3 036像素分辨率現場拍攝茶葉病害圖片.選用本地產見的三種病害,如圖1 所示,分別是云紋葉枯病、炭疽病、赤星病,加上健康茶葉共四類構成數據庫.數據集中包含圖片1 258張,其中健康茶葉166張、赤星病126 張、炭疽病582 張、云紋葉枯病384 張.它們以8∶2 的比例將數據集分成訓練數據集和測試數據集.云紋葉枯病的主要特征是:開始是黃綠色或黃褐色,后期變為褐色,有波狀褐色、灰色相間的云紋;炭疽病的主要特征是:先在葉緣或葉尖形成病斑,色澤淡褐色或黃褐色,最后呈灰白色,其上散生黑色小點,病斑無輪紋;赤星病的主要特征是:葉片上產生小型圓形病斑,后擴展成灰白色中間凹陷的圓形病斑,邊緣具暗褐色或紫褐色隆起線,中央紅褐色,后期病斑中間散生黑色小點.

圖1 茶葉典型病害特征圖

2 實驗設置與實驗結果分析

2.1 實驗平臺和參數配置

實驗平臺操作系統使用Window10,CPU 選擇Intel(R) Core(TM) i7-10700 CPU @ 2.90GHz;GPU 選擇NVIDIA GeForce RTX 3080 10GB;CUDA 版本號是11.6.使用Anaconda 配置模型訓練開發環境,使用的編程語言是Python3.7,深度學習框架是Pytorch1.9.

本實驗選用經典的深度學習算法:VGG16、Resnet34和Vision Transform.為了更好地對比實驗結果,三個實驗模型均采用相同的參數配置.實驗中采用Adam 網絡優化算法,在訓練中的學習率設置為0.000 1.模型訓練過程采用批量訓練的方法,Batch Size 大小設置為128,模型處理完全部訓練圖片和測試圖片為一次迭代(Epoch),實驗共100個Epoch.

2.2 數據預處理

為了加強數據的多樣性、全面性,進而提高模型的泛化能力,實驗中將訓練圖片進行隨機范圍裁剪、縮放和旋轉等操作.為了改善梯度消失和梯度爆炸的問題,使用數據標準化處理,權重初始化,以及通過BN[17](Batch Normalization),達到加速網絡的收斂并提升準確率的目的.

2.3 實驗結果分析

2.3.1 實驗1:使用經典深度學習算法驗證數據集可行性

訓練結果如圖2、圖3所示.其中圖2是訓練誤差收斂情況,橫坐標Epoch 為迭代的代數,縱坐標train loss代表訓練誤差.經過100次迭代訓練,Vision Transform 誤差穩定在1.04左右,VGG16穩定在0.64,Resnet34 穩定在0.23,誤差總體較大.圖3 是驗證集的識別準確率,其中Epoch 表示迭代的代數,縱坐標表示驗證集識別準確率.經過100次迭代訓練,Vision Transform 驗證準確率穩定在55%左右,VGG16驗證準確率平均值69%,Resnet34驗證準確率平均值77%,準確率未達實用要求.

圖2 無遷移學習訓練誤差收斂情況

圖3 無遷移學習驗證集的識別準確率

實驗結果表明:1)同樣是使用卷積來提取特征的深度學習網絡,Resnet 比VGG 網絡有更快的收斂速度和更高的驗證精度,原因是Resnet網絡中加入殘差結構,使得誤差可以傳播到更深層網絡,一定程度上解決了網絡退化問題,使得Resnet可以擁有更深的網絡和更好的訓練效果.2)Vision Transformer網絡,在識別率和收斂速度的表現上都不如VGG 和Resnet網絡.原因是Vision Transformer 結構缺少一些CNN 先天的歸納偏置(歸納偏置指的是卷積結構帶來的先驗經驗),比如平移不變性和包含局部關系,因此在規模不足的數據集上表現沒有那么好[17].

2.3.2 實驗2:加入遷移學習的深度學習算法驗證數據集可行性

從訓練結果來看Vision Transformer、VGG 和Resnet 的識別精度分別為:50%、60%、70%左右.從實驗精度看,三種方法的識別率都不高,達不到應用的程度.這可能與數據集中圖片的數量較少有關.Yosinski等人[18]研究深度學習中各個layer特征的可遷移性(或者說通用性),提出:通常情況下第一層與具體的圖像數據集關系不是特別大,而網絡的最后一層則是與選定的數據集及其任務目標緊密相關的;淺層feature 稱之為一般(general)特征,最后一層稱之為特定(specific)特征,使用遷移學習可以有效提高模型的泛化性能.為了解決訓練樣本不足的問題,本文引入了遷移學習.使用在大數據庫上訓練的模型,淺層參數全部直接遷移,最后的全連接層刪除后重新訓練.

具體步驟:1)下載相同的網絡結構,并該模型已經在ImageNet 數據庫上完成訓練,該數據庫的規模約120萬個樣本,1 000分類;2)創建一個新的神經網絡模型,即目標模型,然后將預訓練模型的權重參數全部加載到目標模型中;3)將加載了預訓練模型的目標模型1 000分類的輸出層刪除,并重新映射到4分類輸出層;4)為了對比,修改超參數設置,與實驗1保持一致.

由于VGG 與Resnet 屬于同類型網絡,且在實驗1 中,VGG 網絡的訓練效果全面落后Resnet 網絡,因此實驗2 只對比Resnet 和Vision Transformer 網絡.為了方便對比,將兩次實驗訓練結果列舉在表1中.

表1 加入遷移學習前后實驗效果對比表

在實驗2中加入遷移學習,訓練誤差相比實驗1收斂快,表現在:Resnet在實驗1訓練的第100Epoch 時訓練誤差為0.23,而實驗2 如圖4 所示:在第16 個Epoch 就收斂為0.06;Vision Transformer 網絡在實驗1 的第100Epoch 時訓練誤差為1.04,實驗2 在第50 個Epoch 就收斂為0.45.從訓練誤差來看,加入遷移學習后,訓練誤差收斂快,且最終誤差也小.

圖4 帶遷移學習訓練誤差收斂情況

通過對比圖3無遷移學習和圖5帶遷移學習驗證集的識別準確率可得,訓練精度方面,Resnet在加入遷移學習前后,訓練精度從77%左右上升到88%;Vision Transformer在加入遷移學習前后,訓練精度從55%左右上升到86%,因此加入遷移學習對訓練精度提升較明顯.

圖5 帶遷移學習驗證集的識別準確率

實驗結果表明:使用遷移學習之后,兩種網絡的收斂速度大大加快且精度有較大提升,最高精度達90%,基本滿足實用需求.

3 結論與展望

本文以潮州鳳凰單叢茶典型品種“鴨屎香”為例,建立了茶葉病害數據庫,通過遷移學習,使神經網絡分類模型獲得較好的識別率,為深入研究茶葉病害的自動識別提供了有價值的參考.但仍有優化空間,后續將從以下幾方面開展研究:

1)擴充數據庫,將拍攝更多鴨屎香的病害圖片,并嘗試在數據中加入其它品種茶葉病害圖片,進一步增強數據庫的深度、廣度和泛化能力.

2)改進網絡架構,使其對茶葉病害這個對象有更加好的識別率;并進一步優化網絡架構,壓縮網絡規模,提高識別速度,使其可以移植到邊緣運算設備運行.

3)融合多因素進行分類.茶葉病害與季節,外部環境(溫度、濕度、通風度)等因素有密切聯系,后續將環境因素融入茶葉病害數據庫,輔助茶葉病害識別模型,以提高識別率.

猜你喜歡
準確率病害茶葉
《茶葉通訊》簡介
早春養羊需防六大病害
小麥常見三種病害咋防治
葡萄病害周年防治歷
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
果樹休眠期咋防病害
藏族對茶葉情有獨鐘
高速公路車牌識別標識站準確率驗證法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合