?

結合主動光源和改進YOLOv5s 模型的夜間柑橘檢測方法

2024-01-15 06:02熊俊濤霍釗威黃啟寅陳浩然楊振剛黃煜華蘇穎苗
華南農業大學學報 2024年1期
關鍵詞:柑橘光源準確率

熊俊濤,霍釗威,黃啟寅,陳浩然,楊振剛,黃煜華,蘇穎苗

(華南農業大學 數學與信息學院,廣東 廣州 510642)

我國是最大的柑橘生產國,年產量占世界的四分之一[1]。隨著農業機械化和信息化的發展,果蔬識別、機器人自動采摘和果實產量估計等成為近年來的研究熱點[2]。水果自動化采摘對提高水果品質和市場競爭力具有重要意義[3-4]。目前,柑橘大多數是人工采摘,這種方式采摘效率低、成本高,并且采摘作業集中在白天。夜間環境下柑橘的精準識別是采摘機器人智能化全天候作業的關鍵,而夜間視覺系統的設計是實現采摘機器人夜間作業的重要前提[5-8]。因此,為了滿足市場的需求,提高采摘效率并延長作業時間,有必要進行夜間環境下柑橘采摘機器人的研究。

在夜間環境下的目標檢測,最關鍵在于光源的選擇和視覺系統的設計,通過人工照明可以確保在穩定的光源下采集夜間圖像,降低在白天太陽可變光照的影響[9-10]。近年來,針對夜間環境下果蔬識別的研究中,Xiong 等[11]利用改進的模糊聚類方法(FCM)與Otsu 算法結合,實現夜間荔枝果實的識別,在受圖像陰影干擾的情況下,對荔枝的識別準確率為93.75%。Fu 等[12]為了研究夜間照明光強與獼猴桃視覺識別效果的關系,通過改變LED 燈的光照強度,采集不同光強下的獼猴桃圖像,并采用Canny算法進行分割檢測,當光強為30~50 lx 時識別效果最佳,準確率為88.3%。項榮等[13]通過對光源種類、布局,圖像采集距離等因素進行試驗,設計了番茄采摘機器人夜間照明系統,并通過Otsu 自動閾值圖像分割算法驗證了其有效性。趙德安等[14]通過對比不同光源對果實識別的影響,采用2 盞白熾燈作為光源采集夜間圖像,消除了陰影影響,提出改進R-G 色差分割算法,并進行二次分割實現夜間蘋果識別,果實的識別正確率達到83.7%。上述研究從光源的強度和種類出發來設計夜間光源系統,采集易于分割的圖像,實現果實的識別,但對于重疊遮擋目標果實的識別準確率較低。

隨著目標檢測算法的發展,深度學習逐漸應用于農業的各個領域,Liang 等[15]采用YOLOv3 算法并結合U-Net 檢測夜間環境的荔枝果實和果梗,識別準確率分別為96.30%和95.54%,該方法在一定程度上突破了傳統方法的局限。王輝等[16]提出一種基于改進DarkNet-53 卷積神經網絡并結合YOLOv3 的水果分類識別模型,平均識別精度為85.91%,實現了復雜背景下的水果識別。熊俊濤等[17]利用環形光源提出一種多尺度卷積神經網絡Des-YOLOv3 算法,實現夜間環境下成熟柑橘的識別與檢測,測試集平均精度達90.75%,檢測速度達53 幀/s,但對于較小的果實,出現了部分漏檢情況。呂石磊等[18]采用一種輕量化的網絡模型對自然環境下的柑橘進行識別,在全部測試集上平均準確率達91.13%,該模型占用內存低,便于部署,但整體識別準確率較低??梢钥闯?,深度學習算法具有較強的提取圖像高維特征的能力,受環境干擾程度較低,相比傳統方法,在自然環境下對果實的識別效果有較好的提升,但由于野外環境復雜,提高重疊遮擋果實的識別性能仍是目前的研究重點[19]。

夜間環境背景簡單,采摘機器人能在較穩定的光照環境下識別并采摘果實,對于夜間環境水果采摘的研究,通常采用白光作為光源采集夜間圖像,未針對目標果實顏色特征選擇合適的光源設計視覺系統,而且照明不均勻導致的陰影使得樹上部分果實特征不明顯,對枝葉遮擋和較小果實的準確識別存在一定的困難[20]。因此,獲取果實顏色特征明顯的夜間圖像,是實現夜間智能采摘精準識別的關鍵[21-23]。

綜上,為了進一步提高對夜間重疊遮擋、小目標柑橘的識別性能,在野外夜間環境下快速精準地識別目標果實,本文采用一種可調節RGB 數值的燈光為夜間光源,通過試驗確定最佳光源色來采集柑橘顏色顯著的夜間圖像,并通過改進的YOLOv5s目標檢測模型對夜間柑橘進行精準識別,為夜間柑橘采摘機器人提供重要的視覺檢測技術支持。

1 材料與方法

1.1 燈光設備和試驗圖像采集

試驗燈光設備采用SuteFoto T6 光源,尺寸為96 mm × 65 mm × 18 mm,功率為8 W,CCT 色溫為2 500~8 500 K,其中RGB 模式為0~255 可調節數值,具有1 600 萬種組合色彩。試驗圖像采集地點為廣東省廣州市白云區百萬果園農莊,采集時間為2021 年12 月18 日夜間,采集距離為100 cm,光照強度為346 lx;使用iPhone 相機進行圖像采集,采集的圖像為4 032 像素 × 2 268 像素的.jpg 格式。采集場景和燈光設備如圖1 所示。

1.2 試驗指標

夜間環境中柑橘的識別,最關鍵的是獲取高質量的夜間圖像,使在目標檢測算法下能更好地提取柑橘的顏色特征。趙桂蘭等[24]在光源色與物體色的研究中提到,光源顏色的變化會改變物體的顏色,物體顯色性跟物體本身顏色以及光源色有關,高色溫光源照射冷色調物體,低色溫光源照射暖色調物體,顯色更優,物體反射亮度更高。因此,為了能在夜間環境下采集柑橘果實顏色特征突出的圖像,即果實與葉片顏色差距較大,首先要確定光源色。本文通過調節T6 光源RGB 模式下各數值來改變光源色,并結合HSV 顏色空間選取最佳光源色。通過HSV 顏色空間計算果實與葉片的顏色距離,顏色距離越小,兩者顏色越接近,反之越遠,由此選擇使兩者色距最大的RGB 數值作為采集夜間圖像的最佳光源色。顏色距離計算流程及公式如下。

1)分別獲取柑橘與葉片圖像的RGB 數值,將圖像的RGB 通道轉為HSV 通道。

式中,R′、G′、B′代表分別將圖像的R、G、B數值歸一化,使其轉為[0,1] 區間;Cmax、Cmin分別表示R′、G′、B′的最大值和最小值。

色相 (H)計算:

飽和度 (S)計算:

亮度 (V)計算:

2)計算HSV 顏色空間三維坐標:假設一個HSV錐的斜邊長度R為100,底面圓半徑為r,高度為h,以地圓中心為原點,以H=0 為x軸正方向建立坐標軸。色值是(H,S,V),點的三維坐標為(x,y,z)。

3)計算兩圖像之間的顏色距離(C):

式中,D表示坐標點間在不同坐標軸方向上的距離。

在前期試驗過程中得知,RGB 模式下R決定柑橘顏色變化,B決定葉片顏色變化,然而G對葉片顏色產生加深效果,故不需要對G進行調節。因此,在0~255 的可調節數值下,采用二分法向上向下進行探測,以R=128、G=0、B=128 為中心點數值,分別以64、32、16、8 和4 為步長(分別為第1~5 輪)調節R、B數值,從而改變光源色來采集夜間柑橘圖像,其中每輪采集9 張圖像。

利用Photoshop 軟件將柑橘果實以及葉片背景圖像分別提取出來,將柑橘及葉片圖像均另存為尺寸為126 像素×126 像素的PNG 格式圖像。表1 為每輪柑橘和葉片圖像的顏色距離。由表1 可知:在第1 輪中,當R=64、G=0、B=192 時,顏色距離為2.04,在第1 輪為最大,因此為第1 輪中最佳的RGB 數值,并作為第2 輪的初始值。在第2 輪中,當R=96、G=0、B=224 時,顏色距離為2.15,在第2 輪中為最大,為第2 輪最佳RGB 數值,并作為第3 輪的初始值。以此類推,當R=9 6、G=0、B=220 時,顏色距離為2.16,在第5 輪中為最大。因此選擇該值作為最佳的夜間光源色,稱為R 光。

表1 每輪柑橘和葉片HSV 顏色距離Table 1 HSV color distance between citruses and leaves in each round

1.3 圖像數據采集及構建

采用最佳夜間光源色(R=96、G=0、B=220),在2021 年12 月19 日夜間,于廣東省廣州市白云區百萬果園采集夜間圖像。對果園柑橘樹進行不同角度(順光、側光)及不同果實分布情況(完整、遮擋、稀疏) 的多樣性圖像采集,其中圖像采集距離為50~150 cm,光照強度為296~385 lx,分別采用iPhone、小米手機和Azure Kinect DK 相機采集圖像,確保訓練數據的多樣性。共拍攝1 900 張柑橘圖像,從中選出1 688 張具有代表性的圖像,并使用標注工具lablelImg 將圖像標記為PASCEL VOC 格式標簽。采用8∶1∶1 的數量比例將數據集劃分為訓練集、測試集和驗證集,其中1 352 張圖像作為訓練集,168 張作為測試集,168 張作為驗證集??紤]到實時檢測和采摘機器人的需求,本文采用YOLOv5s 模型的深度和寬度作為主要框架。

1.4 改進的YOLOv5s 模型

1.4.1 Coordinate attention(CA) 注意力模塊 CA 模塊是一種將位置信息嵌入到通道注意力中,在較少的計算量上獲取更大區域信息的高效的注意力機制[25]。CA 模塊將通道注意力分解為2 個不同方向的聚合特征進行特征編碼,通過水平X以及垂直Y方向來捕獲空間方向和位置信息,把所獲取的信息在通道上進行加權融合,得到對方向感知的特征圖,有助于網絡更準確地定位到目標區域。CA 模塊簡單、靈活且高效,可捕捉生成對空間選擇注意力重要的位置信息,對遮擋和較小目標檢測效果的提升較明顯。

1.4.2 雙向特征融合網絡 雙向特征金字塔網絡(Bi-directional feature pyramid network,Bi-FPN)由Tan 等[26]提出,通過重復應用自頂向下和自底向上的方式,對不同分辨率的輸入圖像進行快速有效的特征信息融合,可以更好地改善對遮擋、重疊和小目標的檢測效果。其結構如圖2 所示。

圖2 Bi-FPN 網絡結構Fig.2 Network architecture of Bi-FPN

在此結構中,對從Backbone 接收來的信息,中間層() 對上一層和同一尺度層進行信息融合,對于輸出層(),在同一尺度之間添加一個跳躍連接,實現自上而下及自下而上多層級雙向特征的融合。同時,在每次卷積后利用批量歸一化和激活函數集成雙向跨尺度連接,并完成快速歸一化。相比PANet 結構[27],Bi-FPN 刪除了3 層和7 層網絡(C3、C7)輸入邊中間的節點,僅加入同尺度的特征信息,在保證準確率的同時減少多余的計算量,提高檢測速度。

1.4.3 BI-YOLOv5s 模型 在夜間環境中,由于燈光亮度緣故,有較多區域不能很好地覆蓋;同時柑橘樹上存在枝葉遮擋,部分目標果實較小,導致果實識別難度加大。結合所采集圖像的特點,為解決這些存在的問題,本文采用可以提取更多信息的Bi-FPN 雙向特征融合替代YOLOv5s 中PANet 結構作為Neck,增強對目標果實顏色特征信息的提取能力。針對夜間圖像存在較多小目標果實,借鑒Zhu 等[28]的方法提出THP-YOLOv5 思路,采用多尺度目標檢測方法,添加小預測頭,提高對小目標果實的識別能力。同時,將Backbone 及Neck 末端層C3 模塊替換成融入Transformer encoder block 結構的C3TR 模塊,減少浮點運算量并提高全局信息和豐富上下文信息?;赮OLOv5s 改進后的網絡結構如圖3 所示,將其命名為BI-YOLOv5s。

圖3 BI-YOLOv5s 網絡結構Fig.3 Network architecture of BI-YOLOv5s

在Backbone 中,對C3 模塊剪切重復次數,減少卷積參數計算量,提高檢測速度;將Backbone 中第2、4、6 層特征輸入到Bi-FPN 結構中,對不同位置進行多次自上而下的雙向特征信息融合來獲得更豐富的特征,減少信息丟失的同時充分學習不同層級分辨率的特征信息。同時引入CA 注意力模塊,提高對重要特征和位置信息的提取能力,幫助模型精準定位和識別感興趣的目標和位置,提升對夜間自然環境下遮擋柑橘檢測的性能。

2 模型訓練與結果分析

2.1 試驗配置環境

軟硬件平臺配置如下:CPU 為i7-11700K、3.60 GHz 主頻、六核十二線程、內存32 GB,顯卡GPU 為Nvidia GeForce GTX3090,操作系統為Windows10,并搭配環境CUDA 11.3、Cudnn 7.6、Python 3.8 版本的Pytorch 深度學習框架。

2.2 模型訓練參數

采用YOLOv5 作者提供的預訓練權重[29]作為模型訓練的初始化權重參數,模型參數設置為通過隨機梯度下降法優化器進行梯度更新,初始學習率為0.01,學習下降因子為0.005,動量因子為0.937,輸入圖像尺寸為640 像素×640 像素,以24 為1 個批處理量,最大迭代次數為100 次。

2.3 評價指標

在深度學習目標檢測算法中,通常需要衡量算法的性能。本文評價算法性能和有效性的相關指標為精準率(Precision,P)、召回率(Recall,R)、F1 分數(F1 score)以及平均準確率(Average precision,AP),計算公式如下所示。

式中,TP 指預測為正類的正樣本(真正例);FN 指預測為負類的正樣本(假反例);FP 指預測為正類的負樣本(假正例);P指在圖像中所有預測的樣本為正類的比例;R指預測正類的樣本與所有正樣本的比例;F1 分數為P與R的調和平均值,綜合了兩者的指標;AP 為P與R構成的P-R曲線下的面積,通常AP 越大,模型性能越好,是衡量目標檢測模型性能的重要指標。綜合衡量上述指標可以較好反映模型性能,此外,使用每秒幀數(Frame per second,FPS)來評估模型的檢測速度。

2.4 結果與分析

2.4.1 消融試驗結果 為了驗證改進模型的效果,本文設置了消融試驗,在同一模型參數和設備下進行訓練,采用“2.3”的評價指標來衡量模型性能,表2為各模型在測試集上的表現。

表2 各個模型消融試驗Table 2 Ablation experiment for each model

從表2 可以看出,添加了CA 注意力模塊的YOLOv5s 模型,其精準率和平均準確率分別提升1.3 和1.0 個百分點,說明CA 注意力模塊能提高從圖像中提取空間位置信息和感興趣區域的能力。然后采用Bi-FPN 結構替換YOLOv5s 的PANet 實現雙向特征信息的融合,平均準確率比YOLOv5s 提升了1.4 個百分點。通過Bi-FPN 結構和CA 模塊結合,其平均準確率比YOLOv5s 提升了2.0 個百分點,表明兩者結合是有效的,可提升模型的檢測準確率。從消融試驗結果可看出,本文所提出的模型可以有效提升各方面表現性能,與YOLOv5s 相比,精準率和平均準確率分別提高了3.2 和2.3 個百分點;增加網絡層數降低了檢測速度,但模型的檢測性能有了很大的提升。

2.4.2 不同模型的比較分析 為了充分驗證本文模型的有效性,對ShuffleNetV2-YOLOv5s、GhostNet-YOLOv5s、YOLOv5s 與本文模型在相同的數據集下進行測試和對比分析,各模型在測試集上的各項性能結果如表3 所示。

表3 不同模型測試結果對比Table 3 Comparison of test results of different models

本文模型BI-YOLOv5s 的精準率、召回率、平均準確率及F1 分數均為最高;其中,平均準確率比YOLOv5s 提高了2.3 個百分點。與ShuffleNetV2-YOLOv5s、Ghostnet-YOLOv5s 相比,在檢測速度降低幅度較小的情況下,本文模型的平均準確率分別提高了5.3 和3.9 個百分點。對比結果表明,本文模型的檢測性能更優,有效實現雙向特征信息融合,提升了各方面的性能,具有更高的精準率和平均準確率。雖然檢測速度低于其他模型的,但已達到實時檢測速度大于25 幀/s 的需求,滿足水果采摘機器人的要求。圖4 展示了各模型對密集遮擋以及稀疏果實的檢測效果。在密集遮擋目標果實中,YOLOv5s 模型對遮擋較嚴重及距離遠的小目標果實的識別效果較差,比本文模型漏檢了6 個果實;在稀疏目標果實中,出現3 個果實在遮擋條件下漏檢的現象。以ShuffleNetV2、GhostNet 為骨架的YOLOv5s 模型的檢測速度較高于本文模型的,但識別準確率較低,均漏檢了11 個果實,有較多遮擋的果實未能識別。本文模型可以準確地識別出目標果實,漏檢現象較少。

圖4 不同模型對不同果實分布的檢測效果Fig.4 Detection effect of different models for different fruit distributions

上述結果表明,本文模型可以充分融合低層位置信息和深層豐富的語義信息,減少圖像特征信息丟失,有效利用不同分辨率圖像的特征,整體性能比其他模型更好,對夜間自然環境下柑橘的識別具有更強的魯棒性。

2.4.3 不同果實狀態檢測性能 為了進一步驗證模型對不同果實狀態的識別能力,本文將原始測試集分為弱光照、小目標以及重疊遮擋3 種不同果實狀態數據集,并分別使用改進前、后模型對3 種數據集進行測試,結果如表4 所示。改進前、后模型對3 種數據集的檢測均有較高的平均準確率;改進后的BI-YOLOv5s 模型對3 種數據集的平均準確率比YOLOv5s 分別提高了2.0、1.7 和2.5 個百分點,說明本文模型對不同狀態果實檢測的準確度均有較明顯的提升效果。

表4 不同模型對不同果實狀態數據集的測試結果Table 4 Test results of different models for data sets of different fruit states

通過比較2 種模型對3 種果實狀態的檢測效果,YOLOv5s 模型對不同果實狀態的檢測均存在較多漏檢情況,共漏檢16 個果實,而BI-YOLOv5s模型能檢測到更多的小目標以及重疊遮擋的果實,檢測效果有顯著的改善(圖5)。試驗結果表明,改進后模型對不同果實狀態的識別能力更強,具有較高的識別準確率,更適合在夜間復雜環境下的柑橘識別。

2.4.4 與白光環境的對比分析 為了進一步驗證本文模型在夜間環境下使用R 光對柑橘的識別效果,本文采用同光源設備SuteFoto T6 的白光模式,在該模式光強為100%、色溫為5 900 K 的光照條件下采集夜間柑橘圖像,并篩選出R 光數據集相同數量的1 688 張圖像,分別用于YOLOv5s 及BIYOLOv5s 模型訓練,與R 光環境下模型進行對比分析。圖6 為各模型訓練集的損失和平均準確率曲線。R 光環境下,改進前、后的模型均優于白光環境下的模型,說明R 光在夜間環境下可以減少由光線不均勻產生陰影造成的影響,能夠更好地突出柑橘的顏色特征,使模型檢測性能更好,具有更高的識別準確度。選取稀疏、重疊和遮擋狀態果實的圖像在順光和側光條件下進行識別,并比較識別效果,2 種燈光在不同光照角度下對柑橘的識別效果和果實檢測數量如圖7 及表5 所示。

表5 2 種燈光不同光照角度下BI-YOLOv5s 模型檢測的果實數量統計Table 5 Quantity statistics of detected fruit by BI-YOLOv5s model under different angles of two lights

圖6 R 光(R)和白光(W)2 種燈光下不同模型對比曲線Fig.6 Comparison curves of different models under two conditions of R light (R) and white light (W)

結合圖7 和表5 可看出,在順光圖像中,實際果實總數量為52 個,在白光環境下識別出44 個;在R 光下識別出50 個,相比白光,R 光對遮擋及小目標的識別能力較強。在側光圖像中,白光環境對側光1 圖像的識別效果較好,識別出所有目標果實;但對側光2 和側光3 圖像共漏檢了5 個果實,整體識別正確率為85.3%,其原因是枝葉遮擋及柑橘顏色特征不明顯。而在R 光環境下,整體識別能力較好,但由于R 光燈色的特點,在側光下使得個別果實顏色變暗,無法有效提取果實的顏色特征;同時一些樹葉枯黃,在該光源色下呈現跟果實相同顏色,從而出現個別漏檢和誤檢現象。

通過以上2 種燈光對比分析可知,R 光環境下BI-YOLOv5s 模型的整體識別正確率為95.3%,比白光環境下高10.4 個百分點,說明R 光能夠更好地突出柑橘顏色特征,對枝葉遮擋和較小果實的檢測性能更強。

3 結論

夜間自然環境中準確檢測柑橘是實現機器人全天候采摘的重要前提,提高夜間圖像的質量并獲得準確的果實信息對于夜間果實識別至關重要。為此,本文采用了一種可以調節光源顏色的人工光源來采集柑橘夜間圖像,從而有效突出夜間環境下柑橘的顏色特征,并提出了一種結合Bi-FPN 結構和CA 模塊的BI-YOLOv5s 模型,實現了對遮擋和小目標柑橘的準確識別。該模型在測試集上的平均準確率為97.1%,檢測速度為40 幀/s,為夜間采摘機器人提供了視覺技術支持。

通過改變光源設備的RGB 數值可以獲得不同的光源色,可廣泛應用于夜間環境下不同果實的檢測,為快速準確地檢測果實提供了新思路。本文提出的方法取得了良好的效果,但是由于該光源顏色的特性,在研究試驗中出現一些果實誤檢和漏檢的情況,未來將通過夜間獲取具有更多果實信息的圖像并提高目標檢測模型的魯棒性來進一步改進。

猜你喜歡
柑橘光源準確率
吃柑橘何來黃疸——認識橘黃病
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
高速公路車牌識別標識站準確率驗證法
綠色光源
兩種LED光源作為擬南芥生長光源的應用探究
柑橘大實蠅綜合治理
“五及時”柑橘凍害恢復技術
柑橘實蠅防治一法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合