?

基于語義分割的無人機圖像西瓜果實提取研究

2024-04-27 03:04邱金凱許秀英康燁臧浩馬鍇郭志鵬
中國農機化學報 2024年3期
關鍵詞:注意力機制深度學習

邱金凱 許秀英 康燁 臧浩 馬鍇 郭志鵬

摘要:無人機圖像中的西瓜果實精準分割是進行西瓜計數和產量預估的前提。針對無人機西瓜圖像因存在田間背景復雜、光照不均勻、特征不顯著等情況容易導致誤分割和細節邊緣分割不精確的問題,提出一種改進U-Net網絡的西瓜果實分割模型。首先采集西瓜成熟前期的無人機可見光圖像,構建西瓜果實語義分割數據集;其次在下采樣階段引入高效通道注意力機制,增強果實區域的特征權重,并在跳躍連接部分增加雙注意力機制,基于局部特征建立豐富的上下文依賴關系,提高對目標區域的特征提取能力;最后使用特征圖和類別激活映射圖對模型預測過程進行可視化解釋。結果表明,該模型的準確率、精確率、召回率、F1-Score值和交并比分別為99.03%、92.67%、90.55%、91.21%和84.71%,單幅圖像分割時間為0.145 s。該模型能夠有效捕獲成熟前期的無人機西瓜圖像中的果實特征,準確識別自然環境中復雜背景的果實區域,具有良好的分割效果和泛化能力。為利用無人機遙感技術統計大田西瓜數量和成熟前期產量預估提供理論依據和技術支持。

關鍵詞:西瓜果實;深度學習;無人機圖像;語義分割;注意力機制

中圖分類號:S24: TP391.4? 文獻標識碼:A? 文章編號:2095-5553 (2024) 03-0182-07

Research on watermelon fruit extraction from UAV images based on semantic segmentation

Qiu Jinkai1, Xu Xiuying1, 2, Kang Ye1, Zang Hao1, Ma Kai1, Guo Zhipeng1

(1. College of Engineering, Heilongjiang Bayi Agricultural University, Daqing, 163319, China;2. Heilongjiang Province Conservation Tillage Engineering Technology Research Center, Daqing, 163319, China)

Abstract:

The accurate segmentation of watermelon fruit in UAV(unmanned aerial vehicle) image is the premise of watermelon counting and yield estimation. This paper proposed a segmentation model of watermelon fruit based on an improved U-Net network to address the problems of false segmentation and inaccurate detail edge segmentation of UAV watermelon images due to complex field background, uneven illumination, and insignificant features. The visible light image of the UAV in the early ripening stage of watermelon was collected to construct the semantic segmentation dataset of watermelon fruit. An efficient channel attention mechanism was introduced in the downsampling process to enhance the feature weight of the fruit region, and a dual attention mechanism was added in the skip connection part to establish rich context dependency based on local features, so as to improve the feature extraction ability of the target region. Then, the feature map and class activation map were used to visually explain the prediction process of the model. Experimental results showed that the Accuracy, Precision, Recall, F1-Score and Intersection over Union(IoU) of the model were 99.03%, 92.67%, 90.55%, 91.21% and 84.71%, respectively, and the processing time of an individual image was 0.145 s. This model can effectively capture the fruit features in the UAV watermelon image in the early maturity stage, accurately identify the fruit regions with complex background under natural environment, and has good segmentation effect and generalization ability. It can provide theoretical basis and technical support for the use of UAV remote sensing technology to count the number of watermelon in the field and estimate the yield at the early maturity stage.

Keywords:watermelon fruit; deep learning; UAV image; semantic segmentation; attention mechanism

0 引言

遙感技術在農業領域的應用越來越廣泛[1, 2],利用無人機可見光圖像進行西瓜果實識別,提供與產量相關的視覺信息具有重要的應用價值。在果實成熟前期,準確的果實計數管理和產量預估,不僅可以幫助種植者在銷售作物時做出更具成本效益的決策,還可以為未來的作物營養和水分管理提供必要的田間變化信息[3, 4]。應用圖像識別技術從無人機圖像中提取西瓜果實,能夠高效觀察和分析西瓜田間信息,極大減輕瓜農的負擔。

國內外已有研究提出采用圖像處理和機器學習方法對無人機西瓜圖像進行分割,官大文等[5]基于HSV顏色模型,采用形態學運算、二值化處理對由無人機拍攝的西瓜圖像進行成熟西瓜偵測,可以偵測到大部分成熟西瓜,但被西瓜根莖葉遮蔽的西瓜難以被識別出。Ekiz等[6]使用灰度共生矩陣提取灰度圖像的紋理特征,結合貝葉斯線性判別分析和K-means聚類算法對無人機圖像中的西瓜進行分類與分割,能夠檢測到圖像中的西瓜,但無法準確識別并提取西瓜果實區域。上述方法均為淺層特征提取,對田間背景復雜、不同光照條件的情況分割效果較差,存在誤分割現象,尤其是葉片遮擋和雜草干擾時,細節區域提取不完整。

近年來,深度學習的迅速興起為植物果實分割增添了新的活力[7],其具有在復雜背景下準確可靠地提取果實特征的潛力,能夠為產量預測和計數管理提供數據支撐。Zhao等[8]通過小型無人機采集高分辨率田間甜瓜圖像,基于ZF網絡構建Faster R-CNN檢測模型,能夠從圖像中識別并檢測出甜瓜,但無法準確提取果實區域。Kalantar等[9]基于RetinaNet深度卷積神經網絡檢測到無人機圖像中甜瓜的位置,使用Chan-Vese主動輪廓模型估計目標形態的輪廓,成功從圖像背景分割出果實。但傳統深度學習模型缺乏關注圖像中不顯著特征,沒有充分利用全局視野中果實間的像素級關系,以致上下文語義信息聯系不緊密,對相似度高的瓜秧和果實進行分割時誤判率較高。薛君蕊等[10]采用基于改進FCN-8s的靈武長棗圖像分割方法,結合多尺度特征提取模塊,實現對不同成熟度靈武長棗目標的分割。Qian等[11]提出基于遞歸交叉注意力機制的U-Net改進模型來分割甜瓜果皮和種腔特征,模型的分割效果較好。

以成熟前期獲取的無人機可見光西瓜圖像為研究對象,提出一種基于改進U-Net網絡的西瓜果實語義分割模型。為實現田間西瓜果實的精確提取,采用深度學習方法,以U-Net網絡為基本框架,對模型的下采樣、跳躍連接部分進行改進,突出圖像中各個通道的重要特征,從位置和通道兩個維度提升網絡對果實特征的關注度,充分考慮各像素間的關系,提高西瓜果實分割的特征表示。使用特征圖和類別激活映射圖對模型預測過程進行可視化解釋,驗證改進網絡的合理性。

1 材料和方法

1.1 圖像采集

無人機圖像數據采集試驗于2021年7月20日(西瓜成熟前期)在黑龍江省大慶市大同區大同鎮西瓜試驗田(東經124°56′,北緯45°59′)進行。大疆精靈4 RTK無人機,最大飛行速度16 m/s,最大飛行時間30 min,搭載DJI FC6310R相機,成像分辨率為5 472像素×3 648像素,可見光圖像的數據格式為.JPG。試驗時天氣晴朗,拍攝時間為下午14:00左右,航拍時無人機飛行高度設置為5 m左右,相機鏡頭設置為-90°俯仰角正拍,采用航點懸停拍照模式,獲得原始圖像80幅。

1.2 數據集構建

考慮到無人機西瓜圖像分辨率較高且語義分割算法的運算量較大,對原始圖像進行了裁剪,將其裁剪成小塊再進行標注。數據集構建的具體過程如下。

1) 圖像裁剪。為加快網絡模型的推理速度,將圖像分辨率調整為512像素×512像素,以.png格式保存裁剪后的圖像,共得到600張圖像。

2) 數據標注。為滿足網絡模型訓練、參數調優和相關性能評估的需求,利用Adobe Photoshop CC 2019多邊形套索工具對上述圖像進行人工精確標注,將西瓜圖像中的果實區域像素標記為255即白色,其余背景像素標記為0即黑色,標簽以.png格式保存,圖像標注如圖1所示。

3) 數據集劃分。按照6∶2∶2的比例將數據集劃分為訓練集、驗證集和測試集,其中訓練集共360幅圖像,驗證集共120幅圖像,測試集共120幅圖像。利用訓練集訓練網絡模型,利用驗證集調整超參數,利用測試集評估模型性能。

1.3 傳統U-Net模型

U-Net網絡[12]是Ronneberger等在FCN(Fully Convolutional Networks)網絡[13]的基礎上進行優化得到的一種基于小數據集的網絡,具有小樣本學習的優勢,能夠更快速、更有效地實現分割。該網絡由編碼器、跳躍連接和解碼器組成。編碼器位于模型的左側,包括兩個3×3卷積塊和最大池化,通過下采樣捕獲圖像的上下文信息,實現逐層提取圖像中的目標特征。解碼器位于模型的右側,采用2×2轉置卷積上采樣特征圖,將尺寸擴大兩倍,通道維度縮小一半,再執行兩個3×3卷積,恢復目標細節和特征圖分辨率,實現精準的定位。最后執行1×1卷積實現特征圖中每個像素點的分類,生成預測圖。主要特點是引入跳躍連接,將編碼器特征圖與上采樣特征圖在通道維度上實現特征融合。傳統U-Net網絡結構如圖2所示。

2 西瓜果實語義分割模型建立

基于改進U-Net網絡建立西瓜果實語義分割模型,其網絡結構如圖3所示。

主要改進之處:(1)在網絡下采樣過程中加入高效通道注意力機制,位于由兩組3×3卷積、ReLU激活函數組成的標準卷積塊之后,經過通道注意力模塊更新后的特征逐層傳遞,使網絡在訓練過程中全程關注目標特征。(2)在下采樣和上采樣之間的跳躍連接部分加入雙注意力機制,基于線性注意力和通道注意力的整合來捕獲編碼器輸出特征之間的相互依賴性,豐富特征表示,抑制圖像中不相關區域的特征激活,減少噪聲對果實分割的影響。

2.1 高效通道注意力機制

U-Net網絡中淺層特征圖偏向于對果實、瓜秧和背景的紋理、形狀信息的表征,深層特征圖更抽象,偏向于對西瓜圖像中果實區域類別的表征。當針對相似度高的瓜秧和果實進行分割時,U-Net模型無法學習到其重要程度,誤判率較高。增加高效通道注意力機制(Efficient Channel Attention,ECA)[14],其網絡結構如圖4所示。ECA模塊是基于SENet改進的,能夠在通道維度上分配的重要程度,有助于提高模型的特征表示能力。

對特征圖的每個通道施加全局平均池化(Global Average Pooling,GAP),得到一個維度為1×1×C的全局特征圖。采用卷積核大小為k的快速一維卷積,經過sigmoid激活函數將數值歸一化為0到1的范圍,生成每個通道的注意力權重。使用該權重對輸入特征圖的每個通道進行加權獲得注意力特征圖。k值的計算公式如式(1)所示。

k=log2C+12(1)

式中:C——特征圖的通道數。

ECA模塊能夠自動關注重要特征通道,抑制葉片、瓜秧、雜草等背景干擾,賦予果實區域更大的特征權重,增強網絡對果實目標的辨識能力。

2.2 雙注意力機制

為充分利用遠程上下文信息,提高對目標區域不顯著特征的提取能力,采用雙注意力特征融合模塊,如圖5所示,包括線性注意力機制(Linear Attention,LA)和通道注意力機制(Channel Attention,CA),采用并聯形式。線性注意力機制增強網絡對果實區域的聚焦能力,通道注意力機制突出果實區域相互聯系的特征圖。通過LA與CA機制在位置和通道維度上同時構建長距離語義依賴關系,將不同維度更新后的特征進行疊加,增強模型表示能力,改善西瓜果實分割效果。

2.2.1 線性注意力機制

針對傳統深度學習模型沒有充分考慮全局視野中果實間的像素級關系,引入線性注意力機制[15],在局部特征上建立豐富的像素間關系,加強對空間維度的特征提取能力。假設N為輸入序列的長度,C為輸入通道的數量,N=H×W,其中H和W分別為輸入圖像的高和寬。給定一個特征X=[x1,…,xN]∈RN×C,縮放點積注意力利用三個投影矩陣Wq∈RDx×Dq,Wk∈RDx×Dk,Wv∈RDx×Dv生成對應的查詢矩陣Q、鍵矩陣K和值矩陣V,基于Transformer模型[16],其計算公式如式(2)所示。

D(Q,K,V)=softmaxQKTdkV(2)

式中:dk——比例因子。Q∈RN×Dk和KT∈RDk×N,所以QKT∈RN×N,時間和內存復雜度為O(N2)。

根據softmax歸一化函數的定義,通過式(2)生成的第i行結果矩陣可寫為

D(Q,K,V)i=∑Nj=1eqiTkjvj∑Nj=1eqiTkj(3)

為緩解點積注意力計算復雜度大的問題,采用一階泰勒展開近似eqiTkj,實現線性注意力機制。

eqiTkj≈1+qiTkj(4)

為保證上述近似的非負性,即確保qiTkj≥-1,利用L2范數對qi和kj進行歸一化處理,則方程可寫為

D(Q,K,V)=∑jVi,j+Q‖Q‖2K‖K‖2TVN+Q‖Q‖2∑jK‖K‖2Ti,j(5)

由于∑Nj=1kj‖kj‖2vjT和∑Nj=1kj‖kj‖2可以對每個查詢進行計算和重用,該線性注意力機制的時間和內存復雜度為O(N)。在降低模型計算復雜度的同時,通過考慮所有數據樣本不同位置之間的相關性來捕獲長距離依賴關系,使相似的語義特征相互促進,突出重點特征區域,提高分割精度。

2.2.2 通道注意力機制

不同類別的語義屬性體現在不同通道的特征上,給不同通道賦予不同的權重,表示該通道與相關語義信息的關聯程度。利用果實區域通道特征間的相互關聯性,使不顯著語義特征得到促進,有助于增強特定語義的特征表示。因此,引入通道注意力機制[17],其網絡結構如圖6所示。

特征圖A被重構成RC×N,將A和A的轉置進行矩陣乘法,經過softmax函數輸出通道注意力圖X∈RC×C。

xji=exp(Ai·Aj)∑Ci=1exp(Ai·Aj)(6)

式中:Ai——矩陣A中第i個位置元素;Aj——矩陣A中第j個位置元素;xji——第i個通道對第j個通道的響應。

將注意力圖X和A的轉置執行矩陣乘法,其結果被重構為RC×H×W,再乘以比例系數β,并與特征圖A執行元素求和運算,得到最終輸出E∈RC×H×W。該過程表示如式(7)所示。

Ej=β∑Ci=1(xjiAi)+Aj(7)

式中:β——可學習參數。

由式(7)可知,每個通道的特征E是所有通道與原始通道的加權和,這有利于提高特征的可辨別性,從而提升分割結果的完整度。

3 試驗及結果分析

3.1 模型訓練

3.1.1 試驗環境

操作系統為Windows 10 64位版本,采用Python 3.6編程語言,試驗硬件環境為Intel(R) Core(TM) i5-10400 CPU @ 2.9 GHz處理器,16 GB運行內存, NVIDIA GeForce RTX 2060顯卡?;贑UDA 10.0和cudnn 7.4.2,使用PyTorch 1.2.0深度學習框架構建網絡模型。

3.1.2 損失函數

試驗中選取合適的損失函數對于訓練網絡正常工作及優化網絡參數尤為重要[18]。由于西瓜果實語義分割是一個二分類問題,只有果實和背景兩個類別,其本質是將西瓜圖像轉換成二值圖像,故采用二分類交叉熵(binary cross entropy,BCE)損失函數。BCE損失函數的數學表達式如式(8)所示。

LBCE=-1N∑Ni=1[yilogpi+(1-yi)log(1-pi)](8)

式中:N——西瓜圖像中的總像素點數量;yi——第i個像素點的真實值,若此像素點為果實,則定義為1,否則為0;pi——第i個像素點的預測值。

3.1.3 試驗參數設置

為保證模型訓練試驗的可重復性,采用固定隨機種子策略[19],使每次試驗都能產生相同的輸入數據,保證每次運行時都能得到相同的結果。為避免產生過學習的情況,設置最大訓練輪數為10個epoch[20],訓練每輪迭代的批量大小設為1,則360個訓練樣本每輪迭代360次,共計迭代3 600次。模型權重采用kaiming正態分布隨機初始化策略,基于動量的隨機梯度下降(Stochastic Gradient Descent,SGD)算法[21]進行網絡更新,動量因子、初始學習率和權重衰減系數分別為0.99、0.01和0.000 01。采用動態學習率衰減訓練策略,即在每個epoch訓練完成后,就在驗證集上進行測試,記錄其F1-Score值。當檢測到3個epoch下驗證集的F1-Score值未發生上升時,將學習率調整為原來的10%,迭代輪數達到最大值后停止訓練。

3.1.4 模型評價指標

為量化分析西瓜果實分割模型的性能,采用語義分割的標準化評價指標衡量模型在驗證集與測試集的表現,主要包括準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1-Score值(F1)和交并比(Intersection over Union,IoU),具體計算公式如式(9)~式(13)所示。

Accuracy=TP+TNTP+TN+FP+FN(9)

Precision=TPTP+FP(10)

Recall=TPTP+FN(11)

F1=2×Precision×RecallPrecision+Recall(12)

IoU=TPTP+FP+FN(13)

式中:TP——分類正確的果實像素數;TN——分類正確的背景像素數;FP——背景像素被錯誤分類為果實像素的個數;FN——果實像素被錯誤分類為背景像素的個數。

在實際評估分割方法性能時,模型分割時間也是一個不可或缺的指標,所以使用單幅圖像分割時間t作為評估標準。

3.2 模型性能評估

經過10 epoch訓練后,驗證階段的模型分割性能指標如表1所示。由表1可知,改進U-Net模型的精確率和召回率分別為94.37%和91.01%,綜合評價指標F1-Score值和交并比分別達到92.66%和86.32%,驗證損失值為0.022,表明該模型具有較高的分割精度。

3.3 不同分割方法對比

為進一步驗證所提方法對無人機西瓜圖像果實分割的有效性,選擇傳統FCN8s網絡模型和傳統U-Net網絡模型作對比測試。以測試集中的120幅圖像作為輸入,采用模型評價指標分別對不同分割方法進行定量分析,各方法在120幅測試集圖像上評價指標的平均值如表2所示。

表2中的試驗結果表明,傳統U-Net模型的召回率較高,但精確率較低,這表明U-Net模型的西瓜果實提取不夠準確。改進U-Net模型在保證召回率適中的情況下將精確率提升了3.63個百分點,較好地實現了精確率與召回率的平衡,因此,改進U-Net在綜合評估指標F1-Score值和交并比上也有較明顯的提升,相較于傳統FCN8s模型以及傳統U-Net模型,F1-Score值分別提高2.45個百分點和1.83個百分點,交并比分別提高3.23個百分點和2.15個百分點。綜合五種精度評估結果,改進模型的誤分割情況減少,整體分割性能優于其他算法,進一步證明該模型解決無人機圖像西瓜果實分割問題的有效性。改進U-Net模型的單幅圖像分割時間為0.145 s,與傳統U-Net模型相差不大,總體耗時有較小增加,這是由于注意力模塊的引入,計算注意力權重存在一定的耗時。

為更直觀比較傳統FCN8s模型、傳統U-Net模型及改進U-Net模型的提取效果,采用不同方法在測試集西瓜圖像上進行分割結果比較,如圖7所示。

由圖7可以看出,FCN8s模型能夠粗糙地將西瓜果實從背景中提取出來,但分割的效果不是很好。由于光照陰影、葉片遮擋和雜草干擾的影響,存在一定程度的誤分割現象,果實區域也存在較小的孔洞。U-Net模型分割出的果實區域與實際果實區域基本一致,果實邊緣分割也較為平滑,但分割結果仍然不夠準確,仍存在少量的區域識別錯誤現象,將背景區域識別為果實區域。改進U-Net模型基本能把不同目標區域劃分開,且具有更少的噪聲點。對西瓜果實提取的錯誤較少,分割的結果在目標的邊界和形狀上相比傳統U-Net模型要更加精細。這是因為圖像的背景是分散的,改進U-Net模型通過增加雙注意力機制,學習與背景相對應的像素之間的長期依賴關系可以幫助網絡降低誤分率。同時,通過增加高效通道注意力機制,使得模型能夠學習到更多較為細節的特征信息,從而提高西瓜果實分割任務的準確性??傮w來說,改進U-Net模型能夠有效捕獲西瓜圖像中的果實特征,較好解決了誤分割和細節邊緣分割不精確的問題,具有良好的分割效果和泛化能力。

3.4 不同模型特征圖與熱力圖可視化效果對比

為更加直觀呈現模型所學習到的特征及圖像中某個區域的重要程度,更好地理解改進U-Net模型,在預測過程中分別對傳統U-Net模型及改進U-Net模型的最后一層卷積層進行特征圖、熱力圖可視化。熱力圖中的某個區域顏色越亮,表示網絡模型對該區域的關注度越強。以成熟前期的無人機圖像西瓜果實分割為例,得到如圖8所示的結果。

觀察模型的特征圖、熱力圖,發現兩種模型對西瓜果實的學習效果及關注區域不同。從圖8(a)和圖8(b)中觀察到傳統U-Net模型對目標的局部細節區域學習效果存在明顯缺陷,關注的區域包含西瓜果實的部分區域和背景區域,存在關注區域錯誤的問題。具體表現在相似度高的瓜秧被識別成果實區域。從圖8(c)和圖8(d)中觀察到改進U-Net模型對目標的主體區域學習效果更好,對目標位置邊緣的判斷更加準確,且熱力圖呈現更加集中,說明對目標位置的關注程度更高,充分解釋了改進網絡的合理性。具體表現在模型定位到圖像中重要目標的位置,增強了對圖像深層信息的提取能力;引入注意力機制,使得網絡模型更關注于西瓜果實區域,有效抑制了光照不均勻、特征不顯著等因素干擾。

4 結論

為解決無人機西瓜圖像因存在田間背景復雜、光照不均勻、特征不顯著等情況容易導致誤分割和細節邊緣分割不精確的問題,提出一種基于深度學習的西瓜果實語義分割模型。

1) 采用U-Net模型作為基礎網絡,分別在下采樣和跳躍連接部分進行了改進,并在自建西瓜分割數據集上進行了訓練、驗證和測試,進一步提升模型的分割性能。

2) 在測試集上的結果表明,改進U-Net模型的準確率、精確率、召回率、F1-Score值和交并比分別為99.03%、92.67%、90.55%、91.21%和84.71%,單幅圖像分割時間為0.145 s。與FCN8s模型和U-Net模型相比,該模型的分割精度有所提升。

3) 采用特征圖和熱力圖從模型學習效果及關注區域的位置和強度進行可視化解釋,進一步驗證了改進網絡的合理性。

4) 與其他兩種模型相比,改進U-Net模型能較好解決誤分割和細節邊緣分割不精確的問題,分割結果中的噪聲點較少,具有良好的分割效果和泛化能力,為利用無人機遙感技術進行田間西瓜果實計數管理和產量預估提供理論基礎和技術支撐。

參 考 文 獻

[1]Midtiby H S, Pastucha E. Pumpkin yield estimation using images from a UAV [J]. Agronomy, 2022, 12(4): 964.

[2]Zou K, Chen X, Zhang F, et al. A field weed density evaluation method based on UAV imaging and modified U-Net [J]. Remote Sensing, 2021, 13(2): 310.

[3]朱啟兵, 張夢, 劉振方, 等. 基于點云配準的盆栽金桔果實識別與計數方法 [J]. 農業機械學報, 2022, 53(5): 209-216.Zhu Qibing, Zhang Meng, Liu Zhenfang, et al. Identification and counting method of potted kumquat fruits based on point cloud registration [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(5): 209-216.

[4]He L, Fang W, Zhao G, et al. Fruit yield prediction and estimation in orchards: A state-of-the-art comprehensive review for both direct and indirect methods [J]. Computers and Electronics in Agriculture, 2022, 195: 106812.

[5]官大文, 王春源, 王駿發. 基于無人機機器視覺的西瓜偵測創新農場管理模式[J]. 海峽科學, 2020(11): 62-68.Guan Dawen, Wang Chunyuan, Wang Junfa. Watermelon detection and innovative farm management mode based on UAV machine vision [J]. Straits Science, 2020(11): 62-68.

[6]Ekiz A, Arca S, Bozdogan A M. Classification and segmentation of watermelon in images obtained by unmanned aerial vehicle [C]. 2019 11th International Conference on Electrical and Electronics Engineering (ELECO), 2019: 619-622.

[7]Li Q, Jia W, Sun M, et al. A novel green apple segmentation algorithm based on ensemble U-Net under complex orchard environment [J]. Computers and Electronics in Agriculture, 2021, 180: 105900.

[8]Zhao T, Wang Z, Yang Q, et al. Melon yield prediction using small unmanned aerial vehicles [C]. Autonomous Air and Ground Sensing Systems for Agricultural Optimization and Phenotyping Ⅱ. SPIE, 2017, 10218: 53-58.

[9]Kalantar A, Edan Y, Gur A, et al. A deep learning system for single and overall weight estimation of melons using unmanned aerial vehicle images [J]. Computers and Electronics in Agriculture, 2020, 178: 105748.

[10]薛君蕊, 王昱潭, 曲愛麗, 等. 基于改進FCN-8s的靈武長棗圖像分割方法[J]. 農業工程學報, 2021, 37(5): 191-197.Xue Junrui, Wang Yutan, Qu Aili, et al. Image segmentation method for Lingwu long jujubes based on improved FCN-8s [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(5): 191-197.

[11]Qian C, Liu H, Du T, et al. An improved U-Net network-based quantitative analysis of melon fruit phenotypic characteristics [J]. Journal of Food Measurement and Characterization, 2022, 16(5): 4198-4207.

[12]Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation [C]. International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, Cham, 2015: 234-241.

[13]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation [J]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3431-3440.

[14]Wang Q, Wu B, Zhu P, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 11531-11539.

[15]Li R, Zheng S, Duan C, et al. Multistage attention ResU-Net for semantic segmentation of fine-resolution remote sensing images [J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 1-5.

[16]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]. Advances in Neural Information Processing Systems, 2017, 30.

[17]Fu J, Liu J, Tian H, et al. Dual attention network for scene segmentation [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 3146-3154.

[18]黃林林, 李世雄, 譚彧, 等. 基于改進卷積神經網絡算法的路徑導航研究[J]. 中國農機化學報, 2022, 43(4): 146-152,159.

Huang Linlin, Li Shixiong, Tan Yu, et al. Research on farmland route navigation based on an improved convolutional neural network algorithm [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(4): 146-152, 159.

[19]王濤. 基于光譜技術的土壤理化信息檢測方法研究[D]. 杭州: 浙江大學, 2020.Wang Tao. Study on soil physical and chemical information detection methods based on spectral technology [D]. Hangzhou: Zhejiang University, 2020.

[20]王翔宇, 李海生, 呂麗君, 等. 基于U-net和可見光譜圖像的黃瓜褐斑病分割[J]. 光譜學與光譜分析, 2021, 41(5): 1499-1504.Wang Xiangyu, Li Haisheng, Lü Lijun, et al. Segmentation of cucumber target leaf spot based on U-Net and visible spectral images [J]. Spectroscopy and Spectral Analysis, 2021, 41(5): 1499-1504.

[21]Rakhlin A, Shamir O, Sridharan K. Making gradient descent optimal for strongly convex stochastic optimization [J].arXiv Preprint arXiv: 1109.5647, 2012.

基金項目:黑龍江省大學生創新創業訓練計劃項目(202010223007);黑龍江八一農墾大學校內培育課題(XZR2017—10)

第一作者:邱金凱,男,1998年生,河北滄州人,碩士研究生;研究方向為植物表型、計算機視覺和深度學習。E-mail: jinkai2020_2023@163.com

通訊作者:許秀英,女,1978年生,吉林永吉人,碩士,副教授;研究方向為農業機器人。E-mail: xxy_byau@163.com

猜你喜歡
注意力機制深度學習
面向短文本的網絡輿情話題
基于自注意力與動態路由的文本建模方法
基于深度學習的問題回答技術研究
基于LSTM?Attention神經網絡的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
InsunKBQA:一個基于知識庫的問答系統
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合