?

針對遙感圖像目標檢測的改進YOLOv5s 算法

2024-04-01 06:41林子翔
電視技術 2024年1期
關鍵詞:特征值尺度階段

林子翔

(福州大學 先進制造學院,福建 泉州 362200)

0 引言

遙感技術是指通過航空、航天或人造衛星等機載平臺上的傳感器隔空遠距離獲取地面目標的電磁特性將其處理成遙感圖像,并針對獲取的遙感圖像進行加工處理以及應用分析的綜合性技術。針對遙感圖像的諸多應用中,目標檢測一直是遙感圖像處理領域的一個基礎性問題和熱門研究方向,在資源勘探、海岸帶調查、環境污染監測和交通堵塞等方面均有應用。與自然圖像相比,遙感圖像背景信息復雜、尺度變化大、小目標分布密集、容易受環境因素影響的特點為其檢測帶來諸多困難。

現有主流的通用目標檢測方法通常分為一階段方法和兩階段方法兩類。兩階段方法追求準確性,一階段方法追求速度?,F有的二階段目標檢測算法主要有R-CNN[1]、Fast R-CNN[2]、Faster R-CNN[3]等,一階段目標檢測算法主要有YOLO[4]、YOLOv2[5]、YOLOv3[6]、YOLOv4[7]、YOLOv5、SSD[8]等。 經過多年的發展,一階段算法的準確性并不比兩階段算法低,并且在速度上顯示出巨大的領先優勢。

盡管通用目標檢測在自然圖像上取得了很大的精度和效率提高,但是不同應用場景中的目標物體在尺寸和環境因素等方面存在著差異,這種差異性給特殊環境下的檢測任務帶來了很多難點。例如,雖然遙感圖像的目標檢測任務和自然場景圖像的目標檢測任務相似,但將通用目標檢測方法遷移到遙感數據集上效果并不理想,主要是由于遙感圖像的特點造成的。為此,本文提出一種更適合遙感圖像的目標檢測算法,以提高其檢測精度。

1 方法

1.1 YOLOv5s 算法

YOLOv5 是一種基于anchor 的目標檢測網絡,優勢在于其均值權重文件較小,訓練時間短,推理速度較快,而且具有較高的精度和健壯性。在科研領域和工業界,YOLOv5 獲得廣泛的應用和認可。其網絡結構主要由輸入端、骨干神經網絡、頸部網絡以及輸出端4 個部分組成。首先,在模型的輸入端,要求輸入圖像的尺寸必須被縮放為640×640??紤]到如DOTA 數據集同張圖像上目標分布不均問題,在數據預處理階段采用了Mosaic 數據增強方法,通過隨機選擇4 張圖片進行縮放和拼接進行改善。其次,用于特征提取的骨干神經網絡采用了切片結構(Focus)、瓶頸層(C3)和空間金字塔池化等模塊。再次,頸部網絡借鑒了PANet[9]的思想,提取的特征能夠雙向地將淺層細節特征信息和深層高級語義信息進行融合。最后,輸出端將融合不同尺度信息的特征圖送入目標位置與類別預測層,獲取最終的檢測結果。

1.2 CDA-YOLOv5s 目標檢測算法

在YOLOv5s 的基礎上,本文提出了一種適用于遙感圖像領域的CDA-YOLOv5s 目標檢測算法,整體結構如圖1 所示。為了改進遙感圖像的目標檢測準確性,本文采用了一些新的方法。首先,本文通過引入混淆鑒別注意力機制(Confusion-Distinguishable Attention,CDA)形成新的卷積模塊CCDA,如圖1 所示,增大目標與背景之間的差異、降低混淆度,同時提高對目標的關注度。通過融合不同尺度低混淆度特征的方式豐富不同尺度上的特征信息,以此減少漏檢和誤檢的情況。其次,在原結構的頸部添加小目標檢測層,將3 個尺度特征檢測頭增加到4 個,在160×160 特征圖上增加新的檢測頭,以解決小目標分布緊密、漏檢測的現象,從而提高算法的多尺度目標檢測性能。

圖1 改進YOLOv5s 的遙感目標檢測算法網絡結構

1.3 混淆鑒別注意力機制模型

遙感圖像背景信息復雜且容易受環境因素影響,導致誤檢和漏檢問題的出現[10]。本文在YOLOv5s 骨干網絡的卷積塊中加入CDA 機制,通過增強目標與背景之間的差異,給予目標更多的關注度,獲取更具判別性的特征信息,以解決上述特點導致的問題,其結構如圖2 所示。

圖2 CDA 模塊

具體步驟如下。首先將輸入圖像特征xin定義為(c,h,w),其中c表示當前圖像的通道維度數,w表示圖像的寬,h表示圖像的高。其次,對xin通過降維方式將其變為(1,1,c×h×w)的一維特征數組,這里用xre表示。再次,對xre和其轉置矩陣通過矩陣相乘的方式獲取當前特征值與其他特征值之間的關聯度信息,并且用關聯度最高系數1 減去其所生成的二維的關聯度矩陣,獲得當前特征值與關聯特征值彼此不相關的關聯度殘差圖(c×h×w,c×h×w),并與一維特征數組xre進行余弦相似度計算獲得保留目標特征所獨有更具判別性的特征信息,其剔除關聯度殘差圖中關聯特征值與當前特征值不相關的特征信息的一維數組(1,1,c×h×w),將所獲得具有區別混淆特征信息的一維數組進行升維。[11]這里采用increase(·)表示升維,將其升維成三維數組(c,h,w),最后以點乘的方式與輸入圖像特征xin進行特征融合,獲得增強原輸入圖像鑒別易混淆目標特征信息的能力的xout特征圖,數學表達式為

2 實驗結果

2.1 實驗設置

實驗采用Linux 操作系統作為實驗平臺,采用Intel?Xeon(R) CPU E5-2678 v3 @ 2.50 GHz 的中央處理器(Central Processing Unit,CPU),2 個Nvidia GeForce GTX 2080Ti 的圖形處理器(Graphics Processing Unit,GPU),具有64 GB 內存以及24 GB顯存,編程語言采用Python 3.7,深度學習框架采用Pytorch-gpu1.8.0。訓練階段,本文采用隨機梯度下降法優化器進行優化,將初始學習率設置為0.001,根據訓練的收斂情況,微調學習策略和學習率??偟挠柧気啍禐?00 個epoch,學習率以0.005 衰減。在推理階段,首先對待檢測圖像進行圖像分割。其次,通過檢測模型獲取多尺度的預測分類和回歸結果。再次,將分割后的圖像進行拼接復原,并將結果統一在原圖上。最后,進行非極大值抑制后處理,得到最終的檢測結果。

2.2 數據集及評價指標

DOTA 數據集是一種專門用于遙感目標檢測的數據集,包含2 806 張航空圖像,涵蓋了15 個類別[12]。這些圖像的尺寸范圍從800×800 到4 000×4 000,可以顯示各種尺度和形狀的物體。圖像水平邊界框的高度范圍從10 像素到300 像素。本文在預處理階段采用了圖像分割的方法,以擴充數據集中的圖像數量。同時,為了避免尺寸過大的圖像在傳入輸入端時導致細節特征丟失,將分辨率較高的圖像切分為尺度較小的圖像[13]。對于分辨率過低的圖像,采用填充0 的方式將其填充到640×640尺寸。最后,將擴充后的數據集按照8 ∶2 的比例劃分為訓練集和測試集。本實驗通過平均精度(Average Precision,AP)對同類別目標在各個算法檢測表現進行評估,通過平均精度均值(mean Average Precision,mAP)來對不同算法在DOTA 數據集上的整體表現進行評估。

2.3 實驗結果及分析

實驗結果如表1 所示不僅評估了本文所提出的方法在DOTA 數據集上的性能,還將其與6 個主流的模型進行了比較。由表1 可知,所提出的算法在棒球場、橋梁、小型車輛、大型車輛、籃球場、環形路及口岸這些與周圍背景混淆度較高以及目標較小類別的檢測性能高于主流的一階段和二階目標檢測算法,說明所提算法在針對遙感目標存在的目標與背景相似度較高以及小目標分布緊密、漏檢測問題得到改善。同時,改進的YOLOv5s 算法相對現有其他改進的TPH-YOLOv5、YOLOv5-MFF 具有更優的檢測性能,mAP 比原始YOLOv5s 算法提升了4.1%。

表1 不同算法在DTOA 數據集的檢測結果比較 單位:%

3 結語

針對目標檢測在遙感圖像領域存在的問題,本文提出了一種改進的YOLOv5s 算法,解決了小目標分布緊密、漏檢的現象。通過實驗對比,在DOTA數據集上,本文所提出的算法不僅在YOLOv5s 性能的基礎上提升了4.1%,而且檢測性能優于其他改進的YOLOv5s 算法,表明了本文算法在遙感目標檢測上的可行性。

猜你喜歡
特征值尺度階段
關于基礎教育階段實驗教學的幾點看法
一類帶強制位勢的p-Laplace特征值問題
單圈圖關聯矩陣的特征值
財產的五大尺度和五重應對
在學前教育階段,提前搶跑,只能跑得快一時,卻跑不快一生。
宇宙的尺度
基于商奇異值分解的一類二次特征值反問題
大熱的O2O三個階段,你在哪?
兩岸婚戀邁入全新階段
9
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合