?

基于旋轉框表示的光學遙感圖像目標檢測

2024-03-27 16:21裴永濤粟長權
現代計算機 2024年1期
關鍵詞:卷積精度樣本

裴永濤,張 梅,粟長權

(貴州財經大學信息學院,貴陽 550025)

0 引言

遙感圖像是指通過對地衛星以及航空飛機等對地拍攝得到的有關地球表面的圖像,對于地表資源監測有著極大的利用價值。遙感圖像目標檢測技術是遙感圖像智能解譯任務中的基石,對遙感圖像中感興趣的目標如飛機、船舶、汽車等進行分類和定位識別,在自然資源監測、環境變化檢測、智慧城市建設、智慧化農業發展等各個領域有著極為廣泛的應用。

傳統的遙感圖像目標檢測方法主要包括人工目視解譯判讀、模板匹配和機器學習方法等[1],人工目視解譯需要專業人員憑借知識經驗進行目視解譯判讀,主觀性強且耗時較長,其中光學遙感圖像中的目標由于受到云霧、天氣變化和成像高度的影響,增大了專業人員對遙感目標檢測和識別的難度。模板匹配方法主要通過預設模板,計算模板與圖像之間的匹配相似度檢測目標,該方法面對不同的尺度遙感目標需要設計不同的模板,泛化能力較弱。機器學習方法通過采用不同大小的矩形滑動窗口對遙感圖像進行遍歷,篩選出感興趣的目標區域,然后通過分類器篩選得出最終的遙感目標檢測結果,該方法面對不同尺度的目標檢測有效,但檢測精度較低。

近年來,隨著人工智能技術以及深度學習的蓬勃發展,基于深度學習的通用目標檢測算法逐漸興起,該類方法由于檢測精度較高、泛化能力好、魯棒性強且應用場景廣闊,被很多學者用于遙感圖像目標檢測,但遙感圖像中目標密集分布、小目標較多,目標尺度跨度大等問題也給遙感目標檢測任務帶來了較大的挑戰。

1 相關工作

當前,基于深度學習的目標檢測方法在多個應用領域已取得了長足進步,但在遙感圖像目標檢測領域中,由于遙感圖像目標分布密集、方向具有任意性等特點,通用的水平框遙感目標檢測算法在表示目標時,存在目標框攜帶較多的背景、框選不準確、密集目標框混疊等問題[2],因此,使用帶有角度的矩形旋轉框對遙感目標進行檢測逐漸成為研究熱點。

隨著高分遙感圖像數據獲取變得更加容易,基于卷積神經網絡的遙感圖像旋轉目標檢測算法發展迅速,這些算法大多都是從通用目標檢測算法延伸而來,Jiang 等[3]在經典的Faster RCNN 算法基礎上,提出斜框檢測算法R2CNN(rotational region CNN),該算法對感興趣區域(region of interest,ROI)采用多尺度的池化,提取任意方向目標的特征,并預測傾斜最小區域框,一定程度上能夠實現傾斜目標預測,但該方法對于傾斜角度較大的目標預測效果并不準確。Ding 等[4]提出的RoI-Transformer 通過對RoI進行空間變形,并在有向邊界框(oriented bounding box,OBB)標注監督下學習變形參數,模型較為靈活且對任意方向的遙感目標檢測效果較好。Yang等[5]提出的R3Det在RetinaNet[6]的基礎上進行改進,設計特征精細化模塊(feature refinement module,FRM)重構特征,有效解決了旋轉框表示目標時的特征錯位問題。Xie 等[7]通過對經典的區域建議網絡(region proposal network, RPN)進行改進,在對目標位置進行回歸時,采用中點偏移法表示目標旋轉框,預測中心點、寬、高以及兩個偏移量,針對遙感目標旋轉檢測任務簡單高效,但對于有向目標的表示較為復雜。Li 等[8]改進經典的一階段無錨框檢測算法FCOS[9],提出基于二維高斯分布的橢圓中心采樣等方法,直接預測目標的中心點、寬、高和旋轉角度,使網絡模型更加簡單且易于部署。Li 等[10]提出有向表示點(oriented representative points,oriented reppoints)對任意方向的遙感目標進行表示,并設計有效的質量評估和樣本分配方案,能夠很好地從相鄰的遙感目標或背景噪聲中捕獲非軸對準特征。

上述方法采用不同的表征方式,對具有任意方向的遙感目標進行了很好的檢測和識別,但遙感圖像中存在目標密集、目標本身的極致長寬比、小目標較多等挑戰,實現對遙感目標的精確檢測還存在一定困難。為實現準確的遙感目標的旋轉框檢測,本文對經典的一階段目標檢測算法ATSS[11](adaptive threshold sample selection)進行改進,提出自適應閾值樣本選擇的顯式旋轉框檢測算法ERDet(explicit rotation box detection based on adaptive threshold sample selection),ERDet 結合Quan 等[12]提出的顯示視覺中心(explicit visual center,EVC),提取全局依賴關系與局部特征信息,在訓練過程中,采用自適應閾值的樣本選擇策略,劃分正負樣本進行訓練,并采用長邊定義法Dle135表示目標,實現對遙感目標的旋轉框預測,在DOTA-v1.0數據集上的實驗結果表明,本文方法有效實現了對遙感圖像目標的旋轉檢測,具有較高的精度。

2 研究方法

2.1 整體網絡結構

ERDet 基于水平目標檢測算法ATSS 進行改進,整體網絡結構如圖1 所示。首先,將大小為1024×1024 的圖片輸入到模型的主干網絡Backbone,主干網絡Backbone 采用經典的ResNet50 網絡,產生不同大小的特征圖C1~C5(為表達清晰,圖1 中省略了C1 和C2 特征圖)。其次,由于主干網絡提取的高層特征圖語義信息較為豐富,因此將主干網絡提取到的最高層特征圖C5(原圖大小的1/32)送入顯示視覺中心結構EVC,實現層內特征交互融合。再者,為了實現圖像的全局信息與局部信息的有效融合,將特征圖C3~C5 送入特征金字塔網絡(feature pyramid network,FPN),進行層間特征交互融合。最后,特征金字塔產生的5 個特征圖P3~P7送入檢測頭結構中,預測目標的類別和位置。

2.2 顯示視覺中心EVC

遙感圖像中的目標分布密集,尺度差異大,僅僅使用特征金字塔網絡FPN 并不能很好地融合全部特征,FPN 僅僅實現了不同層之間(C3~C5)的特征交互融合,為了更好地應對遙感圖像中的密集目標預測任務,本文結合Quan 等[12]提出的EVC 結構,對高層特征圖C5 進行層間特征融合,EVC 的結構如圖1 所示,由輕量化的多層感知器(lightweight multi-layer perceptron,lightweight MLP)架構和可學習的視覺中心(learnable visual center,LVC)組成,該結構具體構成如圖2 所示,對于特征圖C5,通過卷積核大小7 × 7 的卷積、批歸一化和ReLu 函數,擴大感受野,對應圖2 中的CBR(7 × 7)結構,計算如公式(1):

式(1)中,C5 代表骨干網絡傳入的最高級特征圖,Conv7×7代表卷積核大小為7 × 7 的普通卷積,σ代表ReLU 激活函數,然后得到輸出特征圖F,將F通過并行的輕量化MLP 和LVC 結構,分別提取遙感圖像的長距離依賴關系和局部特征,其中輕量化的MLP 結構能夠很好地提取長距離依賴關系,檢測到擁有極致長寬比特點的遙感目標。該結構主要包含兩個殘差模塊,為使模型有更強的魯棒性,兩個模塊均包含通道調整Channel Scaling 與多分支結構隨機刪除DropPath 操作,第一個模塊和第二個模塊的計算見式(2)和式(3):

圖1 ERDet整體網絡結構

上述公式中,DConv表示深度可分離的卷積,卷積核大小為1 × 1,GN為分組歸一化,CMLP(channel multi-layer perceptron)表示通道級多層感知器,為表達清晰,未將通道調整Channel Scaling 和多分支隨機刪除DropPath 加入式(2)和式(3)中。

可學習的視覺中心LVC 通過內部字典編碼與全連接層,可學習到遙感目標判別性的局部特征,固有字典codebook 主要包括兩個部分,一是固有的k個碼字,即:B={b1,b2,…,bk};二是一組比例因子,即:S={s1,s2,…,sk}。具體而言,將得到的特征圖F,先經過1 × 1 的卷積,然后通過卷積核大小3 × 3 的卷積、批歸一化和ReLU 函數進行編碼,最后將編碼后的特征輸入到codebook 中,假設編碼后的特征圖大小為N,(N=H×W),H和W分別是特征圖的高和寬。)通過比例因子S,第k個碼字關于整個圖像的信息可通過公式(4)計算:

式(4)中,是編碼后特征圖的第i個像素點,bk是第k個可學習的碼字,sk是第k個縮放因子。后面采用帶有ReLU 激活函數和平均層的批歸一化層,即圖2中的?(?),用于融合所有碼字的信息。關于所有碼字對整個圖像的特征信息計算如公式(5):

式(5)中,ek是第k個碼字關于整個圖像的信息,在得到碼本的輸出e之后,將其送入到全連接層和1 × 1 的卷積層,預測突出類別的特征,并通過通道級乘法和通道級加法,得到LVC 的最終輸出。

最后,將LVC 的輸出與輕量化的MLP 輸出進行拼接,采用1 × 1 的卷積調整特征圖的通道數,得到P5,此時的P5 既包含了整個遙感圖像的全局信息,提取了眾多目標更多的長距離依賴關系,又保留更多的遙感圖像局部信息,使得角落區域的目標更容易被檢測到,進一步將P5 送入特征金字塔,使得每層的特征圖能夠融合圖像的全局信息與局部信息。

圖2 顯示視覺中心EVC

2.3 旋轉目標檢測頭

遙感圖像中的目標具有任意方向,針對遙感圖像的目標檢測任務,使用旋轉框表示目標,相對于水平框表示而言是更好的選擇,為了更加準確地檢測到遙感圖像目標,在訓練過程中,采用自適應閾值的正負樣本選擇策略劃分正負樣本,對真實目標進行回歸、分類和預測旋轉角度。自適應閾值的正負樣本選擇策略具體邏輯如下:

(1)對于遙感圖像中的每個真實目標邊框(ground truth bounding box,GT BBox),將特征金字塔輸出的每一層中離GT BBox 的中心距離最近的K個預設錨框加入該GT BBox的候選樣本集合,對于5 層金字塔而言,共計有5 ×K個候選樣本。實驗中默認K的取值為9。

(2)計算所有候選樣本與GT BBox 的交并比(intersection over union,IoU),并統計這一組IoU 的均值m和方差v,自適應閾值為m和v的和,記為t,即t=m+v。

(3)對GT BBox 的候選樣本集合進行篩選,對于IoU 值大于t的預設錨框,如果其中心點位于GT BBox 的內部,則分配為正樣本,否則分配為負樣本。通過該分配策略,能夠保證真實的遙感目標框具有足夠的正樣本進行訓練,能夠更好地對真實遙感目標進行預測。

遙感圖像目標的檢測是否準確,目標框的表示方法十分重要,常規的水平框檢測對目標表示主要由四個參數(x,y,w,h)構成,即目標框的中心點坐標(x,y)、寬w和高h,如圖3(a)所示,該方式對于任意方向的遙感目標而言,容易引入大量背景,且造成較近的目標框之間形成大量重疊。為此,對于遙感圖像目標,我們采用旋轉框表示方法中的長邊定義法Dle135對遙感目標進行框選,該表示方法主要由五個參數(x,y,w,h,θ)構成,如圖3(b)所示,旋轉框的最長邊w與X軸的夾角為θ,,當長邊在X軸上方時角度為負,在X軸下方時角度為正,采用該種表示方式,能夠很好地對具有任意方向的遙感圖像目標進行表示。

圖3 目標檢測框表示方法

3 實驗

本文采用切分之后的DOTA-v1.0 數據集(https://captain-whu.github.io/DOTA/dataset.html)進行實驗,輸入模型的圖片大小為1024 × 1024,切分后訓練集圖片共有15749張,驗證集圖片共有5297張,本文實驗環境為Ubuntu 18.04,基于PyTorch平臺開發的開源工具箱mmrotate,實驗硬件配置為兩塊12 GB 顯存的NVIDIA RTX3060 GPU、10th Gen Intel(R)Core(TM)i9-10900KF CPU 和64 GB 內存,DOTAv1.0 數據集中共標注了15 個遙感地物常見類別,如飛機、輪船、油罐、大型汽車等。實驗中主干網絡模型采用經典的ResNet50,損失函數為分類預測損失與回歸預測損失相加,如公式(6):

式(6)中,λ1和λ2為可調節的超參數,實驗中選取λ1= 1 和λ2= 1,Lcls為分類損失,采用Focal Loss,Lreg為回歸損失,采用L1 Loss。實驗中設置訓練的迭代次數為12個epoch,采用的優化器算法為隨機梯度下降算法,學習率初始設置為0.0025,在第8 個epoch 和第11 個epoch 分別下降10 倍,動量初始設置為0.9,衰減參數為0.0001。

實驗評測結果指標選取平均精度mAP 和單類別精度AP,實驗結果見表1(所示精度均為百分比制,均只保留一位小數,PL~HC 均為遙感目標單類別精度AP 的簡寫), 其中的Rotate-ATSS 表示僅使用長邊定義法Dle135的自適應閾值樣本選擇目標檢測算法,從表1可以看出,添加了顯示視覺中心EVC的ERDet整體平均精度較之前的Rotate-ATSS提升了2個百分點,從其中單類別精度AP可以看出,針對大型汽車LV和輪船SH 等矩形目標提升較大,表明了EVC 能夠更好地提取到圖像的全局信息與局部信息。

測試結果可視化如圖4所示,其中綠色框表示錯檢或漏檢區域,右下角為綠色框區域的放大圖示,與Rotate-ATSS 算法相比,添加了顯式視覺中心EVC 的ERDet,能夠針對不同的物體,獲取不同的局部特征和長距離依賴關系,如第一行所示,ERDet 能夠正確對呈傾斜的長矩形大型汽車進行角度預測,而第二行和第三行則能比Rotate-ATSS 檢測到朝向復雜的飛機和微小模糊的小型汽車。

圖4 DOTA-v1.0旋轉框可視化檢測結果

表1 平均精度mAP和單類別精度AP檢測結果(%)

4 結語

本文結合顯示視覺中心EVC,提取復雜且尺度不同的目標的全局信息與局部信息,使用長邊定義法Dle135表示目標,對自適應閾值正負樣本采樣策略的水平目標檢測算法進行改進,提出了ERDet 對遙感目標進行旋轉檢測,在DOTA-v1.0 數據集上的實驗表明,ERDet 能夠很好地對不同尺度的感興趣目標進行正確旋轉檢測,但ERDet 對于不同類別的目標檢測精度有所差異,主要是由于復雜的背景以及訓練樣本不均衡所導致的,下一步將結合不同尺度的卷積核來提取目標更豐富的信息,完成更準確的遙感目標旋轉檢測。

猜你喜歡
卷積精度樣本
基于3D-Winograd的快速卷積算法設計及FPGA實現
用樣本估計總體復習點撥
從濾波器理解卷積
推動醫改的“直銷樣本”
基于DSPIC33F微處理器的采集精度的提高
基于傅里葉域卷積表示的目標跟蹤算法
隨機微分方程的樣本Lyapunov二次型估計
GPS/GLONASS/BDS組合PPP精度分析
村企共贏的樣本
改進的Goldschmidt雙精度浮點除法器
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合