?

一種融合多尺度混合注意力的建筑物變化檢測模型

2024-04-15 09:03于海洋滑志華宋草原謝賽飛
測繪工程 2024年1期
關鍵詞:變化檢測尺度注意力

于海洋,滑志華,2,宋草原,謝賽飛,景 鵬

(1.河南理工大學 自然資源部礦山時空信息與生態修復重點實驗室,河南 焦作 454003;2.黃河勘測規劃設計研究院有限公司,鄭州 450000)

遙感變化檢測是識別多時相遙感圖像之間差異性的過程,在城市管理、災害評估、土地利用變化檢測、環境監測等領域應用廣泛[1]。建筑物作為人類活動的主要場所和人工地理目標的代表,其變化檢測一直是攝影測量與遙感、人工智能等領域的研究熱點[2]。近年來深度學習技術在遙感圖像目標識別與分類中得到了推廣應用,部分學者開始關注其在遙感圖像變化檢測中的應用[3-6],并取得了一定的研究成果。

目前變化檢測方法大致分為兩類:傳統方法和基于深度學習方法。傳統的遙感圖像變化檢測主要采用圖像差分、比值、變化向量分析(CVA)等方法,葉沅鑫[7]和劉陸洋[8]等分別將鄰域信息、結構特征和對數比差異圖、均值差異圖以及主成分分析應用于變化檢測,檢測精度有一定的提升。但上述方法部分依賴于手工構建的特征表示,對復雜的高層次變化信息的建模能力有限,并且當變化類和非變化類的特征重疊或其統計分布建模不準確時,檢測結果會產生較大誤差,具有一定的局限性。近年來,基于深度學習的遙感圖像變化檢測方法發展較快,與傳統方法相比,深度學習方法可以更好地處理高分辨率遙感圖像所包含的海量信息?;谏疃葘W習的遙感變化檢測主要采用孿生結構、編碼-解碼結構等方法,如Fang等[9]提出了一種密集連接孿生結構網絡SNUNet-CD,該網絡通過編碼器和解碼器之間的密集連接,減輕了神經網絡深層定位信息損失的問題。Zheng等[10]提出了一種高頻注意力引導孿生網絡HFA-Net,該網絡主要由兩個部分組成,即空間注意力(SA)和高頻增強(HF)。雖然該模型較有效地改善建筑物邊緣細節問題,但高頻注意力模塊導致模型參數量增加較大,模型計算量開銷增加。Zhu等[11]提出了一種孿生全局學習(Siam GL)框架,利用共享參數的孿生架構提取雙時態遙感圖像特征;全局分層(G-H)采樣機制解決樣本不足的不平衡訓練樣本問題,降低了對數據量的要求,但檢測精度有待提高。為了解決建筑物變化檢測需要大量由雙時相圖像及其變化圖組成的標記數據的局限性,Sun等[12]提出了一種融合圖注意機制的孿生嵌套模型SANet,并采用半監督方式訓練模型,該方法顯著降低了對大型數據集的依賴性,降低了數據采集處理成本,但模型總體精度仍弱于全監督方法。張翠軍[13]針對圖像背景復雜的問題,提出了一種在特征提取部分用非對稱卷積塊來代替標準卷積的建筑物變化檢測方法,結果表明F1分數有明顯提升。綜上所述,深度學習允許基于多個處理層構建的模型學習具有多個抽象級別的數據樣本表示,與貝葉斯[14]、支持向量機(SVM)[15]、隨機森林[16]和決策樹[17]等傳統機器學習模型相比,具有更多的學習優勢。

目前的變化檢測方法除上述的局限性外還往往側重于深層語義特征的提取,而忽略了像元之間豐富的時空信息,導致成像光照變化及配準誤差等極易影響算法精度。文中通過采用一種混合注意力機制,用于捕捉豐富的空間-時間信息,獲得光照不變量和配準誤差的特征。同時考慮到變化對象具有不同的尺度,為了更好地提取各層級特征,提出構建一種多尺度的混合注意力模塊,通過對原始輸入圖像進行區塊劃分,并對每塊子區域引入混合注意力機制,以獲得不同尺度的細節特征,增強模型準確性及魯棒性。

1 研究方法

1.1 網絡模型結構

建筑物變化檢測處理流程可以分為3步:①數據預處理,對于獲取的原始數據首先需要進行分割,以滿足電腦硬件的限制。同時需進行數據增強(翻轉、旋轉、高斯模糊),以滿足模型訓練所需的數據量。②訓練并優化網絡模型,通過梯度更新和反向傳播算法優化網絡模型。③模型測試,對訓練好的模型進行泛化實驗,驗證模型的有效性。

圖1展示了所提出方法的總體結構。該模型主要包括3個部分,特征提取模塊、混合注意力模塊、評價度量模塊。特征提取模塊(一種輕量化的孿生網絡結構)從輸入的高分辨率遙感影像對中獲取特征圖X1,X2∈RC×H×W,其中H,W是特征圖的高、寬,C是每個特征向量的通道維度。將所獲取的特征圖融合為X,并送入混合注意力模塊,通過該模塊計算得到相似矩陣A,并經過矩陣乘法和reahape得到更新后的特征圖Z1,Z2。調整更新后的注意力特征圖大小,恢復至輸入圖像大小,利用評估度量模塊計算兩張特征圖里每個像素對的距離,最終生成距離圖Di,j,并與閾值進行比較得到二值圖(0:未變化,1:變化)。

圖1 變化檢測模型結構

1.2 輕量化的孿生特征提取模塊

遙感圖像變化檢測是一項基于像素級預測的二分類(變化、不變化)任務。在特征提取結構中(見圖2),上下文語義引導模塊(context guidance block,CGB)采用平行擴張卷積來替代標準卷積,同時利用深度可分離的方式進行計算,顯著減少了模型參數量,提高了模型效率。同時,上下文語義引導模塊可以獲取不同范圍內的局部上下文語義信息。網絡中的高層特征包含豐富的語義信息,但位置信息較為粗略,低層特征包含豐富的位置、細粒度等信息,但缺乏語義信息。因此,本文將深層語義信息和淺層空間信息進行融合,以產生更為精細的特征表示。輕量化孿生特征提取網絡由4個復合層組成,每個復合層分別包含[3, 3, 8, 12]個CGBs。輸入數據X經局部和全局語義信息提取后送入由平均池化層、非線性層和sigmoid層組成的結構中用于通道交互和全局信息提取??梢员硎緸?

圖2 孿生特征提取模塊結構

(1)

深度可分離卷積(depthwise separable convolution,DSC)[18]由逐通道卷積和逐點卷積兩部分組成(見圖3)。首先進行逐通道卷積,它對輸入的特征圖的每個通道分別使用一個卷積核,然后將所有卷積核的輸出再進行拼接,最終得到該部分的輸出結果。在逐點卷積中需要使用1×1×C的卷積核對逐通道卷積輸出的結果進行計算,C為上層輸出結果的通道數。逐點卷積能夠讓DSC自由的改變輸出通道的數量,同時也能對上層輸出的特征圖進行通道融合。

圖3 深度可分離卷積結構

標準卷積、逐通道卷積、逐點卷積和深度可分離卷積的參數量計算如式(2)~(5)所示。由算式可知,深度可分離卷積與標準卷積參數量的比值為1/N+1/(K×L),N為輸出特征圖的通道數,說明DSC的計算效率優于標準卷積。

(2)

(3)

SepConv(Xp,Xd,y)(i,j)=PointwiseConv(i,j)

(4)

((Xp),DepthwiseConv(X,y)(i,j)(Xd,y)).

(5)

其中,X為輸入數據;y為尺寸為K×L的卷積核;C為數據的通道數;(i,j)是每張圖像的像素數。

1.3 多尺度混合注意力模塊

為了充分利用輸入圖像對的上下文信息,構建了一種多尺度的混合注意力模塊,通過聚合不同尺度的通道-空間信息來生成多尺度注意力特征矩陣,提高模型識別精細細節的能力。在多尺度混合注意力模塊中,每個分支將特征圖均分為一定尺度的子區域,并在每個子區域中引入混合注意力模塊,以獲取每個子區域的注意力特征,然后將每個分支生成的不同尺度的注意力特征張量進行融合,生成多尺度注意力特征張量,并進行拼接。

如圖4(a)所示,將特征提取器獲取的特征圖送入混合注意力模塊中,該模塊包含兩部分,分別為空間注意力和通道注意力。

圖4 結構

1)首先,對輸入特征圖X進行全局平均池化操作以聚合不同通道的特征圖,同時生成的通道向量FC會對每個通道的特征信息進行編碼,最終生成通道注意力矩陣MC(X),如式(6)所示。為了驗證通道注意力的效果,使用多層感知機(MLP)對其進行評估,并在MLP之后增加批量歸一化(BN)層調整輸出尺寸。

MC(X)=BN(MLP(Avgpool(X))).

(6)

2)空間注意力模塊利用1×1卷積對輸入特征圖X進行降維,并在整個通道維度上進行合并和壓縮。然后利用兩個3×3的擴張卷積擴大感受野,使之能夠充分利用上下文時空語義信息,同時降低了模型參數量。最后,采用1×1卷積將特征圖簡化為空間注意力圖MS(X),并在空間注意力分支末尾應用BN層調節輸出結果尺寸??臻g注意力計算如式(7)所示。

(7)

其中,f代表卷積操作,下標代表卷積次序,上標表示卷積核大小。

將獲得的通道注意力圖MC(X)和空間注意力圖MS(X)進行組合,生成最終的3D注意力圖M(X)。由于MC(X)和MS(X)具有不同的尺寸,因此,首先將兩種注意力圖擴展為C×H×W,然后采用元素求和的方法進行組合,這樣更有助于梯度更新傳播。最后采用非線性函數sigmoid獲得[0, 1]范圍內的注意力特征圖M(X),將M(X)與輸入特征圖進行逐元素相加獲得更新后的特征圖Z,如圖1所示。

M(X)=σ(MC(X)+MS(X)).

(8)

式中,MC(X)∈RC是通道注意力;MS(X)∈RH×W是空間注意力。

如圖4(b),將混合注意力作為基礎注意力模塊(basic attention block, BAB)引入到多尺度分割特征圖中。

1)多尺度分割:多尺度混合注意力模塊(multi-scale attention block, MSAB)將原始特征圖X1,X2堆疊為特征張量X,然后送入3個分支,每個分支將特征張量均分為d×d個子區域,d=[1,2,5],并對每個分支引入BAB模塊。

2)引入混合注意力模塊:通過對多尺度分割所產生的每個特征圖子區域引入混合注意力模塊,以生成不同尺度的注意力特征。

3)特征融合:對不同尺度的輸出特征圖進行融合,并經過1×1卷積生成新的特征圖,再與原始張量X相加,產生更新后的張量Z。在混合注意力模塊中下采樣階段的卷積和非線性映射用于提取變化區域的顯著特征,最大池化層用于降低特征圖的分辨率,同時增大特征圖的感受野。

隨著下采樣層數的增加,感受野會逐漸增大,特征圖的判別能力會逐漸增強;上采樣使用雙線性插值將特征圖逐步恢復為原始大小。

1.4 評價度量模塊

深度度量學習涉及訓練網絡,以學習從輸入到嵌入空間的非線性變換。其中,相似樣本的嵌入向量更加相近,而不同樣本差距更大。為了評價由特征提取模塊提取、多尺度注意力模塊更新后的特征圖(Z1、Z2)之間的相似度,文中采用對比損失函數(Contrastive Loss函數)作為評價度量標準。Contrastive Loss函數能有效地處理孿生神經網絡中的數據對,表達式如下:

1/2(Y){max(0,m-DW)}2.

(9)

首先利用雙線性插值將更新后的特征圖Z1、Z2調整為大小相同,并作為位時圖像輸入評價度量模塊。然后根據像素對計算調整后的特征圖之間的歐氏距離,生成距離圖。通過生成的距離圖與閾值相比較,確定該像素點是否發生變化。

(10)

其中,下標i,j分別表示像素點位置;θ是分離變化區域的固定閾值;P為生成的變化圖,1表示變化,0表示未變化。

2 實驗數據與精度評價指標

2.1 數據集

數據集WHU-CD[19]選取的是新西蘭城市克賴斯特徹奇,覆蓋了2011年2月發生6.3級地震并在隨后幾年重建的區域。該數據集由2012年4月獲得的航拍圖像組成,其中包含20.5 km2的12 796座建筑物(2016年數據集中同一區域的16 077座建筑物)。遙感影像空間分辨率為0.2 m。

數據集LEVIR-CD[20]由637個高分辨率(VHR,0.5 m/px)的Google地球圖像對組成,大小為1 024像素×1 024像素。時間跨度為5~14年,圖像對土地利用有顯著變化,尤其是建筑增加。LEVIR-CD涵蓋各種類型的建筑,如別墅住宅、高大公寓、小型車庫和大型倉庫。LEVIR-CD總共包含31 333個單獨變化的實例。

2.2 數據預處理

由于電腦內存限制高分辨率遙感影像并不能直接用于變化檢測的數據集,需對數據進行預處理。

1)對遙感影像進行切片,設置切片大小為256像素×256像素,重疊度為0。其中雙時相的遙感影像為3通道的RGB圖像,標簽(label)為單通道的灰度圖(灰度值:0~255)。

2)為增強模型的泛化能力,對數據進行適當的數據增強處理,主要技術手段包括:翻轉、旋轉、色彩增強(減弱)、高斯模糊。

3)對數據增強后的數據集進行劃分,其中訓練集占70%,驗證集占10%,測試集占20%。

2.3 實驗環境與參數設置

實驗硬件采用Ubuntu18.04.5LTS操作系統,GPU采用RTX2080Ti,CPU采用Xeno(R)×5650,深度學習框架采用pytorch1.6、python3.6,CUDA版本11.4,CUDNN版本8.2.2。

在神經網絡訓練過程中參數不斷進行更新,但固定學習率不能適應所有參數的更新,為平衡不同參數的學習能力應動態調整學習率,文中采用Adam優化器更新網絡權重,模型訓練初始學習率設置為0.001,同時采用ReLU作為激活函數,迭代次數epoch=200。

2.4 精度評價指標

實驗結果精度評定采用總體精度(OA)、平均交并比(MIoU)、精確率(Precision)、召回率(Recall)及F1值。其中F1值能夠很好的兼顧精確率和召回率。算式如下:

(11)

(12)

(13)

(14)

(15)

式中:TP:真陽性(真實值為1,預測值也為1);TN:真陰性(真實值為0,預測值也為0);FP:假陽性(真實值為0,預測值為1);FN:假陰性(真實值為1,預測值為0);k為分類數。

3 實驗結果與分析

3.1 消融實驗分析

采用消融實驗對比分析改進模塊對模型性能的影響。對比對象包括不包含注意力模塊的骨干模型(Base)、融合混合注意力模塊的網絡(BAB)和融合多尺度混合注意力模塊網絡(MSAB),實驗數據集采用WHU-CD和LEVIR-CD。

圖5為WHU-CD數據集消融實驗不同網絡收斂情況統計對比。選取Precision、Recall、F1 3個代表性評價指標,分析不同模塊在WHU-CD數據集上迭代訓練過程中收斂情況。相較于基線模型和BAB模型,MSAB模型在迭代訓練過程中保持了最高的Precision和F1值。Recall值統計結果顯示,隨著迭代訓練次數的增加,僅融合注意力模塊的BAB模型性能有所下降,增加多尺度特征的MSAB模型能夠保持較高的精度。表1為WHU-CD數據集消融實驗測試精度對比統計結果。BAB模型相較于基線模型在Precision、MIoU、F1值上分別提升了6%、2.1%、3.9%。MSAB在BAB的基礎上分別提升了3.8%、3.6%、2.5%,證明改進模塊的有效性。

圖5 WHU-CD數據集消融實驗不同網絡收斂情況對比

為了保證模型具有良好的普適性,在LEVIR-CD數據集上也進行了消融實驗。實驗中不同網絡收斂情況對比,如圖6所示。從圖6統計結果可以看出,融合了多尺度混合注意力模塊的網絡在精確率(Precision)、召回率(Recall)、F1值評價指標上依舊優于基線模型和BAB模型,且召回率提升明顯。由表2測試統計結果可知,融合BAB模塊后的模型優于基線模型,平均交并比(MIoU)提高2.2%、F1值提高2.8%。進一步融合MSAB模塊后,每個評價指標均有提升,其中平均交并比達到87.9%,F1值達到88.1%,相較于基線網絡分別提升了5.6%、5.4%。試驗結果表明,融合多尺度混合注意力模塊后增強對變化像素識別能力的同時又提高了感受野,進一步提升模型識別精細特征的能力,通過增加實驗數據集種類,表明了本文所提方法具有良好的泛化能力。

表2 LEVIR-CD數據集消融實驗測試集結果對比

圖6 LEVIR-CD數據集消融實驗不同網絡收斂情況對比

3.2 與其他算法的對比試驗

通過實驗對所提方法進行綜合評估,并與其他優秀的變化檢測方法STANet[21]、IFNet[22]、FC-EF[23]、FC-Siam-conc[23]、FC-Siam-diff[23]和DSAMNet[24]進行對比。如表3所示,與6種變化檢測模型相比,采用融合多尺度混合注意力的輕量化模型進行建筑物變化檢測,可以實現更好的檢測分割精度。所提方法在WHU-CD數據集上的F1-score達到87.8%,優于其他對比模型,MIoU、Recall、OA等關鍵指標也均有不同程度的領先,其中Recall值提升5.6%。表4是基于LEVIR-CD數據集得到的測試結果,文中所提出的改進方法具有最優的F1、MIoU、Recall和OA統計值。

表3 不同變化檢測方法在WHU-CD數據集測試結果對比

表4 不同變化檢測方法在LEVIR-CD數據集測試結果對比

與WHU-CD數據集結果相比,LEVIE-CD數據集上的實驗精度有所提升,這主要是由于LEVIR-CD的數據量大于WHU-CD。由表3和表4可知,對比模型對數據量的變化較為敏感,性能損失程度較大,而所提方法在低數據量的測試中更加穩健,性能損失較小。

表5為骨干網絡參數和計算量的比較,因為本文所提骨干網絡層數為52層,與ResNet-50相似,通過對比可知文中所提骨干網絡無論在參數量還是計算量都具有明顯的優勢。圖7為不同模型的參數計算量統計,文中改進方法具有最低的計算量,相較于其他模型中計算量最小的FC-EF模型,計算量降低27.8%,具有較高的計算效率。上述算法對比實驗結果表明融合多尺度混合注意力機制的改進模型能夠兼顧處理多層次細節特征的同時又能充分利用豐富的上下文時空語義信息,降低計算復雜度,提升變化檢測精度。

表5 骨干網絡參數和計算量的比較

圖7 不同模型計算量比較

3.3 實驗結果可視化

圖8和圖9分別為WHU-CD和LEVIR-CD的部分可視化對比結果圖,包含大、中、小3種尺度的建筑物類型,白色代表前景(變化像素),黑色代表背景(未變化像素)。與真實標簽對比,FC-EF,FC-Siam-Conc和FC-Siam-Diff模型預測結果中,檢測建筑物邊緣模糊,精度較低。IFNet由于將通道注意力應用于解碼器每一級特征提取中,所以預測結果邊緣精細度相較于前3種模型有所改進。STANet模型采用孿生結構處理雙時相遙感圖像,且模型中的自注意力機制能較好的識別建筑物邊緣細節特征,相較于IFNet模型有所提升。DSAMNet模型集成了CBAM塊以在空間和通道兩個層面上獲得更具區分性的特征,并集成了深度監督層以獲得更好的特征提取,最終的結果相較于STANet有略微的提升。而文中所提方法在聚合上下文語義引導模塊的輕量化特征提取器的基礎上增加多尺度的混合注意力結構,使模型能更好地識別建筑物邊緣特征,預測標簽更加精細,降低了因識別變化特征不夠明確而造成的預測標簽邊緣粗糙、缺失的情況,提高了模型準確率。此外,對比模型存在一定的誤報率,主要原因在于道路或其他地物具有與建筑物相似的顏色,紋理特征,由于對比模型的感受野(RF)有限,較難辨別這些偽變化。最后,通過圖8(第4行)可知,對比模型對于微小尺度的變化不敏感,容易造成微小變化建筑物漏檢的問題。

圖8 WHU-CD可視化結果

圖9 LEVIR-CD可視化結果

圖10和圖11分別為基于WHU-CD和LEVIR-CD的誤差對比圖。通過對比可得FC-EF,FC-Siam-Conc和FC-Siam-Diff存在較多的漏檢(紅色)、多檢(藍色)的問題,總體模型精度較低;IFNet在多檢問題上有所改善,但依然存在多檢嚴重的問題;STANet和DSAMNet相較于前4種方法在漏檢、多檢問題上有明顯的改善。而文中所提方法漏檢(紅色)、多檢(藍色)的建筑物明顯少于對比模型,更加接近真實的變化情況。

圖10 基于WHU-CD的誤差圖對比 (褐色、綠色:正確檢測,紅色:漏檢,藍色:多檢)

圖11 基于LEVIR-CD的誤差圖對比(黑色、綠色:正確檢測,紅色:漏檢,藍色:多檢)

通過以上評價指標對比,表明本方法在預測標簽邊緣精細度、誤報率、召回率方面具有優勢。

4 結 論

針對建筑物變化檢測問題,提出了一種融合輕量化特征提取模塊和多尺度混合注意力機制的深度學習網絡模型,并在WHU-CD和LEVIR-CD公開數據集上進行了消融和對比實驗,結論如下:

1)通過與6種優秀的變化檢測方法對比,文中所提方法總體精度為97.0%、F1得分為87.8%、平均交并比為87.6%、召回率為90.9%,相較于對比模型表現最優,主要體現在變化建筑邊緣預測更加精細化,有效降低了微小建筑物漏檢率以及影像非真實變化所引起的錯誤檢測。表明文中所提方法在高分辨率遙感圖像建筑物變化檢測中效果較好,具有較高的精度。

2)文中所提方法具有最低的模型計算量,顯著提升了模型變化檢測效率。相較于STANet、IFNet、FC-EF、FC-Siam-conc、FC-Siam-diff和DSAMNet 6種對比模型,文中提出的方法模型計算量僅有5.22GFLOPs,相較于其他模型中計算量最小的FC-EF模型,計算量降低27.8%,具有較高的計算效率。

3)通過在WHU-CD、LEVIR-CD兩種數據集上進行測試,實驗結果相較于對比模型均達到了最優表現,證明了該方法具有良好的普適性以及魯棒性,模型泛化能力強。

今后研究將考慮融合多源數據特征進行變化建筑物的精確檢測與提取,彌補單一光學遙感圖像的局限性,進一步提高檢測精度。

猜你喜歡
變化檢測尺度注意力
用于遙感圖像變化檢測的全尺度特征聚合網絡
讓注意力“飛”回來
基于多尺度紋理特征的SAR影像變化檢測
財產的五大尺度和五重應對
基于稀疏表示的視網膜圖像對變化檢測
基于Landsat影像的黃豐橋林場森林變化檢測研究
“揚眼”APP:讓注意力“變現”
A Beautiful Way Of Looking At Things
宇宙的尺度
9
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合