?

融合卷積和上下文變壓器的遙感圖像配準

2024-02-22 07:45侯建行李鋮昊
計算機工程與設計 2024年2期
關鍵詞:特征提取殘差注意力

侯建行,陳 穎,李 翔,李鋮昊

(上海應用技術大學 計算機科學與信息工程學院,上海 201418)

0 引 言

遙感圖像配準就是將不同環境(時間、角度、傳感器的變化)下的兩幅或多幅圖像幾何對齊的過程。這是一項重要的任務,因為該技術在處理自然災害、追蹤地球表面環境變化、預估長時間跨度氣候變化等方面是非常重要的。配準方法主要有傳統的經典算法和端到端深度學習算法。

近年來,卷積神經網絡[1]的發展,在遙感圖像配準領域取得了重大進展。Yang等[2]提出使用VGG(visual geo-metry group)網絡作為圖像的特征提取網絡,通過增加可靠特征點數量來限制錯誤匹配。Kim等[3]提供了一種預訓練的殘差網絡,從遙感圖像中提取特征,并利用皮爾遜相關法改進匹配關系來適應時間和天氣對圖像的影響,取得了不錯的配準效果。Rocco等[4]提出的領域一致性網絡采用一系列4D卷積核來細化相關圖,這些核被訓練以捕獲兩個不同圖像之間的匹配模式,并且在過濾不正確匹配時非常有效。4D卷積消耗大量內存,執行時間長。為了解決這些問題,Rocco等[5]提出稀疏領域一致性網絡創建了稀疏4D匹配張量,并使用子流形稀疏卷積進行處理。卷積神經網絡通過卷積核提取圖像特征,然而傳統卷積核感受野很小,難以提取全局上下文信息,采用堆疊卷積層來增加感受野的方式很低效。在2020年,自然語言處理領域見證了變壓器(Transformer)在強大語言建模架構[6]中的興起,該架構以可擴展的方式觸發遠程交互。自注意力模塊可以有效捕捉全局上下文信息,獲得到更大的感受野。受此引導,提出殘差網絡與Transformer模塊集成的新穎特征提取架構,并提出四重注意力機制融入該架構,該方法驗證了對于具有復雜背景雜波和較大類內變化的遙感圖像,其具有強大的魯棒性。

1 相關理論

1.1 視覺中的Transformers

卷積神經網絡架構設計是基于離散卷積算子(例如,3×3或5×5卷積),這有效地施加了空間局部性和平移等方差。然而,有限的卷積感受野阻礙了全局依賴的建模。Transformer自注意力機制已經在各種自然語言處理任務中取得了令人印象的成績[6]。研究界開始關注視覺中Transformer,卷積神經網絡和Transformer模塊相結合不斷取得突破[7-10],推動了視覺任務的發展。Dosovitskiy等[11]提出視覺Transformers(visual transformers,ViT),證明了Transformer架構在計算機視覺任務中的有效性。然而,訓練一個好的ViT模型需要大量的訓練數據集,其計算復雜性太大。Liu等[12]提出Swin Transformer,使用移動窗口和局部窗口的自注意力方法,降低了計算復雜性。

1.2 注意力機制

近年來,注意力機制已廣泛應用于許多計算機視覺任務,注意力模塊有助于保留上下文信息,并且可以精煉感知信息。Woo等[13]提出的卷積注意力模塊(convolutional block attention module,CBAM)組合通道注意力和空間注意力,以自適應地捕獲上下文信息,使得網絡更加關注感興趣的區域,從而提高了網絡的性能。Cao等[14]提出了全局上下文網絡,一種與壓縮和激勵網絡[14]結構集成的新型非局部模塊,使用一組復雜的基于置換的操作來減少特征映射。Misra等[15]引入了三重注意模塊(convolution triple attention module,CTAM),旨在捕捉維度依賴關系來計算注意權重。它通過旋轉操作和殘差變換建立跨緯度交互信息,能夠以可忽略的計算成本來提供顯著的性能增益。

2 算法框架

2.1 算法總體設計

提出的遙感圖像配準算法結構如圖1所示,主要包括特征提取、特征匹配、參數回歸和經過仿射變換得到的配準結果。

圖1 算法結構

2.2 特征提取

2.2.1 混合網絡結構

結合Transformer和預訓練殘差網絡(Resnet101)用來遙感圖像特征提取。自注意力機制有效抓捕全局上下文信息,預訓練殘差網絡豐富了特征提取。

傳統的Transformer在計算自注意力機制時,所有成對查詢鍵都是獨立學習的(包括獨立的查詢點(queries)和所有鍵(keys)),沒有探索相鄰鍵之間的豐富上下文,嚴重限制了基于自注意力在2D特征圖的視覺學習能力。Li等[16]提出上下文Transformer(contextual transformer,CoT),充分利用了相鄰鍵之間的豐富上下文關系。受此啟發,提出了一種新穎混合網絡結構,即卷積和遙感上下文Transformer(convolution and remote sensing contextual Transformer,CRCoT),CRCoT替換Resnet101殘差塊,可以提取遙感圖像全局和鄰近上下文信息?;旌暇W絡結構塊如圖2所示。它可以利用卷積和Transformer來更有效提取遙感圖像信息,高效應用在遙感圖像配準的任務中。提出的混合網絡結構是由卷積分支和Transformer分支拼接融合構成。卷積分支和Resnet101殘差塊結構一致,專注于提取遙感圖像的局部特征。Transformer分支由兩個1×1卷積核和CoT塊進行跳躍連接,專注于提取遙感圖像局部靜態和全局動態上下文信息。上下文Transformer結構如圖3所示。

圖2 CRCoT混合結構

圖3 上下文Transformer(CoT)結構

CoT是對傳統的多頭自注意力機制進行了改進。出發點是利用相鄰鍵之間豐富的上下文信息,給定大小為H×W×C的2D輸入特征圖X,keys、queries和values分別定義為K=X,Q=X,V=XWv。 首先在空間上對k×k網格內的所有相鄰鍵進行上下文編碼以獲得上下文鍵K1∈RH×W×C, 接著將K1作為輸入特征圖X局部鄰近鍵之間的靜 態上下文表示,最后將上下文鍵K1與Q拼接,通過兩個連續1×1卷積得到注意力矩陣A如式(1)

A=(([K1,Q]Convθ)Convδ)

(1)

ConvθConvδ表示兩個1×1卷積。

對于每個頭部,A矩陣的每個空間位置的局部注意力矩陣是基于查詢特征和局部上下文信息交互得到。接著,通過聚合上下文注意矩陣A, 與V(value)相乘獲得加權后的特征圖K2如式(2)

K2=V?A

(2)

將K2作為輸入特征圖X全局鄰近鍵之間的動態上下文表示,接下來將局部靜態上下文K1和全局動態上下文K2融合得到CoT塊的輸出。最后,將卷積分支和上下文Transformer分支的輸出拼接融合,作為CRCoT塊的最終輸出。

2.2.2 注意力機制

當涉及多種類型且結構復雜的遙感圖像時,注意力模塊可以有效獲取圖像重要信息,提取圖像關鍵特征點。CBAM[13]提出了通道注意力和空間注意力來改進特征表示,但是它們被分離并相互獨立計算,忽略了通道維度和空間維度之間跨緯度交互[15]的重要性。CTAM[15]捕捉了跨緯度交互,卻忽視了通道注意力[17]的信息。針對這些問題,提出四重注意力模塊(convolutional quaternary attention mo-dule,CQAM),它既可以有效捕獲通道維度和空間維度之間的跨緯度交互,還能以較少的參數建模通道注意力和空間注意力。CQAM融入特征提取網絡,在提取遙感圖像的重要區域信息的同時,為特征匹配提供更豐富和更有區別的上下文信息。CQAM由4個分支組成如圖4所示。

圖4 CQAM結構

圖4上面兩個分支負責捕獲通道維度和空間維度 ((C,W),(H,C)) 之間的跨緯度交互,它通過旋轉操作和殘差變換建立了維度間的相關性。下面兩個分支負責建模通道注意力和空間注意力。給定輸入特征映射x∈RC×H×W, 實現過程如下:

(3)

Z-pool:Z-pool層負責將輸入特征映射x∈RC×H×W零維轉化成兩維,具體方法是將MaxPool和AvgPool串聯起來,使得該層能夠保留實際張量的豐富表示,同時縮小其深度,使計算變得輕量級。從數學角度來說,可以由以下等式(4)表示

Z-pool(x)=[MaxPool0d(x),AvgPool0d(x)]

(4)

0d是經過最大池化層和平均池化層操作的第0個維度。例如輸入特征映射x∈RC×H×W形狀為 (C×H×W) 經過Z-pool變成 (2×H×W)。

2.3 皮爾遜雙向相關匹配

特征匹配是通過匹配函數來獲得兩幅遙感圖像之間的相似度,Rocco等[4]設計的互相關匹配算法是利用余弦相似度來計算兩幅圖像的相關性,根據目標圖像所有特征坐標位置語義信息逐個與源圖像的特征坐標位置語義信息進行相關映射,從而計算兩幅特征圖之間形成的相關關系。得到的匹配函數如式(5)所示

Csrc·trg(i,j,z)=ftrg(i,j)Tfsrc(iz,jz)

(5)

式中:Csrc·trg∈RH×W×C表示高度H寬度W和通道數C的兩幅遙感圖像之間映射的相關關系;ftrg(i,j) 表示在 (i,j) 坐標處的目標特征向量描述符;fsrc(iz,jz) 表示在 (iz,jz) 位置處的源圖像特征向量描述符。

Park等[18]提出航拍圖像匹配的不對稱問題,只考慮從源圖像到目標圖像的單向匹配,導致匹配的效果并不理想。因此,進行了遙感源圖像和目標圖像的雙向匹配(bidirectional matching),并且使用皮爾遜相關一致性改進了互相關匹配算法,提高了匹配的魯棒性。源圖像到目標圖像稠密特征圖之間的皮爾遜互相關匹配如式(6)所示

(6)

(7)

以上參數性質與式(5)相同。

2.4 參數回歸

2.4.1 回歸網絡

經過雙向匹配得到稠密對應圖,接著通過參數回歸網絡來傳遞,回歸網絡直接估計兩幅遙感圖像之間的幾何變換參數,從而得到兩個方向的參數。參數回歸網絡由兩個卷積核大小為7×7和5×5的卷積層和3個全連接層構成。

2.4.2 損失函數

采用網格距離函數Lgrid(θ,θδt) 作為損失函數,用來計算網絡損失值如式(8)

(8)

θδt為標簽真實情況參數,θ為變換后輸出參數,網格中點總數量為N,i,j∈N,d為圖像上真實情況點Tθδt(xi,yi)與變換后輸出圖像上的點Tθ(xi,yi) 之間距離的平方差。

2.4.3 參數加權合成

雙向匹配是將兩個方向上的遙感特征圖輸入到回歸網絡中,從而得到兩個方向仿射變換參數,分別為θs→t和θt→s,θs→t代表源圖像到目標圖像經參數回歸網絡得到的回歸參數,θt→s代表目標圖像到源圖像經參數回歸網絡得到的回歸參數。目標圖像到源圖像方向參數θt→s旨在與源圖像到目標圖像θs→t加權合成,從而減少錯誤的特征匹配點對,能夠進一步提升匹配準確度。兩個相反方向上的參數需保持一致才能夠進行加權合成,故取逆 (θt→s)-1, 從而得到源圖像到目標圖像上的參數θs→t。 求逆過程可由以下數學式(9)、式(10)、式(11)表示

A·θT=θs

(9)

A-1A·θT=A-1·θs

(10)

θT=A-1·θs

(11)

式(9)為目標圖像到源圖像的變換過程,θs表示源圖像,θT表示目標圖像,A表示變換關系矩陣,即矩陣參數θt→s。 式(10)對式(9)左邊同乘一個A-1,A-1表示變換關系矩陣的逆矩陣,得到式(11),該過程表示若要得到θs→t的變換,求A-1即可,即求 (θt→s)-1。θt→s含有變換需要的6個參數,將其轉換為齊次坐標的形式,如式(12)所示

(12)

式中:β1-β6為仿射變換的參數,將θt→s進行逆變換后,再與正向參數θs→t進行加權合成,過程如式(13)所示

θ=?1·(θs→t)+?2·(θt→s)-1

(13)

?1表示源圖像到目標圖像上的權重,?2表示目標圖像到源圖像上的權重。式子中θ是加權合成后的參數,利用參數θ對源圖像進行仿射變換得到最終的配準結果。

3 實驗結果與分析

3.1 數據集與實驗環境

訓練所使用的數據集Aerial Image Dataset,取自谷歌地球(Google Erath Pro,開啟3D地形模式),使用Park等提出隨機仿射變換的方法[18],生成訓練遙感圖像配準輸入圖像對。訓練集共18 000組,驗證集為625對圖像。

訓練網絡的參數學習率調整為0.0004,動量設置為0.9,批次大小設置為4,訓練總輪數設置為200。我們使用500對圖像進行測試集評估,來驗證網絡的配準效果,測試集圖片包括河流、土地、海岸、山川、城市等真實遙感圖像。實驗使用Python編譯數據,環境為Python3.6,使用Pytorch作為深度學習框架,硬件環境是RTX 3080顯卡、具有Intelcorei5(2.3 GHz)的處理器和10 GB的內存。

3.2 評估指標

采用棋盤格圖作為定性指標來評估配準效果。并采用正確點概率度量(percentage of correct points,PCK)、均方誤差(mean square error,MSE)、平均絕對誤差(mean absolute error,MAE)和均方根誤差(root mean square error,RMSE)4種定量指標來衡量配準的效果。

棋盤格圖:從細節上觀察圖像的局部配準,將目標圖像和配準結果圖像分為若干個方塊,每個方塊交替出現重新拼接圖像。然后,觀察相鄰方塊連接對齊情況。如果可以對齊,則認為配準效果良好。

PCK:評估兩幅遙感圖像之間匹配正確關鍵點概率。式(14)如下

(14)

分子部分表示檢測正確關鍵點的數量,N為真實總關鍵點數量,Tfini代表最終的變換參數,psi是第i個圖像對經過參數變換獲得的源圖像關鍵點,pti是第i個圖像對真實標記的關鍵點。α·max(h,w) 表示高h寬w圖片的最大閾值范圍,系數(α不超過1),一般來說α取值0.1較合適,α取值越大,越能測量全局匹配情況。

均方誤差、平均絕對誤差和均方根誤差由式(15)、式(16)、式(17)表示

(15)

(16)

(17)

3.3 實驗結果分析

在Google Erath數據集測試結果如圖5所示。選取了城市、農田、帶霧復雜城市等多個類型圖像測試,分析不同場景(城市外貌、農村叢林、復雜道路)和不同拍攝條件下(多時相、多視角、多源和復雜情況)的遙感圖像對配準結果。

圖5 算法配準結果

第一組(如圖5(a))是不同視角的城市圖,配準主要以道路為主,配準后圖像中城市建筑和道路方向基本與目標圖像對齊。第二組(如圖5(b))是不同時間的農田圖,配準后田間道路與樹林區域與目標圖像對齊,重點區域匹配效果較好。第三組(如圖5(c))是源圖像帶霧的城市圖,即使在遮擋條件下,配準結果依舊準確,效果較好。

3.4 對比實驗結果分析

為了說明提出算法的有效性,選取經典的傳統算法和近幾年提出的端到端深度學習的方法與此算法進行對比。傳統算法包括SIFT[19],深度學習算法包括CNNGeo[20]、A2net[21]、RMNet[3]和Two-stream[18]4種。

3.4.1 定性實驗

如圖6所示,選取4組不同場景(城市外貌、港口、農村叢林、復雜道路)不同拍攝條件下(多時相、多視角、多源和復雜情況)的圖片來進行定性實驗分析。將4組遙感圖像配準結果用棋盤格圖展示,棋盤格圖上局部偏差的位置使用方框突出,方框越大越多代表局部配準偏差較大且偏差較多,圖中如果只有一個大方框代表該配準結果錯誤。將該算法與傳統經典算法和近幾年端到端深度學習算法進行對比,可以觀察到該算法(圖6(h))偏差框數量較少且方框較小,重點區域的邊緣細節處線條都能夠對齊,錯位現象極少。而經典傳統算法(如圖6(c)SIFT)和部分深度學習算法(如圖6(d)CNNGeo、圖6(f)RMnet)出現大面積配準錯誤現象,其它深度學習算法(如圖6(e)A2net、圖6(g)Two-stream)在重點區域的邊緣配準細節偏差較多,可見該算法效果較好。對于該算法在復雜條件下拍攝的城市道路圖片(圖6復雜情況),可以看出多條交錯道路都能配齊,且只有一個偏差框,然而其它算法有多個不同大小的偏差框。由此可見,該方法有效提升了不同場景不同拍攝條件下遙感圖像的配準準確度,展現出了該算法面對種類多、情況復雜的遙感圖像強大的魯棒性。

圖6 對比實驗在真實多視角遙感圖像上的配準結果

3.4.2 定量實驗

將上述提到的4種定量指標(PCK、MSE、MAE、RMSE)對此算法性能進行定量評估。PCK評估選用Aerial Image Dataset500對遙感圖像測試集來計算6種方法的正確關鍵點匹配比率。根據比率高低來推斷這6種方法配準的精度。PCK評估結果見表1。

表1 不同算法的PCK評估結果

表1可以看出PCK值在0.1和0.05下該算法比傳統算法高30%以上,該算法在α為0.1情況下PCK值達到98.0%,遠超過近幾年其它端到端深度學習的方法,驗證了此算法能夠有效提高正確匹配點比率。

通過Aerial Image Dataset數據集隨機采取4組(10對、50對、100對、500對)遙感圖像測試集來進行定量結果分析測試,分別采用平均絕對誤差(MAE)、均方根誤差(RMSE)、均方誤差(MSE)這3種基本測量指標來評估此算法在遙感圖像配準總體性能,以上3種測量指標越小越能代表配準效果越好。如表2所示,此方法在4組不同數量的測試集上結果3組達到最優,一組與最優結果相近,而經典傳統算法(如SIFT)和部分深度學習(如CNNGeo、A2 Net、RMnet)算法3種測量指標遠高于此算法,可見該算法準確度較高。此算法隨著測試集數量增大3種測量指標無限接近于0,看出此算法模型誤差極小,魯棒性較強。

表2 4組測試集圖像在6種方法下定量分析結果

(注:數據加粗為當前指標最優結果,其中“—”表示配準后的結果圖像失真或者采樣點特征扭曲,差距過大不納入計算。)

3.5 消融實驗

提出的貢獻主要分為3部分:①提出混合網絡結構(CRCoT)替換殘差塊用來提取圖像局部和全局上下文信息;②提出四重注意力(CQAM)融入特征提取網絡,增強匹配的區分性表示;③提出雙向匹配,并采用皮爾遜(Pearson)改進相關算法,提升匹配的精確性。消融實驗驗證了此算法的有效性。選取CNNGeo基礎網絡框架,預訓練Resnet101為特征提取網絡。將3部分內容分別添加到基礎網絡框架中,計算PCK值變化。網絡模型均使用Aerial Image Dataset18000對遙感圖像訓練,使用500對測試集進行PCK值測試。實驗結果見表3。

由表3可知,PCK值在α為0.1和0.05的情況下,提出的CRCoT替換原Resnet101殘差塊用來特征提取分別提高了9.3%和10.5%。提出的四重注意力融入預訓練Resnet101分別提高了9.1%和11.8%。提出的皮爾遜雙向相關匹配替換單向匹配方法分別提高了12%和23.3%。3部分創新點融合后,PCK值達到最佳。仿真實驗結果表明3部分創新點均能夠提升配準精度,驗證了提出的創新點是有效的。

4 結束語

針對卷積神經網絡在遙感圖像配準上的精度低,魯棒性弱的問題,提出一種結合殘差網絡和Transformer并融入四重注意力的配準模型?;旌暇W絡結構替換Resnet101殘差塊,可以獲得遙感圖像全局和鄰近上下文信息。提出四重注意力機制融入特征提取網絡,保留通道和空間注意力提取信息的同時,還可以捕獲通道維度和空間維度之間的跨緯度交互信息。設計雙向匹配網絡,并采用皮爾遜相關算法建立遙感圖像之間的對應關系。實驗結果表明,在Aerial Image Dataset數據集上,使用“正確點概率度量”α為0.1和0.05情況下準確率高達98.0%和92.7%,驗證了其對挑戰具有復雜背景雜波以及類內變化的遙感圖像強大魯棒性。

猜你喜歡
特征提取殘差注意力
基于雙向GRU與殘差擬合的車輛跟馳建模
讓注意力“飛”回來
基于殘差學習的自適應無人機目標跟蹤算法
基于遞歸殘差網絡的圖像超分辨率重建
基于Daubechies(dbN)的飛行器音頻特征提取
“揚眼”APP:讓注意力“變現”
Bagging RCSP腦電特征提取算法
A Beautiful Way Of Looking At Things
平穩自相關過程的殘差累積和控制圖
基于MED和循環域解調的多故障特征提取
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合