?

一種改進TransUNet的高分辨率遙感影像滑坡提取方法

2024-02-21 02:35胡富杰呂偉才周福陽郭曉慧盧???/span>
無線電工程 2024年2期
關鍵詞:滑坡卷積樣本

胡富杰,呂偉才*,周福陽,郭曉慧,盧???/p>

(1.安徽理工大學 空間信息與測繪工程學院,安徽 淮南 232001;2.安徽理工大學 礦區環境與災害協同監測煤炭行業工程研究中心,安徽 淮南 232001;3.安徽理工大學礦山采動災害空天地協同監測與預警安徽普通高校重點實驗室,安徽 淮南 232001;4.東華理工大學 測繪與空間信息工程學院,江西 南昌 330013)

0 引言

滑坡是一種典型的地質災害,對人們生命財產安全和自然環境造成了嚴重的威脅。因此,如何在短時間內對滑坡進行精確提取已經成為當下研究的熱點問題?;碌刭|災害在貴州和四川等地發生尤為頻繁,該地區內的滑坡范圍大、持續時間長、崩塌速度快,這些問題是快速提取滑坡的難點之一。此外,由于滑坡主要發生在背景復雜的山體地區,滑坡現場土質疏松、碎石多,且受到覆蓋密度較大的樹木和地形的影響,調查人員難以到達災害發生地點,所以準確提取滑坡已成為國家自然災害等部門快速救援的巨大難題。

遙感技術作為實時、動態的新型滑坡提取手段,不僅可以對滑坡進行監測分析,而且還可以對災后滑坡進行范圍估算。但是對于較為精細化的滑坡提取,衛星遙感由于時間、環境等條件限制,提取滑坡的時效性很難達到對滑坡應急的需求。以往遙感技術提取滑坡的方法可以歸納為監督分類和面向對象分類法。針對于監督分類的方法,傅文杰等[1]提出了支持向量機方法的原理和滑坡提取的過程,為后期滑坡的災害建設提供了一定的理論基礎。牛全福等[2]利用監督分類、密度分割和面向對象的技術,分析了不同時期,即地震前和地震后的數據,進行遙感應用快速提取滑坡。許沖[3]基于ENVI平臺,對湔江流域的一部分SPOT5影像用最大似然法進行了滑坡的自動提取,結果顯示正確率達到35.52%?;谧畲笏迫环ㄋ崛〉降幕戮绕毡檩^低,陳勇國等[4]結合TM影像和數字高程模型(Digital Elevation Model,DEM)數據,通過決策樹模型提取了3期滑坡災害,相比于最大似然法,分類在精度上有了明顯提高。黃維江[5]通過基于監督分類的支持向量機方法、基于規則的多尺度分割方法和基于三維分析技術3種提取滑坡手段進行研究區滑坡提取,其中多尺度分割方法識別滑坡百分比達到了94.3%,三維分析技術方法經過2期的DEM數據變化檢測,直觀顯示了滑坡變化區域范圍。但監督分類的方法由于以像元的光譜信息為根本依據,難以表達同一地物本身的光譜特性而不能滿足遙感信息快速提取的需要。針對上述問題,許多研究人員提出了大量面向對象的分類方法,如閆琦等[6]根據改進otsu算法,利用2008年汶川地震后ADS40航空遙感影像的光譜、形狀和紋理等特征進行滑坡的提取,在時間和精度上都滿足地震災害應急的要求。宿方睿等[7]基于ENVI5.1和eCognition軟件平臺,采用面向對象分類法利用高分辨率World View-2以及Landsat遙感衛星數據進行處理并同時提出GVI模型,為判別古滑坡和新滑坡提供了理論依據。上述傳統方法雖然利用了影像的光譜、紋理和形狀等信息,但并未對該信息進行深層次挖掘,無法提取滑坡的高級語義信息,從而導致對滑坡的提取精度不高,邊緣分割不準確。

相比之下,深度學習方法不僅能夠提取滑坡的淺層特征和高級語義信息,而且還能精確地檢測滑坡以及分割滑坡邊緣,在實踐中表征出較高的識別準確度。其中常用的深度學習方法都是通過卷積神經網絡(Convolutional Neural Network, CNN)進行特征提取的,如SU-Net[8]、E-Unet[9]。為了驗證CNN所能提取到滑坡的精度,Bragagnolo等[10]使用U-Net模型在尼泊爾喜馬拉雅地區進行山體滑坡檢測,F1得分最高為67%。針對樣本數據的不足和方法的創新,付蕭等[11]以2013年4月20的蘆山地震區域為研究區,自制標簽樣本庫,引入遷移學習的方法進行滑坡的提取,總體精度(Overall Accuracy,OA)值達到了87.2%,僅僅耗時0.8 h,為滑坡的提取提供了具體的新型解決思路。許瀕支[12]以四川蘆山、九寨溝的地震區為研究區,構建了完整的樣本數據庫,設計了合理的數據擴充方法,提出了多尺度深度注意力模型和一種評價指標,結果顯示在評價指標中其模型的精度優于FCN-16s、U-Net、ResNet50等模型,驗證了模型的合理性。由于滑坡結構復雜,困難樣本提取較多,姜萬冬等[13]以畢節滑坡數據集實驗并用天水地區震區數據驗證,針對困難樣本進行數據增強并將困難樣本輸入到Mask R-CNN網絡進行滑坡精細檢測分割,平均準確率達到了90.3%,驗證了算法的可行性。

然而CNN中卷積操作本身感受野有限,不能很好地利用全局信息,局部信息中遠距離像素依賴關系不足。為了解決CNN的局限性,Transformer模型在處理語義分割領域表征出巨大的廣泛應用。Transformer[14]是一種基于自注意力機制的模型,不僅對全局建模有極大的優勢,而且在大規模的預訓練中,體現出對下游任務優越的可轉移性。針對CNN的局限性,Dosovitskiy等[15]基于自注意力機制提出改進的Transformer 模型ViT,其結構框架方面與 Transformer 相同,該模型的提出在圖像識別領域達到先進水平。同年Carion 等[16]基于Transformer提出了DETR(一種端到端目標檢測),其性能取得了與 Faster R-CNN 相當的水平。Esser 等[17]構建了VQGAN模型,將 Transformer 和 CNN 結合應用,進一步解決了感受野受限的問題。

本文針對傳統滑坡提取中滑坡邊緣信息不足、提取效果差且自動化程度低的現狀,采用CNN和Transformer融合的流對齊TransUNet(Flow Alignment TransUNet,FATransUNet)模型,創新性在于基于傳統的Transformer中多頭自注意力(Multi-Head Self-Attention,MSA)優化為高效多頭自注意力(Efficient Multi-Head Self-Attention,EMSA)及流對齊模塊(Flow Alignment Module,FAM)的引入,有效地將模型提取到的局部信息與全局信息結合,實現高低分辨率特征圖的融合,從而獲得更深層語義信息并進行滑坡的分割。為了驗證FATransUNet提取滑坡的性能,本文對5種模型以及模型的參數量和推理時間等理論性能指標進行對比實驗。

1 材料和方法

1.1 數據來源

本文采用畢節滑坡公開數據集作為實驗數據,來驗證各模型的泛化性。研究區位于中國貴州省畢節市,面積約26 853 km2,海拔450~2 869 m,采集數據時間為2018年5—8月,該數據集遙感影像由TripleSat(北京二號)衛星采集,影像分辨率0.8 m。其中包含770幅滑坡圖像和2 003幅非滑坡圖像。

1.2 數據預處理

由于畢節滑坡數據集只有770個滑坡樣本,為了避免數據量過少導致模型在訓練過程中出現過擬合,同時提高模型的泛化性和魯棒性,本文采用數據增強的方式來進行數據擴充。數據增強由4種圖像變換組成:① 水平和垂直翻轉;② 旋轉215°;③ 像素亮度值在50%~150%變化;④ 對比度在50%~150%變化。數據增強后最終獲得3 850個滑坡樣本,為了避免樣本之間的相似度過高對模型訓練的影響,本文對增強后的數據進行隨機打亂,將總數據集中80%用于模型的訓練和驗證,20%用于測試。由于畢節滑坡數據集大小并不統一,本文利用填充和剪切的方法,將圖像設置為統一大小256 pixel×256 pixel。

1.3 FATransUNet網絡

Transformer塊中MSA的內存和計算量與空間維度或嵌入維度(即通道數)成二次方關系,導致訓練和推理開銷較大。與此同時MSA中每個頭只負責嵌入維數的一個子集,這可能會損害網絡的性能,基于傳統的Transformer中MSA優化為EMSA。原始的跳躍連接、特征拼接和解碼階段中的上采樣操作較為復雜,FAM既簡化了運算過程,又有效融合了淺層中的高分辨率信息。針對以上不足,提出一種改進的FATransUNet模型。

1.3.1 FATransUNet網絡結構

FATransUNet的整體架構如圖1所示,該模型是一個結合了CNN和Efficient Transformer的改進混合架構模型。FATransUNet模型受到UNet結構的啟發,同樣采用編碼-解碼結構。

圖1 FATransUNet網絡結構Fig.1 FATransUNet network framework

FATransUNet編碼階段由兩部分組成,分別是CNN局部信息提取部分和Efficient Transformer全局信息提取部分,其中CNN部分采用ResNet-50架構。Efficient Transformer部分中,在二維序列輸入到Efficient Transformer Layer之前,網絡會在序列中加入位置編碼,保留各個圖像塊的空間信息。之后將序列輸入到改進的12層的Efficient Transformer模塊中進行全局信息的提取。Efficient Transformer編碼器由EMSA和多層感知器(Multi-Layer Perceptron, MLP)塊組成。對于Efficient Transformer編碼的第L層,假設輸入為Zl-1,輸出為Zl,則其計算公式為:

(1)

(2)

式中:LN表示實例層歸一化算子,Zl表示編碼的圖像。

FATransUNet解碼階段的效果是將編碼器處理得到的特征圖的尺寸恢復成輸入圖像的同樣大小尺寸,實現端到端的網絡結構訓練。將編碼階段輸出的序列進行reshape后,通過一個卷積層將特征圖通道數由768轉換為512,之后進行3次FAM模塊和3次上采樣操作,最后經過一個Segmentation Head層,將特征圖通道數轉換為類別數,得到分割結果。

FAM模塊如圖2所示,將高分辨率特征圖和低分辨率特征圖結合生成語義流場,利用語義流場將低分辨率特征圖轉化為高分辨率特征圖。

圖2 FAM結構Fig.2 FAM framework

具體為給定2個相鄰的特征圖F2和F1具有相同的通道數,本文通過雙線性插值層將F2上采樣到與F1相同的大小,然后將它們拼接在一起,并將拼接后的特征圖作為包含2個卷積層的子網絡的輸入,卷積層的核大小為3×3,之后進行一個無參數的變形過程的融合輸出進行新特征圖的疊加產生。

變形過程如圖3所示,采用的是可微雙線性采樣機制,對于空間網格上的每個位置通過加法操作映射后的點線性插值(左上、右上、左下和右下)的值來近似FAM的最終輸出。與普通的雙線性上采樣特征相比,變形特征在結構上更加整潔,并導致滑坡更一致的表示。

圖3 變形過程Fig.3 Warp process

1.3.2 網絡訓練參數

本實驗平臺采用Windows 11 64位操作系統;AMD R7-5800H@3.20 GHz 八核處理器,16 GB內存;NVIDIA?GeForce RTX 3060 6 GB顯卡。在軟件環境方面,本文以PyTorch作為后端的深度學習框架,使用CUDA11.3版本的GPU運算平臺以及對應的CUDNN深度學習GPU加速庫。

在訓練過程中,本文使用相同的數據集對6個模型進行訓練,模型均采用相同的訓練方案,并未使用遷移學習方法(預先訓練的權重)。所有模型在訓練過程中使用同一組超參數,超參數是經過測試,并考慮每個模型的訓練情況確定的。優化策略、批次大小、初始學習率、權重衰減系數和訓練次數分別為Adam、4、0.000 1、0.001和60。學習率衰減策略采用PyTorch中的StepLR方法。目前常見的損失函數是交叉熵損失函數(Lce),由于滑坡數據集正樣本相比負樣本所占比例較小,本文為了避免模型對樣本較少的類別產生偏向性,以交叉熵損失和Dice損失(LDice)構建的混合損失函數(Ltotal)來更新網絡的權重,混合損失函數見式(3)。交叉熵損失函數從全局上考察模型訓練情況,計算量較少,有助于網絡穩定擬合。Dice損失函數則從微觀上將逐像素拉近,減輕了樣本的不平衡。交叉熵損失函數和Dice損失函數公式為:

Ltotal=0.5Lce+0.5LDice,

(3)

(4)

(5)

1.3.3 精度評價指標

本文選取精確度(Precision,P),召回率(Recall,R),平均交互比(mIoU)和F1-score(F1)四種常用的語義分割評價指標來全面客觀地評估分類結果,同時驗證分割模型的準確度和有效性。

(6)

(7)

(8)

(9)

式中:TP、FP、FN、TN分別表示滑坡正確分類的像素點數量、背景錯誤識別成滑坡的像素點數量、滑坡分割被識別成背景的像素點數量、背景正確分類的像素點數量。

4種評價指標的取值均為[0,1],數值越接近1,代表分割結果越顯著。

2 結果與討論

2.1 模型訓練過程

FCN、U-Net、SegNet、DeepLabV3+、TransUNet和FATransUNet的訓練過程如圖4所示。圖中U-Net的訓練損失最先在第20個epoch趨于平穩且收斂;其次是FATransUNet的損失第25個epoch左右收斂;FCN和DeepLabV3+的損失隨著epoch的增加逐漸降低,均在第30個epoch左右上下浮動;TransUNet和SegNet的損失變化較慢,在第40個epoch左右時才趨于穩定。由于FATransUNet模型訓練過程中迭代的參數較多,但是收斂速度僅次于U-Net,同時FATransUNet是基于TransUNet的改進且收斂速度快于TransUNet,證明了EMSA和FAM兩個模塊在改善收斂速度上的有效性。

圖4 訓練集和驗證集損失變化Fig.4 Loss variation of training dataset and validation dataset

2.2 滑坡提取結果

為了驗證該模型在滑坡提取方面的顯著效果,本研究進一步使用FCN、U-Net、SegNet、DeepLabV3+和TransUNet五種語義分割模型來對比評估FATransUNet模型的性能。對比實驗結果如表1所示,FATransUNet模型滑坡提取的精度最高,其次是DeepLabv3+、TransUNet、SegNet、U-Net,精度最低的為FCN,同時FATransUNet模型識別滑坡的精確度、召回率、F1評分和mIoU分別比FCN模型高0.210、0.138、0.175和0.149。由于FCN網絡是首個端對端的針對像素級預測的全卷積網絡,其原理是通過將VGG16網絡結構中的全連接層替換為卷積層,將圖像經過下采樣后再通過雙線性插值方法上采樣回原始圖像分辨率,但受到卷積層固有的局限性,造成圖像下采樣過程后無法保留高分辨率信息,從而導致對較小物體的邊界分割效果較差,如圖5(c)所示,在U-Net、SegNet和DeepLabV3+網絡結構中,由于引入了空洞卷積層和跳躍連接,不同程度地減緩了下采樣過程中特征圖高分辨率信息的損失,因此對滑坡邊緣的分割效果較好,DeepLabV3+存在提取少量空洞現象,U-Net邊緣角點提取效果略差、容易模糊,如圖5(d)~圖5(f)所示;對于較為復雜的滑坡,TransUNet的邊緣效果很差,如圖5(g)所示,SegNet和TransUNet 的結果“椒鹽效應”較為明顯,存在大量誤提和漏提,田地等與滑坡顏色屬性相近的區域容易形成不確定區域;如圖5(h)所示,FATransUNet網絡是將CNN卷積和Transformer注意力機制進行了融合,因此FATransUNet能夠學習到圖像的全局語義交互信息,不僅對于全局建模有極大的優勢,而且在大規模的預訓練中,體現出對下游任務優越的可轉移性,提取到的滑坡信息保留較完整,特征提取穩定,因此滑坡提取更接近真實滑坡。

表1 不同模型指標對比結果

圖5 模型預測結果Fig.5 Model predict results

實驗表明FATransUNet效果優于其他幾種模型,能有效、合理、準確地提取到滑坡的細節信息,提取較為穩定,細節保留度高??紤]到滑坡已經形成較長時間,滑坡附近植被居多,有些滑坡已經被植被覆蓋,顯示為綠色,所以其滑坡特征并不突出,想要準確地分離滑坡和植被不太容易。由于這種類型的滑坡過于復雜,根據這6種模型來看滑坡的識別效果,除了FCN提取效果較差,其他5種較優,FATransUNet模型可以分解為從周圍植被的特征來看滑坡,進行邊界的精細化分割。

2.3 不同網絡時間、參數量性能統計

對于滑坡發生期間,往往按照區域受災面積、受災程度進行不同優先級的決策,時間上的有效性和精度上的準確性是應急部門開展應急救援的重要保障,因此實驗分析了訓練時間、推理時間和參數量,盡管FATransUNet在泛化能力上是最好的模型,但是由于12個Transformer層的堆疊,導致訓練時間和參數量的增長。性能統計如表2所示,可以看出,FATransUNet的訓練時間、推理時間和參數量處于中間水平,其中訓練時間、推理時間分別是FCN的2.3倍和3.1倍,但是參數量低于FCN,是DeepLabV3+參數量的5.9倍,表征出FATransUNet在滑坡提取中的應用還是有很大的創新潛力。

表2 時間和參數量分析結果

3 結束語

TransUNet的提出最早用于醫學圖像分割,并取得了較高的分割性能[17]。針對該模型在提取全局信息和局部信息的優勢,能對圖像中的較小目標實現精確度檢測和分割,許多研究人員基于該模型進行變化檢測、醫學圖像分割和滑坡檢測等方面的研究,取得了不錯的效果[18-20]。本文將CNN和改進的高效Transformer結合的混合架構模型——FATransUNet應用于滑坡提取,以畢節滑坡數據集為樣本,使用FCN、U-Net、SegNet、DeepLabV3+和TransUNet五種傳統的CNN進行對比實驗,評估了FATransUNet的滑坡提取性能。實驗表明FATransUNet模型的F1評分和mIoU達到了91%,均高于其他5種CNN模型。此外,本文進一步通過數據集數量和模型的參數量、訓練時間和推理時間來評估該模型在滑坡提取中的實用性。FATransUNet相比其他5種模型能有效克服了樣本邊緣信息不足的問題,有效提升了高分辨率遙感影像中滑坡的提取精度,具有一定的實用性。

盡管FATransUNet模型的滑坡提取精度要比基于CNN的模型高,但在訓練時間和推理時間方面并沒有優勢,這是由于利用了ResNet結構和Transformer模塊的多層堆疊,使得模型參數量較大,導致模型的訓練和推理速度較慢。如何在準確性和推理速度之間達到最佳平衡,設計專門用于快速準確的語義分割模型是至關重要的。在今后的工作中,將進一步改進CNN和Transformer的混合模型來減少模型的參數量,使模型的推理速度能夠得到提高。

猜你喜歡
滑坡卷積樣本
基于3D-Winograd的快速卷積算法設計及FPGA實現
滑坡推力隱式解與顯式解對比分析——以河北某膨脹土滑坡為例
用樣本估計總體復習點撥
從濾波器理解卷積
推動醫改的“直銷樣本”
基于傅里葉域卷積表示的目標跟蹤算法
隨機微分方程的樣本Lyapunov二次型估計
淺談公路滑坡治理
基于Fluent的滑坡入水過程數值模擬
“監管滑坡”比“渣土山”滑坡更可怕
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合