?

基于提示信息的分割大模型建筑物提取方法研究

2024-02-22 06:51祁信舒呂現偉沈佳潔
地理空間信息 2024年1期
關鍵詞:提示信息關鍵點語義

向 浩,祁信舒,呂現偉,梁 思,沈佳潔

(1.湖北省航測遙感院,湖北 武漢 430074;2.華中科技大學,湖北 武漢 430074;3.武漢天遠視科技有限責任公司,湖北 武漢 430070)

作為地理空間中最重要的人工要素信息,建筑物提取對城市建設、耕地保護、軍事偵察等都具有重要意義[1]。因此,遙感影像中的建筑物提取一直都是人們研究的熱點,早期學者主要利用遙感影像中的邊界、區域等紋理信息識別建筑物,如明冬萍[2]等首先利用紋理信息在大尺度圖像上粗略識別大目標區域,再利用區域大小、形狀和位置關系得到基元特征,進而對這些區域進行精細化分割;劉正軍[3]等首先利用建筑物特有的光譜、形態和紋理信息從遙感影像中提取建筑物,再將提取的建筑物邊界變換為直線邊界,從而得到建筑物的輪廓線;陳行[4]等基于建筑物形狀和結構特點,從形態學的角度利用引導濾波改善了遙感影像中的建筑物提取性能,上述方法盡管在一定程度上實現了建筑物提取,但分割效率和精度還無法達到預期效果。

近年來,深度學習技術的快速發展極大地促進了以目標檢測、識別與分割為代表的計算機視覺領域的進步。借助深度神經網絡強大的特征提取能力,可顯著提升計算機視覺技術的性能。FCN 網絡[5]的提出拉開了基于深度學習的圖像分割技術的序幕,實現了端到端的圖像語義分割。Ronneberger O[6]等提出了一種U型網絡模型U-Net,通過不同網絡層級的拼接,最大程度保留圖像中的目標紋理和邊緣等語義信息,從而改善了對目標的表征能力。Chen L[7]等提出的Deep?Labv3+模型在先前研究的基礎上增加了一個解碼器修正分割結果,從而進一步改善了分割邊緣。鑒于U-Net 和DeepLabv3+在目標分割上取得的良好效果,呂道雙[8]、于明洋[9]等分別將U-Net和DeepLabv3+應用于遙感影像的建筑物提取中。雖然這些基于深度學習技術的模型可快速提取建筑物,但受限于訓練樣本數量和質量,其準確率仍難以滿足“真實可靠準確”的質量要求。最近基于海量數據訓練的分割大模型SAM引起了研究人員的廣泛關注,盡管無法得到分割區域的語義信息,但其強大的分割能力以及可將目標上點、目標框等信息作為目標提示輸入的特性被廣泛應用于各種目標分割任務中。分割精度不高的建筑物提取模型可為SAM提供潛在的建筑物目標提示信息。

鑒于此,本文提出了基于SAM 的建筑物分割方法,將建筑物分割模型與SAM相結合,建筑物分割模型提供語義信息,SAM 提供準確的分割結果;并以LoveDA 數據集中的遙感影像為實驗數據,與直接使用DeepLabv3+得到的分割結果進行對比,以驗證該方法的有效性。

1 研究方法

基于SAM 的建筑物分割方法主要利用SAM 的提示信息分割功能,首先利用DeepLabv3+得到遙感影像中建筑物粗分割區域;然后從建筑物粗分割區域中生成有效的建筑物目標點或目標框,作為SAM的提示信息;最后將提示信息與遙感影像一起輸入SAM 模型,利用SAM提示信息分割功能得到建筑物的精確分割結果(圖1)。

圖1 基于提示信息SAM的建筑物分割方法研究框架

1.1 基于DeepLabv3+的建筑物粗分割

雖然基于深度學習的建筑物分割模型在準確度上仍難以滿足生產質量要求,但可作為SAM分割模型重要的提示信息,將潛在的建筑物區域通過關鍵目標點或目標框與原始影像一起輸入到SAM 模型中,指導SAM模型精確提取建筑物,從而賦予SAM語義分割的能力。本文選擇經典的DeepLabv3+作為建筑物粗分割模型,將訓練好的DeepLabv3+模型直接輸入原始遙感影像,輸出為與原始影像大小相同的二值影像,其中白色表示潛在的建筑物區域。本文分別采用X∈RH×W×3和I∈RH×W表示分辨率為H×W的原始影像和對應的二值分割結果。

1.2 建筑物目標提示信息生成

SAM模型提供了基于目標關鍵點或目標框等提示信息的目標分割功能,因此需將DeepLabv3+輸出的二值化分割結果轉換為分割區域的目標關鍵點或目標框。由于DeepLabv3+的分割結果只包含建筑物的語義信息,不同建筑物的區域是無法區分的,因此不能直接將二值化分割結果轉換為建筑物區域的提示信息。為解決該問題,本文首先利用開源程序庫skimage.measure 中的label 函數將建筑物二值化結果中互不連通的區域轉換為不同的建筑物目標,然后利用regionprops 函數得到每個建筑物目標的最小矩形框?;贒eepLabv3+提取的建筑物目標框定義為:

二值化分割結果中不同的建筑物目標見圖2,矩形框為基于上述方法得到的目標框,由于DeepLabv3+的分割結果中存在一些分散的小區域(圖2 中藍色矩形框),其中并不包含建筑物目標,因此需進一步對建筑物目標面積小于一定閾值的區域進行過濾?;贒eepLabv3+提取的建筑物目標框定義修改為:

圖2 建筑物目標框

式中,b=(x,y,w,h)為中心坐標為(x,y)、寬和高分別為2w和2h的目標框; area(b)為目標框b的面積;本文面積閾值T的取值為64。

最終得到的建筑物如圖2 中紅色矩形框所示,這些建筑物目標框可有效指導SAM模型對該目標的精確分割。

為驗證不同提示信息對SAM分割結果的影響,基于建筑物目標框生成目標關鍵點,進而利用目標提示點對SAM 的建筑物分割進行指導。為避免Deep?Labv3+模型分割結果在目標邊界上的誤差引起的錯誤提示,本文將建筑物目標框中心以及該中心與4 個頂點的中心作為候選關鍵點;同時為了保證目標提示點的準確性,只有在建筑物目標上的候選點才能作為該建筑物目標的提示關鍵點,即二值化分割結果在候選點位置的值為1。如圖3所示一個建筑物目標的5個候選關鍵點,只有4個紅色點包含在DeepLabv3+二值化分割出的建筑物中,因此這4 個點被選為該建筑物目標的提示關鍵點。 給定一個建筑物目標框b=(x,y,w,h),5 個候選關鍵點pointsc和目標提示點points 可定義為:

圖3 建筑物目標關鍵點

式中,I(p)為DeepLabv3+二值分割結果在p點的取值。

1.3 基于SAM的建筑分割方法

SAM 分割模型提供了全圖分割和提示分割兩種方式,全圖分割根據影像的紋理特征將整個影像分割為不同的區域,但無法輸出這些區域的語義信息;提示分割則可根據給定的目標關鍵點、目標框等提示信息分割影像中的指定目標。本文采用SAM的提示分割功能提取給定遙感影像中的建筑物目標。根據DeepLabv3+建筑物粗分割結果中生成的建筑物目標框及其關鍵點,本文分別采用這兩種提示信息指導SAM對遙感影像中的建筑物目標進行精準分割;再整合所有建筑物目標的分割結果,即可完成基于SAM的建筑物提取。

2 實驗結果與分析

2.1 實驗數據

為驗證提出方法的有效性,本文采用武漢大學提供的遙感地表覆蓋數據集LoveDA,包含農村和城市兩種風格的遙感影像,影像分辨率為1 024×1 024。從該數據集的驗證集部分隨機選擇100 張包含建筑物目標的遙感影像進行實驗評估。該數據集包含多個地物信息類別,本文進行實驗評估時只考慮建筑物,其他視為背景。

2.2 評價方法

對于語義分割而言,影像的每一個像素分割均可視為二分類任務。因此,為評估該方法的建筑物提取效果,本文采用精確率(Prec)、召回率(Rec)、F1-Score、交并比(IoU)和正確率(Acc)等語義分割常用評價標準,其中Prec 表示模型預測為建筑物區域中真實建筑物區域像素點的占比,亦稱查準率,反映模型預測結果的可信度;Rec 表示所有建筑物區域對應的像素點被預測正確的比例,亦稱查全率;F1-Score為一個綜合性評價指標,同時考慮了Prec 和Rec;IoU 表示模型預測為建筑物區域與真實建筑物區域在像素點上交集與并集的比值,理想情況下IoU為1,即預測為建筑物區域與真實建筑物區域完全重疊;Acc 表示預測正確的像素點占比。

式中,TP為將建筑物區域預測為建筑物區域的像素數;FP為將非建筑物區域預測為建筑物區域的像素數;FN為將建筑物區域預測為非建筑物區域的像素數;TN為將非建筑物區域預測為非建筑物區域的像素數。

2.3 結果分析

SAM 提供了vit_h、vit_l、vit_b 等3 個骨干網絡預訓練模型,其中vit_h擁有最多的模型參數,因此實驗選取vit_h 作為SAM 的骨干網絡。為對比不同提示信息對建筑物分割結果的影響,實驗中分別采用單獨使用目標框、單獨使用目標關鍵點、同時使用目標框和關鍵點3種方法提取建筑物區域,并與直接基于Deep?Labv3+的建筑物分割結果進行對比。不同方法的評價指標見表1。3種組合的分割結果均為基于目標框和關鍵點的最佳、基于目標框的次之、基于目標關鍵點的最差,這是由于目標關鍵點只是建筑物區域的一些代表點,與目標框相比,包含的目標區域信息量更少,而將二者組合后,在標定建筑物區域的同時可以指示目標框中建筑物區域與非建筑背景區域的具體差異,包含更具體的目標提示信息,因此目標框和關鍵點的組合可為SAM提供更好建筑物分割指導。另外,單獨使用目標框或關鍵點方法的Prec 比DeepLabv3+低,這是由于DeepLabv3+的分割結果區域較小且都屬于建筑物區域,而單獨使用目標框或關鍵點時,提示信息不夠精確,導致SAM將提示信息周圍紋理信息相近的區域分割出來,從而引入一部分非建筑物區域;而將目標框和關鍵點同時作為提示信息將會更精確地為SAM提供指導,因此提取的建筑物區域更加準確,與DeepLabv3+相比,Prec 從88.71%提升至91.49%。對于其他的評價指標,相較于DeepLabv3+,基于3種提示信息組合的分割結果均有大幅提升,其中目標框和關鍵點的組合分別將Rec、F1-Score、IoU 和Acc 從58.38%、70.42%、54.34%、94.67%提升至83.74%、87.44%、77.69%、97.38%。綜上所述,基于提示信息的SAM 建筑物提取方法可有效改善建筑物分割結果,為SAM提供更多提示信息的目標框和關鍵點組合可更好地提升分割結果。不同方法在不同影像上的分割效果見圖4。

表1 本文方法與基準方法的建筑物分割結果對比/%

圖4 不同方法建筑物提取結果對比

3 結 語

本文提出的基于提示信息的SAM建筑物提取方法可實現遙感影像中建筑物的精準提取。與DeepLabv3+相比,效果提升明顯,其中Prec 、 Rec 分別從88.71%、58.38%提升至91.49%、83.74%。該方法可顯著改善建筑物邊界,針對單個建筑物的分割效果更佳。未來將研究如何進一步改善基于SAM分割的效率問題。

猜你喜歡
提示信息關鍵點語義
聚焦金屬關鍵點
肉兔育肥抓好七個關鍵點
語言與語義
元征X-431 PRO 3S+實測:2018年吉普自由光保養歸零
元征X-431實測篇2015款路虎攬勝剎車片更換過程
“上”與“下”語義的不對稱性及其認知闡釋
號碼提示信息的呈現方法對手機操作的影響
認知范疇模糊與語義模糊
醫聯體要把握三個關鍵點
轉喻有無信息提示的眼動實驗對比研究*
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合