?

中國河南省2016–2021 年尾礦庫目標檢測數據集

2024-01-11 10:40李俊杰李敏隋正偉蘇文博連亞茹陳帥原征
關鍵詞:尾礦庫切片衛星

李俊杰,李敏 ,隋正偉,蘇文博,連亞茹,陳帥,原征

1.中國資源衛星應用中心,北京 100094

2.中國四維測繪技術有限公司,北京 100086

引 言

尾礦庫是指筑壩攔截谷口、河床或者圍地構成的,用以存儲金屬或非金屬礦山經選礦后排出尾礦或其他廢渣的場所,含有大量暫時無法處理的有用或有害成分,是礦山開采活動的必要基礎設施[1-2]。尾礦庫是一個具有高勢能的人造泥石流危險源,存在潰壩危險,一旦失事可能會造成大量人員傷亡、農田村莊毀壞的重大或特大事故,給環境安全帶來隱患;尾礦庫中含有的各種重金屬礦物和毒性物質經過淋濾和滲透,會嚴重污染尾礦庫周邊和下游生態環境[1,3]。我國尾礦庫總量居世界第一,全國共有14217 個尾礦庫,涉及64 個礦種[4]。為了及時預警尾礦庫潛在的自然和人為風險,加強對尾礦庫的應急管理,有必要摸清尾礦庫的空間分布、數量以及增加減少的情況。

傳統的尾礦庫空間分布調查采取的是遙感圖像目視或半自動解譯結合人工外業調查的方式,效率低、時效性差、工作量大,無法做到大范圍內尾礦庫的自動快速提取,難以滿足高頻次的尾礦庫分布變化情況時序監測的需求。從遙感圖像上確定尾礦庫的位置和分布實質就是遙感圖像的目標檢測問題。隨著深度學習技術的興起,其在遙感圖像的目標檢測、分類和變化檢測等方面取得了極大的進展和突破。已有一些科研人員開展了深度學習目標檢測提取高分辨率遙感圖像上尾礦庫的研究,李慶等基于深度學習SSD(Single Shot Multibox Detector)目標檢測模型對中國京津冀地區的尾礦庫進行了自動檢測提取[5-6],閆凱等基于改進的SSD 模型應用于中國華北地區的尾礦庫提取[7],Yan 等基于改進的Faster R-CNN(Region-based Convolutional Neural Network)和遷移學習的方法從多光譜和高分辨率遙感圖像中檢測尾礦庫[8-9],Lyu 等從高分遙感圖像上基于YOLO v4(You Only Look Once)檢測提取中國安徽省銅陵市的尾礦庫[10]。

基于遙感圖像的尾礦庫目標自動化、智能化深度學習檢測模型的開發需要高質量的尾礦庫目標檢測數據集支撐。深度學習數據集不僅是衡量和檢驗算法性能好壞的標準,還進一步推動了算法向更準確、更高效的方向不斷發展[10]。當前開源的尾礦庫目標檢測數據集較少,公開檢索到的開源數據集只有Lyu 等2021 年創建的安徽局部區域的尾礦庫目標檢測數據集[11],該數據集以單時相的2 米分辨率谷歌圖像為數據源,使用水平框(horizontal bounding box)標注尾礦庫目標。但是,遙感圖像中的目標與自然圖像不同,通常以任意角度出現,水平框中目標的冗余背景信息會導致模型檢測性能的降低,因此,遙感目標檢測更傾向于定位目標的最小面積外接矩形框,即傾斜框(oriented bounding box)。因此,本研究構建了中國河南省區域的尾礦庫目標檢測數據集。本數據集有以下幾個特點:(1)國產高分辨率光學遙感衛星圖像尾礦庫目標檢測數據集,包含多尺度、不同地理背景和形態各異的尾礦庫,共提供1183 個圖像切片,包含1728 個目標實例;(2)采用傾斜框標注目標的最小面積外接矩形,圖像冗余背景信息較少,能夠減少背景對模型檢測性能的影響;(3)數據集提供2016 年、2018 年、2020 年和2021 年總共4 個不同年度的樣本數據,覆蓋不同季節和光照的遙感圖像。以上特點均可以提高基于數據集訓練的模型在大規模應用中的泛化能力。利用該數據集可以進行深度學習尾礦庫目標檢測模型開發的技術研究和開展尾礦庫的自動化、智能化檢測,對于推動尾礦庫自動提取技術的發展和尾礦庫的安全監管具有重要意義。

1 數據采集和處理方法

1.1 數據采集方法

本數據集使用國產民用陸地觀測衛星獲取的中國河南省可見光圖像,包括全色和多光譜圖像(紅、綠、藍、近紅),全色圖像的空間分辨率為2 米。涉及的衛星包括:高分一號衛星(GF-1)、高分一號02 星(GF-1B)、高分一號03 星(GF-1C)、高分一號04 星(GF-1D)、高分六號(GF-6)、資源三號01 星(ZY-3 01)和資源三號02 星(ZY-3 02)。

河南省位于北緯31°23'–36°22',東經110°21'–116°39'之間,有“九州腹地、十省通衢”之稱,總面積16.7 萬平方千米,地勢西高東低,由平原和盆地、山地、丘陵、水面構成,地跨海河、黃河、淮河、長江四大流域。本數據集使用了完整覆蓋河南全省4 次的不同時相遙感圖像,圖像成像時間分別為2016 年、2018 年、2020 年和2021 年,每一個年度的衛星圖像都挑選年度范圍內無云、成像質量好的數據?;?016–2021 年采集的衛星遙感圖像,經過數據處理、人工解譯標注、圖像切片等步驟形成本數據集,共提供4 個時相的河南省尾礦庫目標檢測樣本。

1.2 數據處理方法

1.2.1 數據正射及鑲嵌處理

在樣本標注之前,需要對標準產品數據進行正射融合等一系列處理,以生成2 米分辨率、幾何定位精度優于10 米的真彩色鑲嵌圖像。衛星遙感圖像數據的正射融合、勻色鑲嵌處理流程如圖1 所示。在挑選和下載完無云和質量好的國產光學衛星數據后,對數據進行幾何和輻射一致性處理。主要步驟為:(1)數據拉伸與增強。使用拉伸與增強的方法使圖像直方圖呈正態分布,圖像色調清晰、色彩合理;(2)控制點采集?;趨⒖紙D像,采集待校正圖像與參考圖像上的同名點和連接點,為平差處理做準備;(3)平差處理。采用基于有理函數模型的區域網平差方法,可有效提高圖像的幾何定位精度和圖像間的接邊精度;(4)正射校正。對全色和多光譜圖像進行傾斜改正和投影差改正,特別是消除圖像的地形誤差;(5)融合處理。對全色和多光譜圖像進行融合,生成與全色圖像空間分辨率一致的4 波段多光譜圖像;(6)鑲嵌預處理?;谌诤蠄D像合成自然真彩色圖像,并把圖像的量化位數降為8 比特,為勻色鑲嵌做準備;(7)勻光勻色。對相鄰圖像的色彩調整處理,保持景與景之間重疊處色彩過渡自然;(8)圖像鑲嵌。把區域內多景圖像鑲嵌到一起生成一整幅圖像,通過自動和人工結合的方式確定圖像接邊處的鑲嵌線,保證地物合理接邊,無重影和發虛現象。同時在以上各主要步驟中穿插進行質量檢查,不符合要求的返回上一步進行處理。

圖1 數據正射及鑲嵌處理流程圖Figure 1 Flow chart of data orthorectification and mosaic processing

1.2.2 尾礦庫目標檢測數據集制作

基于河南省的2 米勻色鑲嵌圖像,本研究使用ArcGIS 軟件,通過人工遍歷的方式對各時相遙感圖像進行尾礦庫的目視解譯和樣本標注。尾礦庫目標檢測數據集制作流程如圖2 所示,主要步驟為:(1)制定標注規范。明確尾礦庫的遙感圖像解譯標志、標注方式、標注細則和注意事項等,形成標注規范文檔并對標注人員進行培訓;(2)人工標注。人工目視遍歷每期的河南省勻色鑲嵌圖像,對識別為尾礦庫的目標采用ArcGIS 軟件以傾斜框(目標的最小面積外接矩形)的方式進行標注,通過自檢、互檢和終檢3 次檢查保證標注符合規范,最終得到河南省尾礦庫位置和分布數據(見圖3),并形成標注矢量文件;(3)圖像切片。使用Python 程序語言和GDAL 庫編程,基于標注矢量文件將勻色鑲嵌圖像裁切成固定尺寸的圖像切片,保留存在目標的圖像切片并生成對應的標注文件,如有尾礦庫目標被切分,當被切分的面積大于目標原始面積的50%時才在該切片保留此尾礦庫的標注信息。

圖2 尾礦庫目標檢測數據集制作流程圖Figure 2 Flow chart for the dataset production of tailings pond object detection

圖3 河南省尾礦庫分布圖Figure 3 Distribution of tailings ponds in Henan province

2 數據樣本描述

本數據集有2 個壓縮包,解壓后對應2 個文件夾(images 文件夾和labels 文件夾),images 文件夾存放的是圖像切片,labels 文件夾存放標注標簽文本文件。

images 文件夾里圖像切片標準大小為1024×1024 像素(因為少量尾礦庫空間范圍較大,有36 個切片像素大于1024×1024),RGB 真彩色圖像,圖像切片格式為PNG,圖像切片的命名規則為:衛星圖像成像年份+’_’+切片序號+格式后綴,如“2016_128.png”,表示2016 年成像的衛星圖像的第128 個含有尾礦庫的切片。

labels 文件夾里每個文本文件與images 文件夾里的圖像切片逐一對應,文本文件的格式為txt,文本文件的命名規則為:對應的無格式后綴圖像切片名字+格式后綴,如“2016_128.txt”,表示對應“2016_128.png”切片的標注標簽文件。txt 文本的標注格式采用DOTA(a large-scale Dataset for Object deTection in Aerial images)標準[12],txt 文本中一行標識一個目標(多行對應多個目標)的圖像坐標位置和類別,位置由4 個角點的8 個坐標值組成,(x1, y1, x2, y2, x3, y3, x4, y4)分別是傾斜框4 個頂點的坐標(x1, y1),(x2, y2),(x3, y3),(x4, y4),位置后是類別名,txt 文件的行數即為對應圖像切片上的尾礦庫目標實例個數。

本數據集總共包含1183 個切片,1728 個目標實例,不同年份切片和實例數統計情況見表1。尾礦庫目標檢測數據集典型切片樣本如圖4 所示(真實切片只有圖像無標注框,標注框圖像坐標存在標注標簽文件中)。

表1 不同年份切片和實例數統計表Table 1 Statistics of slices and instances in different years

圖4 尾礦庫目標檢測數據集4 個不同年份切片樣例展示Figure 4 Samples of object detection dataset slices of tailings pond in 4 different years

3 數據質量控制和評估

數據集是人工智能模型訓練的基礎輸入,高質量的數據集才能產出優質和可靠的模型。為保證尾礦庫目標檢測數據集的質量,圖5 給出了本數據集的數據質量控制流程,在衛星數據正射及鑲嵌處理、目標檢測數據集制作環節中均采取了質量控制過程,通過明確質量控制要求、多重檢查等保證數據集樣本的標準化、正確性和完整性。

圖5 數據質量控制流程圖Figure 5 Flow chart of data quality control

勻色鑲嵌圖像質量控制:(1)標準衛星圖像產品的云量和數據質量檢查,確保單景圖像云量低于5%,無掉線等數據缺失問題;有問題數據重新查詢下載替換;(2)正射圖像幾何精度檢查,幾何定位精度優于10 米,景與景之間接邊精度優于2 個像素;不符合要求圖像重新進行幾何處理;(3)融合圖像檢查,融合圖像無重影,紋理細節清晰,無色彩溢出;不合格圖像重新融合處理;(4)勻色鑲嵌檢查,圖像無明顯錯誤、扭曲和重影,圖像接邊處色彩過渡自然,地物接邊合理,無0 值和異常值。

目標檢測數據集質量控制:(1)標注檢查采取自檢、互檢相結合的方式,檢查標注的正確性、傾斜標注框是否與尾礦庫目標貼合、是否存在遺漏等,并對檢查的錯誤進行修改和重新標注;(2)切片檢查,人工檢查圖像切片與標簽是否匹配一致,標簽文件是否缺失等問題,并對錯誤情況確認和修改。

最后獨立的質檢員對數據集進行復核和最終檢查,經過以上步驟和過程質量控制,尾礦庫切片樣本的正確率優于99.5%,數據集整體質量優異。

4 數據價值

遙感圖像的尾礦庫目標檢測在應急監管和環境保護等領域具有重要的應用價值。遙感圖像上的尾礦庫目標尺度變動區間較大、形狀各異,尾礦庫地理背景復雜,尾砂和水體的顏色多樣。遙感圖像尾礦庫自動檢測受限于尾礦庫的以上特點和缺乏樣本數據,自動檢測的精度(準確率和召回率)相對于飛機、艦船等目標要低很多。而當前開源的尾礦庫目標檢測數據集較少,且采用水平框標注。本數據集基于國產高分光學衛星圖像,是多時相的傾斜框尾礦庫目標檢測數據集。傾斜框可以精確定位圖像中的目標,在遙感圖像目標檢測任務中使用帶有角度信息的傾斜框獲可以獲得更優越的性能;同時本數據集提供的多時相、多尺度、不同地理背景和形態各異的尾礦庫樣本有助于提高深度學習模型的泛化能力。我們期待此公開數據集可以促進高分光學衛星遙感圖像的尾礦庫目標檢測研究和推動尾礦庫自動化、智能化檢測的業務化應用。

5 數據使用方法和建議

基于本數據集,可以使用深度學習目標檢測技術開發遙感圖像尾礦庫目標檢測模型,實現尾礦庫的自動化、智能化檢測和提取。本數據集未劃分訓練集和測試集,用戶可以根據需要以一定的比例(例如8:2)將該數據集隨機分為訓練集和測試集。此外本數據集提供的均為原始樣本,未進行數據增廣。深度學習模型的開發需要大量樣本來防止訓練過程中的過擬合,通常會采用數據增強方法提升樣本量,增加樣本的多樣性,用戶可自行對本數據集的樣本進行增廣,可采取的方式包括旋轉、高斯噪聲、翻轉和亮度變化等。

數據作者分工職責

李俊杰(1983—),男,湖南省岳陽市人,碩士,研究員,研究方向為遙感信息提取。主要承擔工作:尾礦庫目標檢測數據集設計與采集規范、方案制定、數據質量檢查。

李敏(1996—),女,安徽省安慶市人,碩士,助理工程師,研究方向為遙感圖像目標智能檢測與識別。主要承擔工作:尾礦庫目標檢測數據集采集規范與樣本切片程序的編寫。

隋正偉(1986—),男,遼寧省大連市人,博士,研究員,研究方向為衛星遙感大數據應用技術。主要承擔工作:尾礦庫目標檢測數據集數據處理方案制定與實施。

蘇文博(1994—),男,河南省駐馬店市人,碩士,工程師,研究方向為遙感圖像目標智能檢測與識別。主要承擔工作:尾礦庫目標檢測數據集采集規范制定。

連亞茹(1993—),女,河北省邢臺市人,本科,助理工程師,研究方向為遙感圖像目標解譯與識別。主要承擔工作:河南省2 米圖像處理與樣本采集。

陳帥(1988—),男,河南省商丘市人,本科,助理工程師,研究方向為遙感圖像目標解譯與識別。主要承擔工作:河南省2 米圖像處理與樣本采集。

原征(1986—),男,遼寧省丹東市人,本科,助理工程師,研究方向為遙感圖像數據處理與制圖。主要承擔工作:尾礦庫目標檢測數據集的質量檢查。

猜你喜歡
尾礦庫切片衛星
尾礦庫空間信息提取與形變監測應用
尾礦庫的環保防滲設計分析
miniSAR遙感衛星
靜止衛星派
筑牢尾礦庫安全防線
基于SDN與NFV的網絡切片架構
Puma" suede shoes with a focus on the Product variables
腎穿刺組織冷凍切片技術的改進方法
冰凍切片、快速石蠟切片在中樞神經系統腫瘤診斷中的應用價值比較
What Would Happen If All Satellites Stopped Working? 假如衛星罷工一天
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合