?

基于頻率比模型和隨機森林模型耦合的地質災害易發性評價

2024-01-06 04:30翟文華王小東吳明堂吳曉亮李倩倩
自然災害學報 2023年6期
關鍵詞:巖組易發柵格

翟文華,王小東,吳明堂,吳曉亮,李倩倩

(1. 華北水利水電大學 地球科學與工程學院,河南 鄭州 450000; 2. 中國電建集團華東勘測設計研究院有限公司,浙江 杭州 310000)

0 引言

中國是一個地質災害多發的國家,依據自然資源部發布的數據,2021年全國發生地質災害4772起,造成大量的人員傷亡和經濟損失。而在我國南部地區由于受雨水浸泡、河流沖刷和人類工程活動的影響,多數山區城鎮面臨滑坡、崩塌此類地質災害的威脅,需進行區域性地質災害易發性評價。地質災害易發性評價[1]是區域預警評價前期重要的準備工作,主要研究在一定空間下由于環境因素導致地質災害發生概率的大小,其對區域防災減災有著重要意義。

目前地質災害易發性評價模型眾多,以知識驅動模型和數據驅動模型為主[2]。知識驅動模型以專家經驗為主,評估過程簡單,容易理解,但其主觀性過強,導致評價結果無法進行對比分析[3],常用的知識驅動模型有模糊邏輯[4]、層次分析[5-6]和專家打分法[7]。數據驅動以機器學習為主,能夠高效地解決地質災害與環境因子間復雜的非線性關系,常用的數據驅動模型有支持向量機[8-9]、邏輯回歸[10]、隨機森林[11]和神經網絡[12]等。如黃發明等[13]將聚類分析與支持向量機相結合運用到重慶市地質災害多發區段的萬州區進行滑坡易發性評價,結果表明聚類分析-支持向量機模型比支持向量機模型具有更好的預測效果。何書等[11]將自組織特征映射網絡模型和隨機森林模型結合對江西省贛州市西南部地區進行了滑坡易發性評價模型,結果顯示自組織特征映射網絡與隨機森林相結合的模型比隨機森林模型具有更高的預測精度。黃立鑫等[12]將徑向基函數神經網絡模型與信息量模型進行耦合,進而對甘肅省岷縣進行滑坡災害易發性評價,結果表明徑向基函數神經網絡與信息量耦合模型比單一的神經網絡及信息量模型具有更好的評價精度。綜上所述,數據驅動模型在地質災害易發性評價領域具有廣泛的應用。為了對模型進行有效訓練和測試,需選取與已知地質災害單元量相匹配的非地質災害單元量,而非地質災害單元的選取目前只是主觀推測或隨機選取,可能導致選取的非災害單元位于地質災害單元附近的潛在地質災害單元之上[14],并不能保證所選的非地質災害單元具有較低的易發性。為減少此類情況的發生,提高地質災害單元與非地質災害單元的辨識度,采用從頻率比模型結果中選取非地質災害單元。在此基礎上,構建頻率比支持下的隨機森林模型進行地質災害易發性評價。

近年來,浙江省長興縣李家巷地區經濟快速發展,工程活動不斷加劇,造成該地區地質環境不斷惡化,多地區發生滑坡、崩塌,對當地居民的生命及財產造成了威脅。因此,本文以李家巷為研究區,利用頻率比-隨機森林模型對李家巷進行地質災害易發性評價,隨后將頻率比-隨機森林模型與隨機森林模型進行比較,探討本文提出方法的可行性。

1 研究區概況及數據源

1.1 研究區概況

李家巷鎮位于浙江省長興縣,總面積約53.13km2,地勢總體西低東高如圖1所示,研究區內水系眾多,多年平均氣溫為23℃,多年平均降水量達1701 mm,屬亞熱帶季風氣候。地層巖性主要以砂巖、碎屑巖、礫巖和碳酸鹽巖為主。近年來,李家巷人類工程活動加劇,如城市建設、礦產開采等,都會對環境造成一定程度的危害,進而引發地質災害的發生。以上復雜的環境條件,共同孕育了李家巷地區頻發的地質災害。研究區典型的地質災害有第二石礦礦區南側滑坡如圖2所示。

圖1 研究區位置Fig. 1 Location of the study area

圖2 研究區滑坡現場照片Fig. 2 Photo of landslide site in the study area

1.2 數據源

本研究采用的數據源于歷史地質災害數據庫、全球地表覆蓋數據庫、地理空間數據云平臺、李家巷地質災害風險評價報告,主要包括:LandsatTM8影像1景(2019-05-23,軌道號119/038),用于獲取歸一化植被指數(normalized difference vegetation index, NDVI); 數字高程模型(digital elevation model, DEM)數據用于提取坡向、坡度和曲率等信息;通過1∶50000地質圖提取斷層,巖組等信息;地質災害編錄數據和野外調查資料等。研究區地質災害分布的總面積達975209 m2,本文采用10 m×10 m的柵格,研究區共劃分為156051個地質單元柵格。

2 評價方法

2.1 頻率比計算

易發性評價的基礎是對某一環境指標因子進行分類并計算各分類狀態對災害的影響程度,常采用頻率比[15]來實現該過程以提高分類的準確性。頻率比(frequency ratio, FR)可以歸納為某因子分類區間內災害柵格數占所有災害柵格百分比與該分類區間柵格數占研究區總柵格數百分比的比值。計算公式為:

(1)

式中:Fj為某因子在分類區間內出現地質災害的柵格數;F為區間內所有地質災害柵格總數;Cj為某因子在分類區間內的柵格數;C為研究區柵格總數。

FR表明了評價因子各分類區間對于地質災害發生的影響程度:FR>1表明該評價因子分類區間對地質災害的發生具有較強的影響。FR≤1說明該評價因子分類區間對災害發生影響不大。

2.2 隨機森林模型

為了彌補單棵決策樹的不足,本文采用隨機森林(random forest, RF)算法。隨機森林是一種新型集成分類器[16]。使用Bootstrap重采樣技術,從樣本集T中有放回地隨機抽取n個樣本(占總樣本的2/3)作為訓練樣本集,每條訓練樣本數據用于訓練一棵樹,共生成n個樹組成的森林,預測數據時需根據n棵樹的結果,取眾數或平均值作為結果,流程如圖3所示。隨機森林參數的選擇將會直接干擾模型泛化能力和預測效果,本文利用網格搜索算法確定模型的基本參數(森林中的樹木數量、樹的最大深度、特征數量等)。

圖3 隨機森林算法流程Fig. 3 Flow of random forest algorithm

2.3 頻率比-隨機森林模型構建流程

頻率比-隨機森林(FR-RF)模型主要包含4步:①對評價因子進行相關性分析及利用頻率比計算各評價因子對地質災害的影響程度;②根據頻率比模型結果進行非地質災害單元的選取;③將地質災害單元、選取的非地質災害單元和評價因子輸入到的RF模型中,進行易發性評價計算;④對RF模型和FR-RF模型進行評估和對比分析,具體流程如圖4所示。

圖4 頻率比-隨機森林模型流程Fig. 4 Frequency ratio-random forest model process

3 評價指標體系建立

評價因子的選取和評價單元的確定是進行災害易發性評價的重要前提條件。地質災害的發生不僅由環境因素引起還與人類活動有關,在結合相關文獻[1-13]中相似地區的地質條件、災害發育特征及形成背景的基礎上,從本文1.2節數據源中獲取評價指標,并進行相關性分析(表1)以確保環境因子之間具有較弱的相關性。最終選取9個環境因子:高程(DEM)、坡度、坡向、巖組、剖面曲率、距離斷層的距離、距離水系的距離、土地利用和歸一化植被指數(NDVI),如圖5所示。地質災害易發性評價的基本評價單元主要包含柵格單元、斜坡單元、行政區劃單元等[17-18],柵格單元具有結構簡單、方便計算等優勢,因此本文以柵格作為基本評估單元。

表1 評價因子間的相關系數Table 1 Correlation coefficients among evaluation factors

圖5 評價因子專題圖Fig. 5 Evaluation factors

這些數據包含連續型因子和離散型因子,結合各因子分布規律利用等間隔或自然斷點法進行劃分,劃分結果如表2所示。其中巖組中NT為以黏性土為主的巖組,Qg為堅硬塊狀以花崗巖為主的酸性巖巖組,Sc為堅硬較堅硬以砂巖、礫巖為主的粗碎屑巖巖組,Sf為軟硬不均較堅硬中層以粉砂巖、泥巖為主的細碎屑巖巖組,Tc為堅硬中至厚層狀以碳酸鹽巖為主的巖組,Tcc為較堅硬薄至中層狀以碳酸鹽巖、碎屑巖為主的巖組。本文使用頻率比計算環境因子的各分類區間對地質災害發生的影響程度。由表2可知,高程在17~302 m范圍內、坡度大于10°的坡面、坡向為北、南和西南、NDVI在0.0~0.23和大于0.51、斷層距離小于600 m、水系距離小于700 m、土地利用類型為草地林地以及巖組為Sc,Sf和Tc分別在各所屬因子里面占據較高的頻率比值,易導致地質災害的發生。

表2 各評價因子頻率比值Table 2 Frequency ratio of each evaluation factor

4 災害易發性評價

4.1 頻率比模型

利用FR對環境因子的各分類區間進行計算,將9個環境因子的各分類區間按頻率比值高低進行重分類,將重分類后的柵格數據進行疊加分析。結合地質災害易發性指數分布規律,將李家巷鎮劃分為5個易發性等級區間:極高[0.9,1)、高[0.7,0.9)、中等[0.3,0.7)、低[0.1,0.3)和極低[0,0.1),5個易發區由高至低分別占總面積的2.36%、15.85%、40.41%、41.21%、0.16%,FR模型計算得到的李家巷地質災害易發性結果如圖6所示。由表3可知,極高和高易發區約占地質災害總面積的93.34%,而極低易發區約占地質災害總面積的0%,在研究區的中部地區地形平坦災害發生概率幾乎很小,但在該模型分析結果中,有大量的中易發區在中部地區,可見FR模型預測出的易發性結果具有偏差。

表3 基于頻率比模型地質災害易發性等級的頻率比Table 3 Frequency ratio of geological hazard susceptibility grades based on frequency ratio model

圖6 疊加分析計算得到的易發性分布及非地質災害單元選取Fig. 6 Distribution of susceptibility calculated by superposition analysis and the selection of non-geological hazard units圖7 隨機森林計算得到的易發性分布及非地質災害單元選取Fig. 7 Susceptibility distribution by random forest calculation and the selection of non-geological hazard units

由于地質災害往往發生于暫未發生地質災害的區域,為避免隨機選取的非地質災害單元落到潛在地質災害上,在FR模型結果中的低和極低易發區隨機選取與已知地質災害單元樣本量匹配的非地質災害單元,非地質災害單元的選取結果如圖6所示。隨機選取的非地質災害單元主要分布在平原區,部分點分布在坡度較緩的山區,表明經頻率比模型篩選非地質災害單元的空間分布合理。

4.2 隨機森林模型

在研究區隨機選取與地質災害單元樣本量匹配的非地質災害單元如圖7所示,并將地質災害單元和非地質災害單元的集合分為兩部分:70%用于模型訓練,30%用于模型測試。將地質災害單元設為1,非地質災害單元設為0。并將所有環境因子都進行特征標準化處理作為模型的輸入變量。采用網格搜索算法和交叉驗證對RF模型進行參數優化和檢驗。計算的易發性結果采用同樣的等級分區,5個易發區由高至低分別占總面積的1.53%、1.99%、8.37%、10.66%、77.44%,RF模型計算得到的李家巷地質災害易發性如圖7所示。由表4可知,極高和高易發區約占地質災害總面積的55.92%,而極低易發區約占地質災害總面積的7.68%,可見RF模型預測的地質災害易發性結果也存在一定的偏差。

表4 基于隨機森林模型地質災害易發性等級的頻率比Table 4 Frequency ratio of geological hazard susceptibility grades based on random forest model

4.3 頻率比-隨機森林模型

利用4.1節中選取的非地質災害單元,并結合地質災害單元作為RF模型的輸入變量,采用網格搜索算法和交叉驗證對RF模型進行參數優化和檢驗。為確保不同模型的易發性評價結果具有可對比性,FR-RF模型的易發性結果同樣將研究區劃分為5個等級,5個易發區由高至低分別占總面積的9.43%、4.40%、9.60%、4.03%、72.53%。FR-RF模型計算得到的李家巷地質災害易發性如圖8所示。由表5中可知,極高和高易發區約占地質災害總面積的81.90%,而極低易發區約占地質災害總面積的0%,可見FR-RF模型具有較高的準確度。

圖8 頻率比-隨機森林計算得到的易發性分布Fig. 8 Susceptibility distribution by frequency radio-random forest calculation圖9 評價指標因子的貢獻程度雷達圖Fig. 9 Contribution degree radar diagram of evaluation index factors

表5 基于頻率比-隨機森林模型地質災害易發性等級的頻率比Table 5 Frequency ratio of geological hazard susceptibility grade based on frequency ratio-random forest model

RF模型和FR-RF模型兩者分析結果都表明了在研究區的東北部和東南部地區是地質災害的主要發生地區,中部、北部以及南部地區幾乎沒有地質災害發生。FR-RF模型在極高和高易發區所占地質災害總面積數比RF模型高25.98%,在極低和低易發區所占地質災害總面積數比RF模型低16.7%。由圖8可知,FR-RF模型的極高易發區在東北部以及南部邊界地帶以及中部偏東地區明顯高于RF模型,且根據實際調查結果,表明FR-RF模型與實際災害分布更為吻合,劃分效果更好。利用FR-RF模型,得到研究區地質災害易發性評價因子的貢獻程度雷達圖如圖9所示,結果表明,坡度和工程巖組是該研究區地質災害的主控因素,相對重要性占比分別為37.7%和28.0%。

5 模型的校驗與對比

本文通過接受者操作特性曲線(receiver operating characteristic curve, ROC)下面積(area under curve,AUC)、準確率(Accuracy)、特異性(Specificity)和敏感性(Recall)對模型性能進行評估,其中AUC通常大于0.5小于1,AUC值越大,模型性能越好,采用測試樣本繪制ROC曲線,如圖10所示。Accuracy是正確預測地質災害單元和非地質災害單元的樣本占所有樣本比例,值介于0和1之間;Recall為能正確預測地質災害單元的能力;Specificity能正確預測非地質災害單元的能力。RF和FR-RF模型在測試集上的評估結果如表6所示,FR-RF模型具有較高的AUC、Accuracy、Specificity和Recall,FR-RF模型比RF模型的AUC、Accuracy、Specificity和Recall分別高出6%、11.66%、9.51%和13.71%。FR-RF模型的Recall和Specificity分別為98.33%和93.33%,這表明FR-RF模型對地質災害單元和非地質災害單元的預測都具有較好的性能。由此可見,FR-RF具有比隨機選取災害單元的RF模型更高的預測率,能更加有效地反映李家巷地質災害的分布特征。

圖10 模型計算的災害易發性預測率曲線Fig. 10 Disaster susceptibility prediction rate curves calculated by the model表6 隨機森林和頻率比-隨機森林模型性能對比Table 6 Performance comparison of random forest and frequency ratio-random forest models %評估指標RFFR-RFAUC90.0096.00Accuracy84.1795.83Specificity83.8293.33Recall84.6298.33

6 結論

本文以浙江省長興縣李家巷鎮作為研究區,分別采取FR模型、RF模型及FR-RF模型,對研究區進行地質災害易發性評價,得出如下結論:

1) 本文采用高程、坡度、巖組、剖面曲率、坡向、歸一化植被指數、土地利用、距水系距離和距斷層距離9個評價因子進行地質災害易發性評價,經模型重要性分析表明,坡度、工程巖組是該研究區地質災害的主控因素,相對重要性占比分別為37.7%和28.0%。

2) 根據浙江省長興縣李家巷鎮地質災害發育與分布特征,本文利用FR與RF耦合的方法,確定的非地質災害單元的選取,建立了FR-RF模型,并對研究區進行了地質災害易發性評價。FR-RF模型比單一的RF模型AUC、Accuracy、Specificity和Recall分別高出6%、11.66%、9.51%和13.71%。表明FR-RF模型不僅能夠有效選取非地質災害單元,而且對地質災害單元和非地質災害單元預測都具有較好的性能,并且在地質災害易發性預測方面具有較高的精度。

3) 基于FR-RF模型對研究區進行地質災害易發性評價結果與實際地質災害分布相對應,極高易發區和高易發區主要分布于存在碎屑巖和坡度較大的區域。隨著易發性級別的增大,各等級內地質災害柵格數量隨之增大,說明采用FR-RF模型確定的易發性分區與實際地質災害發生情況相吻合。

猜你喜歡
巖組易發柵格
銀川市地下水賦存條件及動態特征
機用鎳鈦銼在乳磨牙根管治療中的應用
貴州省地質災害易發分區圖
夏季羊易發疾病及防治方法
基于鄰域柵格篩選的點云邊緣點提取方法*
冬季雞腸炎易發 科學防治有方法
淮南潘集深部勘查區15-2孔工程地質巖組劃分
白音華煤田三號露天礦區水文地質條件分析
不同剖面形狀的柵格壁對柵格翼氣動特性的影響
基于CVT排布的非周期柵格密度加權陣設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合