?

基于3 種不同機器學習算法的滑坡易發性評價對比研究

2024-01-22 07:50王本棟李四全許萬忠楊勇李永云
西北地質 2024年1期
關鍵詞:易發滑坡神經網絡

王本棟,李四全,許萬忠,楊勇,李永云

(1.攀枝花市自然資源和規劃局,四川 攀枝花 617000;2.昆明理工大學國土資源工程學院,云南 昆明 650093;3.西南有色昆明勘測設計(院)股份有限公司,云南 昆明 650051)

滑坡作為世界上最常見的地質災害之一,每年造成數千人傷亡和數千億經濟損失(Francisco et al.,2015;王朋偉等,2023)。對中國來說,由于多山地貌的特點,許多地區受滑坡影響嚴重(孫萍萍等,2022)。近年來,滑坡對環境、居民建筑和工業設施的威脅日益加重(Lin et al.,2012;孟曉捷等,2022;王海芝等,2022;黃煜等,2023),嚴重危害居民的生命財產安全,給國家和社會造成巨大損失(李宇嘉等,2022;田媛等,2022)。因此,丞需一種有效手段來減少滑坡帶來的損害。開展科學、準確的滑坡易發性評價,對制定防災措施具有重要指導意義。

一般來說,通過預測未來滑坡發生的位置和可能性大小,可以在一定程度上減少滑坡的破壞(Pradhan et al.,2010)?;乱装l性因其對滑坡發生相對空間概率的預測能力,被認為是滑坡預防管理的重要工具,也是規避滑坡風險的首要選擇(Dai et al.,2002)。近年來,滑坡易發性評價已成為熱門研究課題。在區域尺度上,易發性評價模型可分為定性評估和定量評估兩大類(賈俊等,2023)。隨著計算機技術、遙感(RS)和地理信息系統(GIS)的飛速發展,滑坡空間數據的獲取變得便捷,基于定量評估的易發性建模方法得到廣泛應用(Shen et al.,2019)。例如,隨機證據權重(Haydar et al.,2016;周宇等,2022)、邏輯回歸(LR)(劉璐瑤等,2021;杜國梁等,2021)、BP 神經網絡(唐睿旋等,2017;康孟羽等,2022;張林梵等,2022)、隨機森林(RF)(劉堅等,2018;林榮福等,2020;馬嘯等,2022)和支持向量機(SVM)(Zhou et al.,2016;Zhu et al.,2022)等方法都在實際應用中取得較為理想的預測結果。在定量評估模型中,機器學習模型表現尤為突出,并被認為比基于專家意見的分析方法更有效預測山體滑坡(Binh et al.,2016)。SVM、BP 神經網絡和RF作為3 種常見的典型機器學習算法,被廣泛應用于滑坡易發性評價,并取得較高的預測精度。然而,受不同地質環境、數據背景影響,模型間的預測精度可能存在較大差異。目前的滑坡易發性研究大多是基于單一機器學習算法實施,缺乏不同算法之間的精度比較,難以獲得研究區內更為準確的滑坡易發性結果。因此,有必要在特定區域內對多種學習模型進行比較,以選擇高性能模型來獲取區域滑坡預測結果。

鑒于此,筆者以云南芒市區域為例,分別基于SVM、BP 神經網絡和RF 等3 種典型機器學習算法獲取其區域滑坡易發性評價結果,并采用不同精度評價指標對其結果進行對比分析,以獲得研究區最佳評價算法及結果。所得最優評價結果能為當地政府部門提供更加準確、可靠的防災減災參考依據。

1 研究區概況及數據源

1.1 研究區概況

研究區芒市地處云南省西南邊境地區,隸屬德宏傣族景頗族自治州,地理位置為E 98°05′~98°44′,N24°05′~24°39′(圖1)。全境是以中、低山地為主的低緯山原地區,最高海拔2 890 m(風平鎮),最低海拔528 m(中山鄉)。山地面積占89%,山體多為東北至西南走向,東北高而峻峭,西南低而寬緩,向西南傾斜展布,河谷與斷裂帶走向一致,甚至發育在斷裂帶上。芒市屬南亞熱帶季風氣候,熱量豐富,夏季濕潤多雨,冬季溫暖少雨,干濕季節分明。降雨主要集中在5~10 月份,年平均降雨量為1 653.4 mm,最多年為1 959.8 mm(楊平芬等,2014)。區內地貌涵蓋侵蝕堆積地貌、巖溶地貌、構造剝蝕地貌、構造侵蝕地貌及火山堆積地貌5 大成因類型,其中以構造侵蝕地貌和巖溶地貌為主(鄭迎凱等,2020)。

圖1 研究區地理位置及樣本分布Fig.1 Geographical location of the study area and distribution of sample

近年來,該區域大肆開展道路修建和礦產資源開采等人類工程活動,致使原有的生態環境遭到破壞。加之境內地質構造復雜,新構造運動強烈,為地質災害的發育提供了有利條件,從而引發泥石流、崩塌和滑坡等一系列災害的頻繁發生,嚴重威脅了區內居民的生命財產安全。

1.2 數據來源

筆者采用的主要實驗數據來源如下:①250 m 空間分辨率的巖性圖,來源于地學服務平臺。②30 m 分辨率的土地利用數據,來源于中國科學院資源環境科學與數據中心。③30 m 分辨率的DEM,來源于美國航空航天局NASA SRTM,用于地形地貌信息提取。④0.1°×0.1°空間分辨率的降雨數據,來源于美國航空航天局NASA GPM,通過反距離權重插值法獲取區域內年均降雨量。

1.3 評價因子

實驗采用100 m×100 m 分辨率的柵格作為評價單元,研究區共計289 609 個柵格單元。結合研究區歷史資料、現場勘探及遙感影像目視解譯,共獲得565個滑坡點作為滑坡基礎樣本數據,并利用GIS 隨機生成相等數量的非滑坡點(黃武彪等,2022)(圖1),一同作為模型輸入的因變量,記發生滑坡為1,未發生滑坡為0。在此基礎上,按照7∶3 的比例將樣本數據進行劃分(Vijendra et al.,2019),70% 用于模型訓練,30%用于模型精度測試。

在當前的滑坡易發性建模中,對于評價因子的選取并沒有固定標準,唯一的原則是保證因子可操作、可測量和非冗余(Ayalew et al.,2005)。因此,在保證評價因子客觀準確的前提下,結合研究區具體特性,選取9 個評價因子:高程、坡度、坡向、平面曲率、剖面曲率、起伏度、地層巖性、年均降雨量和土地利用,作為模型輸入的自變量,并引入灰色關聯分析對所選評價因子與研究區歷史滑坡災害之間的關聯性進行檢驗,得出灰色關聯排序(周定義等,2021)。按關聯度從小到大依次為坡向(0.52)、地層巖性(0.59)、年均降雨量(0.66)、坡度(0.70)、高程(0.74)、起伏度(0.75)、剖面曲率(0.78)、平面曲率(0.81)、土地利用(0.82)。關聯度最低的評價因子為坡向,其關聯度為0.52,均大于0.5,從排序結果可以看出選取的9 個評價因子與研究區歷史滑坡災害之間存在一定的關聯性,均能夠作為該區域滑坡易發性建模的輸入變量。

此外,為保證因子間統一的柵格單元大小,還利用重采樣工具將柵格單元采樣為30 m×30 m 分辨率,并據以往研究者經驗(Adnan et al.,2013;Markus et al.,2015)與災害點分布規律對各評價因子進行分級(圖2)。

圖2 評價因子分級Fig.2 Evaluation factor classification

2 研究方法

2.1 支持向量機(SVM)

SVM 是一種有監督的機器學習算法,基本原理是通過將低維度空間內混雜的、不可劃分的數據投影到高維度空間內,并在相應的高維度空間內尋找最優分類超平面,以實現數據的正確分類(Huang et al.,2020)。

首先假設一組數據為(xi,yi),i=1,2,···,n,通過線性回歸函數f(x)=ω·x+b擬合并確定ω 和b。采用松弛變量ε 來控制分類誤差,相應得線性函數擬合為(黃發明等,2022):

當 ξi、大于0 時表示有分類錯誤,此時變換為求解最小化函數問題,如公式(2)所示,其中常數C大于0 為超出分類誤差ε 的錯分程度,將其帶入拉格朗日函數后的線性擬合函數如公式(3)所示。

式中:ω 為確定超平面方向的權重向量;b為偏差;C為懲罰因子;αi、為支持向量機系數。

2.2 BP 神經網絡(BPNN)

BP 神經網絡由Hinton(1986)于1986 年提出,是一種按誤差反向傳播算法訓練的多層前饋網絡,分別由信息的正向傳播和誤差的反向傳播兩個過程組成(陳玉萍等,2012)。該算法的模型結構和權值通過學習過程獲得,學習過程分為多層前饋和反向誤差修正兩個階段(李東等,2015)。多層前饋數學模型為:

誤差的反向傳播階段采用梯度遞降算法,通過調節各層神經元之間的連接權值,使總誤差向減少方向變化。其表達式為:

則權值調整公式為:

2.3 隨機森林(RF)

隨機森林是一種組合分類模型,它由多棵決策樹{h(X,Θk),k=1,2,···n} 組成。參數集{Θk}是獨立同分布的隨機向量,在給定自變量X的情況下,最優分類結果由每棵決策樹模型投票選出(吳孝情等,2017)。其表達式為(Pham et al.,2018):

式中:m_vote為投票結果。

2.4 模型精度檢驗

為有效地評估3 種算法對滑坡易發性的預測能力,筆者采用受試者工作特征曲線(Receiver-Operating Characteristic,ROC),曲線下面積(Area Under Curve,AUC)以及準確度(Accuracy,ACC)對模型的性能進行評價。ROC 曲線以真陽性率(TPR)為縱軸,以假陽性率(FPR)為橫軸,曲線越靠近左上方,AUC 值越大,判別滑坡發生的精度越高。ACC 則依靠混淆矩陣計算,它能夠度量樣本被正確分類的比例,ACC 值越接近1,說明模型準確性越高。

3 結果與分析

3.1 多重共線性分析

初步選取的滑坡評價因子之間可能存在統計學上的共線性關系,從而使得模型估計失真或難以準確描述因子與滑坡之間的真實關系(王毅等,2021)。因此,在滑坡易發性建模之前,還需檢驗因子間是否存在共線性問題。

通常采用VIF(方差膨脹系數)和容差兩個指標來分析評價因子間的共線性情況,當容差值小于0.1 或VIF 值大于10 時,表示因子間具有較高的共線性程度,需對其進行剔除(Ryuta et al.,2019)。利用SPSS20 獲取評價因子間的共線性關系(表1),所有因子的容差值均大于0.1,VIF 值均小于10,表明因子之間不存在強共線性關系,均可用于后續的滑坡易發性建模。

表1 評價因子多重共線性分析結果Tab.1 Results of multiple covariance analysis of evaluation factors

3.2 滑坡易發性評價結果對比分析

實驗利用GIS 多值提取功能,將各評價因子的分級屬性值提取為前文的樣本數據,然后基于Matlab 語言下的libsvm 框架構建SVM 模型,SPSSPRO 構建BP 神經網絡模型和RF 模型,以此對研究區289 609個柵格單元進行滑坡易發性指數計算,輸出0~1 之間的滑坡概率值,并導入到Arcgis10.7 中。采用自然間斷法(Chen et al.,2017)將其劃分為5 個等級:極低易發、低易發、中易發、高易發和極高易發,以此得到3 種算法下的芒市區滑坡易發性評價結果(圖3)。

3 種算法評價得出的研究區滑坡易發性結果(圖3)在空間位置分布上存在一定的相似性和差異性。具體而言,在3 種算法得到的易發性結果中,極高易發區集中分布在五岔路鄉和江東鄉一帶,說明這一帶相對其他區域,發生滑坡的可能性較大,和前人研究結果(鄭迎凱等,2020)相一致;極低易發區則主要分布在軒崗鄉、芒市鎮以及風平鎮,這些區域由于地勢平坦,地形地貌簡單,不利于滑坡發生,因此被賦予了較低的易發性等級。從上述幾個典型區域的易發性等級劃分來看,3 種算法得到的結果都與實際情況具有較高的吻合度。三者之間的差異性則體現在遮放鎮、勐戛鎮一帶的南部地區,這些地區在BP 神經網絡和RF 得到的評價結果中幾乎被賦予了中易發等級;而在SVM 結果中,卻被賦予了極高易發等級,不同算法對研究區內評價因子與滑坡易發性的非線性擬合能力可能是造成差異的首要原因,即算法的性能不同,所獲取的易發性評價結果的準確性也有所不同。

通過定性方面的比較,并不能得出3 種算法的優劣。因此,下文將從定量的角度對模型評價結果的準確性進行詳細分析,以獲得芒市地區最佳易發性評價模型。

3.3 評價精度對比分析

為對模型評價結果的準確性進行量化分析,采用統計的方式計算出模型測試樣本的ACC 值(表2),并在SPSS 20 中繪制3 種模型的ROC 曲線(圖4)。結合表2 和圖4 可以看出RF 模型的ACC 值和AUC 值最高分別為0.867 和0.94,BP 神經網絡次之為0.829 和0.90,SVM 最低為0.794 和0.88。RF 算法無論是ACC值還是AUC 值,均優于其他兩種算法,AUC 值較SVM 和BP 神經網絡分別提升了4%和6%,表明在芒市地區,RF 模型具有更高的滑坡預測能力。

圖4 測試樣本ROC 曲線Fig.4 Test sample ROC curve

此外,科學合理的滑坡易發性評價結果還需滿足兩個標準:①隨著易發性等級增加,分級面積占比逐漸減小。②隨著易發性等級增加,滑坡比(Sei)逐漸增大(Harlow et al.,2005)。在本研究中,滑坡比為實際滑坡點落入各級易發區的百分比(Dei)與各級易發區面積占總面積的百分比(Mei)的比值(Sei)(i=I,II,III,IV,V)。

由表3 可知3 種算法均滿足上述兩個準則,從極低到極高,易發性分區面積比(Mei)逐級遞減,Sei值逐級遞增。盡管如此,由于數值差異,它們的合理性依然具有一定的可比性。極低易發區的SeI值越小,極高易發區的SeV值越大,模型的合理性越高(劉希林等,2017)。檢驗結果顯示在SVM、BP 神經網絡、RF 評價結果中,分別有74.69%、82.30% 和86.91% 的滑坡點落入高易發等級以上區域,SeI和SeV值分別為0.19和6.85,0.11 和9.14,以及0.07 和9.21,最小SeI值和最大SeV值均為RF 算法所得,說明RF 芒市區滑坡評價結果的合理性要優于其他兩種算法。

表3 易發性分區合理性檢驗結果Tab.3 Rationality test results of susceptibility zoning

3.4 野外考察驗證分析

根據野外實地考察,發現遮放鎮新增一處滑坡,該滑坡位于墾西社區七隊,長約30 m,寬約60 m,屬于小型滑坡,雖沒有人員傷亡,但仍舊對周邊設施造成了破壞。本次實驗利用該滑坡對3 種算法的災害預測能力進行評估,進一步對比驗證模型的準確性。

此次滑坡的發生對附近的植被、道路、居民建筑造成一定程度的損壞。如圖5d~圖5e 所示,受該滑坡影響,在一戶居民家中發現約1~2 m 長的拉張裂縫;坡體邊緣植被倒塌,道路中央也出現長約12 m 的裂縫,由于滑坡規模較小,并未帶來較為嚴重的損失。由圖5a~圖5c 可知,這次滑坡的空間位置分別位于SVM 滑坡易發性評價結果的極低易發區,BP 神經網絡的中易發區,RF 的高易發區。從3 種評價結果的等級劃分來看,RF 算法對此次滑坡進行了很好的空間位置預測,得到與實際情況更為一致的滑坡預測結果。

綜上可知,無論是評價結果分級的合理性,還是滑坡預測的準確性,RF 算法在芒市的滑坡易發性評價應用中都表現出明顯的優勢,相比其他兩種算法更適合用于該區域的易發性評價結果獲取。這也說明即使在同一區域,相同的地理環境條件,不同模型獲得的結果也會不盡相同。通過不同模型對比的方式,可以獲得更為準確、可靠的研究區易發性評價結果。

4 結論

(1)3 種算法獲得的滑坡易發性結果在極低和極高易發區的空間位置分布上具有較高的一致性,極低易發區集中分布在軒崗鄉、芒市鎮以及風平鎮區域,極高易發區分布在五岔路鄉和江東鄉一帶。

(2)利用SPSS 繪制3 種算法的ROC 曲線,得到SVM、BP 神經網絡和RF 的AUC 值分別為0.88、0.90、0.94。RF 的AUC 值較SVM 和BP 神經網絡分別提升5.2%和3.2%,表明RF 算法在芒市地區的滑坡預測能力要優于其余兩種算法。

(3)通過對滑坡比值(Sei)進行統計,發現SVM、BP 神經網絡和RF 在極低易發區的SeI值分別為0.19、0.11 和0.07,在極高易發區的SeV值分別為6.85、9.14和9.21。SeI的最小值和SeV的最大值均由RF 算法所得,并且該算法還得到與實地考察情況更為一致的滑坡評價結果。充分說明RF 算法獲得芒市滑坡易發性結果的準確性高于其他兩種算法,能夠為該區域的防災減災提供可靠參考。

猜你喜歡
易發滑坡神經網絡
機用鎳鈦銼在乳磨牙根管治療中的應用
貴州省地質災害易發分區圖
夏季羊易發疾病及防治方法
滑坡推力隱式解與顯式解對比分析——以河北某膨脹土滑坡為例
冬季雞腸炎易發 科學防治有方法
神經網絡抑制無線通信干擾探究
淺談公路滑坡治理
基于Fluent的滑坡入水過程數值模擬
基于神經網絡的拉矯機控制模型建立
“監管滑坡”比“渣土山”滑坡更可怕
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合