?

災害大數據驅動的縣域重大洪澇過程災害風險評估*

2022-02-05 13:43劉蓓蓓郭桂禎
災害學 2022年4期
關鍵詞:災體洪澇災情

林 森,劉蓓蓓,閆 雪,孫 寧,郭桂禎

(應急管理部國家減災中心,北京100124)

根據應急管理部發布數據,2021年我國重大洪澇災害共造成5 901萬人次受災,因災死亡失蹤590人,倒塌房屋15萬間,直接經濟損失2 459億元。其中,華北、西北地區洪澇災害歷史罕見,特別是7月份河南遭遇特大暴雨洪澇災害,造成近1 500萬人受災,直接經濟損失1 200億元[1]。隨著全球氣候變化、極端氣候事件頻發和社會經濟的快速發展,暴雨多、強度大、損失重已成為洪澇災害的趨勢[2-3]。減少洪澇災害損失,減輕洪澇災害風險是我國洪澇災害風險管理中的必要任務。

風險評估是風險管理的重要基礎。根據洪澇災害風險評估的時間段,可分為針對區域歷史災害的風險分析和針對實時重大洪澇過程的風險預測兩大類。前者可用于風險區劃和洪水風險圖編制,幫助政府制定長期規劃,主要方法是通過指標體系對區域風險進行評估,一般選擇致災因子、承災體、孕災環境、防災減災能力等災害系統相關指標[4-5],經過層次分析法、熵權法等方法確定指標權重,進行加權求得一個綜合風險指數,在此基礎上進行風險等級劃分,此類方法主觀性較強[6-7],結果以定性評價為主,另外還有模型模擬[8-9]、信息擴散[10-11]等方法。針對實時重大洪澇過程的災害風險評估研究相對較少,其目的是對即將發生的洪澇過程預測承災體期望損失和災害風險分布,為災害預警和應急響應提供依據。目前,國際上單災種風險評估模型以半定量化和定量化模型居多,如美國的自然災害風險評估模型(HAZUS)[12]、世界銀行的概率風險評估模型(CAPRA)[13]等,這些模型大多基于致災因子危險性(H) 、承災體脆弱性(V)、承災體暴露度(E)三要素[14]。對洪澇災害而言,一般是將不同強度暴雨概率、承災體脆弱性函數、承災體分布三者進行耦合,構建定量化風險評估模型[15-16],用于評估單次洪澇過程可能造成的人口、房屋、農作物、經濟等期望損失[17]?;贖-V-E框架的洪澇風險評估模型核心是計算不同暴雨概率和開展尺度適宜的脆弱性函數研究[18-21],該方法在應用中可能存在三個方面的困難:①尺度太小會導致樣本量小,難以獲取較好的回歸函數,影響脆弱性函數表現[22],而尺度太大會導致脆弱性代表性不足;②建模復雜,需要分步驟開展危險性和脆弱性研究,而且不同強度危險性分級會造成計算結果離散化,不能形成連續度量;③難以考慮到災害系統中其他指標,如孕災環境指標、防災減災能力指標等[23]。

大數據背景下,數據驅動的機器學習算法應用逐漸增多,很多算法被用于建立災害風險評估模型,其優勢是能夠利用大樣本數據進行建模[24-25],建模過程淡化了傳統災害風險理論中危險性、脆弱性等概念,簡化了模型搭建步驟,同時,還可以考慮更多的相關指標。例如,劉芳利用降雨量、孕災環境等13個指標建立了人工神經網絡(ANN)模型,用于對浙江的臺風-暴雨災害風險進行動態預評估[26];OPELLA等基于卷積神經網絡(CNN)和支持向量機(SVM)算法建立了考慮10個指標的洪澇災害風險評估模型[27];LI等利用13個指標對比了邏輯回歸、樸素貝葉斯等模型在洪澇風險評估中的表現[28]。雖然上述方法在一定程度上提高了評估效率,但是仍存在明顯缺點,主要是不易說明各模型參數的作用,類似于“黑箱”操作,無法解釋不同指標在災害風險評估中所起的作用[29]。集成學習方法正好能解決上述缺點,該類算法是將多個弱學習器組合建立一個強學習器,能夠提高單一模型的泛化能力和穩健性。集成學習不但能提高預測準確率,更重要的是利用其原理可以有效評估指標對最終評估結果的貢獻值[30-32]。其中,XGBoost模型被認為是集成學習算法中性能最好的方法之一。

我國目前已形成覆蓋國家-省-市-縣-鄉-村六級的災情報送網絡體系,建成了長時間序列、高精細度的災害事件案例庫,為數據驅動的模型構建提供了保障。本文選取我國南方地區洪澇災害案例作為訓練樣本,在縣域層級收集可能影響重大洪澇過程災害風險的23項指標,基于XGBoost算法建立重大洪澇過程災害風險評估模型,對南方地區重大洪澇過程中人口、農作物、房屋、經濟等損失風險以及綜合風險進行評估,并驗證指標量和樣本量增加對于提升模型性能的意義。

1 數據與方法

1.1 研究范圍

江淮地區、長江中下游地區、華南地區、西南地區等南方地區歷來是我國洪澇災害影響最大和損失最重的區域[33]。一般進入主汛期,南方地區會遭受多次大范圍降雨過程,基本上每年都會有重大洪澇災害發生。本文在縣級行政單元的尺度上,收集了2012—2021年南方地區650個有災情上報的重大洪澇過程案例,除去無法匹配降雨過程的,有625個案例用于模型研究,其中,621個案例用于模型訓練,4個案例用于模型測試。訓練案例共有12 640個縣級樣本,涉及江蘇、浙江、安徽、福建、江西、湖北、湖南、廣東、廣西、重慶、四川、貴州、云南等13省(自治區、直轄市)1 120個縣;測試案例是2021年7月洪澇過程,涉及安徽、湖北、湖南、重慶4省(直轄市)97個縣(圖1)。

圖1 縣級訓練樣本和測試案例分布(審圖號:GS(2019)1823號,底圖無修改,下同)

1.2 評估指標與等級劃分

1.2.1 評估指標選取

洪澇災害是由致災因子、孕災環境、承災體、災情損失構成的復雜系統,災情損失是由致災因子、孕災環境、承災體三個子系統相互作用的產物[34]。歷史災情能夠反映區域災害風險的大小,數據驅動的風險評估模型是通過探索歷史災情大數據與致災因子、孕災環境、承災體等災害系統指標的相關關系來建立。本文對上述625個洪澇過程分別匹配了4個維度23項指標(圖2),數據來源如表1所示。

圖2 重大洪澇過程災害風險評估指標體系

表1 指標數據來源

(1)致災因子指標。主要是重大洪澇過程的降水數據統計,包括洪澇過程的縣域累積雨量、最大雨量、平均雨量以及汛期以來累積降雨量。其中,最大雨量是指洪澇過程的單日最大降雨量;汛期以來累積降雨量統計的是從當年5月1日起到當前過程發生時的累積降雨,考慮的是當年的累積雨量對當前過程的影響。

(2)孕災環境指標。主要考慮河網和地形影響,包括河網密度和地形指數。其中,河網密度指縣域內河道總長度占縣域面積的比例,地形指數是水文模擬參數之一,可以表征區域徑流面積、坡度等信息。

(3)承災體指標。主要提供縣域承災體信息,包括人口密度、耕地面積、房屋結構及人均住房間數、GDP密度等指標。

(4)災情損失指標。主要考慮國家自然災害統計制度中涉及的指標,包括人口損失、農作物損失、房屋損失和經濟損失。其中,人口損失指標用以評估人口損失風險,具體還包括受災人口、死亡失蹤人口、緊急轉移安置人口等3項指標;農作物損失指標用以評估農作物損失風險,具體還包括農作物受災面積、農作物絕收面積等2項指標;房屋損失指標用以評估房屋損失風險,具體還包括倒塌和嚴重損壞房屋、一般損壞房屋等2項指標;經濟損失指標用以評估直接經濟損失風險,含1項指標。

另外,綜合災情指數是基于災情損失各類指標計算的一個指數,用以評估洪澇過程的災害損失綜合風險。綜合災情指數計算有多種方法[35-37],本文采用文獻[35]的災情絕對指數計算方法,對各項指標歸一化后,采用加權平均計算,各指標項選取及相應的權重如圖3所示。

圖3 綜合災情指數計算所用的指標及權重

1.2.2 災情損失與風險等級劃分

災情損失與風險等級劃分標準統一是評估模型的基礎。本文將縣域洪澇災情損失劃分為3級:輕災、中災、重災,相對應的縣域洪澇過程災害風險評估結果等級劃分為3級:有一定風險、中風險、高風險。這里認為凡是能預測到有損失可能性的都是有一定風險的,代替傳統的低風險等級。實驗中將對受災人口、緊急轉移安置人口、農作物受災面積、倒塌和嚴重損壞房屋、直接經濟損失以及綜合風險等6項指標分別建模和評估,這些指標常用于實際風險管理工作??紤]到重大洪澇過程風險評估有實際業務傾向,每個指標的災情損失或風險等級劃分閾值的確定主要參考相關災害管理辦法和歷史經驗(表2)。

1.3 XGBoost算法

XGBoost是集成學習中Boosting家族中的算法[38],目標是將多個弱分類器提升為一個強分類器,用于數據集的分類或回歸。XGBoost核心是對算法的損失函數加上了正則化部分,并且損失函數對每一步的誤差部分做二階泰勒展開,更加準確。XGBoost的損失函數形式為:

(1)

式中:L表示損失函數,t表示迭代次數,i表示第i個樣本,m表示樣本數量,f(x)和h(x)分別表示強學習器和弱學習器,J是葉子節點個數,ωtj是第j個葉子結點的最優值,λ和γ是正則化系數。XGBoost算法流程總結如下:

模型輸入:訓練集D={(x1,y1),(x2,y2),…,(xN,yN)},xi∈X?Rn,yi∈Y?R;損失函數L;最大迭代次數T。

模型過程如下:

(1)計算第i個樣本當前輪損失函數L基于ft-1(xi)的一階導數gti和二階導數hti,然后計算所有樣本的一階導數和Gt以及二階導數和Ht。

(2)嘗試分裂決策樹,默認分數score=0,G和H分別為當前需要分裂節點的一階導數和以及二階導數和,對指標序號k=1,2…K,有

①GL=0,HL=0。

②按指標k將樣本從小到大排列,依次取出第i個樣本,計算該樣本放入左子樹后,左右子樹的一階導數和以及二階導數和:

GL=GL+gti,GR=G-GL;

(2)

HL=HL+hti,HR=H-HL。

(3)

③更新最大分數:

score=

(4)

(3)基于最大分數對應的指標分裂決策樹。

(4)如果最大得分為0,則當前決策樹建立完成,更新當前輪強學習器ft(x),進入下輪迭代;如果最大得分不為0,則轉到步驟(2),繼續分裂決策樹。

表2 縣域災情損失和風險等級劃分閾值

1.4 模型建立與性能評估

本文基于XGBoost算法分別建立洪澇過程中受災人口風險、緊急轉移安置人口風險、農作物受災面積風險、倒塌和嚴重損壞房屋風險、直接經濟損失風險、災害綜合風險等6個風險評估模型。所有模型以致災因子、孕災環境、承災體三類指標為輸入向量,以不同損失風險等級為輸出向量,具體模型建立流程如圖4所示。

圖4 基于XGBoost的洪澇災害風險評估模型建立流程

其中,模型調參采用10折交叉檢驗優化參數,對XGBoost模型主要3個參數進行格網搜索,分別是弱分類器個數、決策樹最大深度和學習率,6個模型最優參數及訓練集準確率如表3所示。

為評估模型精度,選取準確率(ACC)、查準率(P)、召回率(R)、F值(F)等4個評價指標:

(5)

(6)

(7)

(8)

式中:TP表示真陽性(True Positive),即本身是正樣本,預測也是正樣本;TN表示真陰性(True Negative),即本身是負樣本,預測也是負樣本;FP表示假陽性(False Positive),即本身是正樣本,預測是負樣本;FN表示假陰性(False Negative),即本身是負樣本,預測是正樣本。上述評價指標中,準確率表示所有預測正確的樣本占總樣本的比例;查準率表示預測為正的樣本中是真正的正樣本的比例;召回率表示實際樣本中的正例被預測正確的比例;F值是平衡查準率和召回率的指標,是二者的調和平均值。

2 結果與討論

2.1 案例驗證

本文以2021年7月中旬的南方降雨過程作為案例,驗證基于XGBoost算法建立的重大洪澇過程災害評估模型的應用效果。這次洪澇過程造成安徽、湖北、湖南、重慶等地97個縣發生災害,共造成90余萬人受災,直接經濟損失近10億元。

利用建立的模型分別對受災人口、緊急轉移安置人口、農作物受災面積、倒塌和嚴重損壞房屋、直接經濟損失、災害綜合風險進行評估,然后與縣級實際災情損失等級對比,結果如表4所示。

可以看出,模型整體上性能較優,除直接經濟損失風險評估外,其他風險評估結果的準確率、查準率、召回率和F值都在80%以上,特別是緊急轉移安置人口、倒塌和嚴重損壞房屋兩項的準確率非常高,達到97%和98%,這可能因為在測試集中樣本不平衡導致,這兩項指標涉及到應急響應啟動條件,該案例中均未達到啟動條件;綜合風險評估結果準確率為84%,考慮到防止過擬合的參數設定,該模型精度達到了預期效果,通過實際災情(圖5a)與風險評估結果(圖5b)的空間對比,可以看出,模型評估在安徽、湖北、湖南、重慶都能夠較好地預測洪澇過程的災害風險;直接經濟損失風險評估結果準確率相對較低,只有63%,可能的原因是直接經濟損失在實際統計中較為復雜,包含了很多統計子項,不同地區、不同時間的直接經濟損失統計標準可能存在較大差異。

表3 模型最優參數

表4 驗證集不同風險等級評估結果

圖5 測試集案例中實際綜合災情指數與模型評估的災害綜合風險對比

圖6 不同風險評估類型的指標重要性

2.2 指標重要性

要理解影響評估結果的各種因素,有必要對各評估指標的具體貢獻進行計算。XGBoost算法計算指標重要性的原理是一個輸入指標在決策樹分枝時是被選取為分枝特征次數越多,則該特征越重要。本文分別對6類風險評估目標進行了指標重要性計算,結果如圖6所示。其中,影響受災人口風險評估最重要的指標是過程累積降雨、人口密度、地形指數,表明致災因子、承災體、孕災環境都對評估結果有所貢獻;影響緊急轉移安置人口風險評估最重要的指標是過程累積降雨、地形指數、河網密度,這與實際災害應對過程相符,一般雨量大、地勢險、離水近的人口在災害應急中容易被轉移;農作物受災面積風險與地形指數、過程累積降雨、耕地面積、磚木房屋比例、人口密度有較大關系,特別是地形指數影響突出,說明農作物的受災與孕災環境有很強的關聯;倒塌和嚴重損害房屋風險明顯受過程累積降雨、人均住房間數、房屋結構比例、河網密度等因素影響,承災體指標重要性突出;直接經濟損失風險影響因素主要是過程累積降雨、河網密度,可見直接經濟損失大小與致災因子、孕災環境密不可分;災害綜合風險的主要影響因素是GDP密度,可能的原因是GDP本身就是綜合性指標,GDP既能反映區域的承災體綜合暴露度,也在一定程度上反映了區域的承災體脆弱性,即一般情況下可以認為GDP高的地區比GDP低的地區綜合防災減災能力要更強??傮w來說,不同指標對不同風險評估結果的貢獻并不完全相同,也沒有一個指標的貢獻率可以達到忽略不計的程度,各指標貢獻率都在5%~12%之間。

2.3 指標量和樣本量對評估結果的影響

為考察指標數量對評估模型精度的影響,本文對不同維度的輸入指標進行了組合,比較了僅用致災因子、致災因子和孕災環境組合、致災因子和承災體組合以及采用全部指標在洪澇災害風險評估結果中的準確率(表5)。通過對比發現,指標量的變化對受災人口風險、緊急轉移安置人口風險、倒塌和嚴重損壞房屋風險3個模型評估結果影響較小。然而,指標量對農作物受災面積風險、直接經濟損失風險和災害綜合風險3個模型評估準確率有較大影響,如果模型輸入只有致災因子,準確率最低,比全指標偏低10%~15%;在致災因子基礎上,無論加入孕災環境和承災體指標,對準確率都有較大提升,而且承災體指標比孕災環境指標提升多,因為承災體指標子項更多;而將所有指標一同作為輸入,準確率最高,說明指標量對評估結果有很大影響。

表5 不同指標量的風險評估準確率

一般對某個區域進行災害風險評估,往往僅選用該區域內相關災害案例進行分析[19,21],這樣可能導致區域樣本量較少。為考察樣本數量對評估模型精度的影響,本文對驗證集中的安徽、湖北、湖南和重慶4個省(直轄市)案例進行對比。首先,提取各自省份(直轄市)2012—2021年的縣域災害數據樣本;然后利用各省(直轄市)樣本分別進行訓練,建立各省(直轄市)基于單省份樣本的綜合風險評估模型;最后比較基于單省份樣本量的模型和基于全樣本量的模型在洪澇災害綜合風險評估結果中的準確率(表6)??梢钥闯?,全樣本評估對湖南評估結果準確率提升了13%,其他省份也有5%~10%的提升,這說明樣本量的增加對各省評估準確率都有較大增益。

表6 不同樣本量的災害綜合風險評估準確率

3 結論

本文基于我國南方地區625個重大洪澇過程案例的將近30萬條指標,利用XGBoost算法建立了重大洪澇過程災害評估模型,并以2021年7月中旬南方地區洪澇過程數據對模型進行了驗證。結果表明該模型可用于重大洪澇災害事件發生前對受災人口風險、緊急轉移安置人口風險、農作物受災面積風險、倒塌和嚴重損害房屋風險、直接經濟損失風險和災害綜合風險評估,對災害風險管理業務有重要意義。研究主要結論如下:

(1)基于XGBoost算法建立的重大洪澇過程災害風險評估模型適用性較好。通過測試案例驗證,受災人口風險、轉移安置人口風險、農作物受災面積風險、倒塌和嚴重損害房屋風險、災害綜合風險等5個模型在風險評估中的準確率、查準率、召回率和F值等性能指標均在80%以上,說明模型有較好的泛化性能,能夠用于實際災害風險評估工作中。

(2)模型可以通過計算重要性評價指標對風險評估結果的貢獻度。除過程累積降雨指標對大部分評估目標都有影響外,不同風險評估目標的影響因素不同,如受災人口、倒塌和嚴重損壞房屋受承災體因素影響較大,緊急轉移安置人口、農作物受災面積、直接經濟損失主要受孕災環境影響,而災害綜合風險主要影響因素是GDP密度。指標重要性增加了風險評估模型的可解釋性,提升了指標與評估結果之間關系的理解,有助于改進對機器學習算法“黑箱”模式的認識。

(3)指標量和樣本量對于數據驅動的評估模型有重要作用。集成學習算法在災害風險評估中淡化了危險性、脆弱性等災害機理,純粹利用災害系統相關數據進行學習,建模較為簡單,這也要求評估指標和樣本數量要要有足夠積累。一方面,致災因子指標、孕災環境指標、承災體指標都對災害風險評估結果有重要影響,利用全指標量比僅用致災因子指標可以提高10%~15%的評估準確率;另一方面,樣本數量增加1~2個數量級能夠提高5%~13%的評估準確率。這表明災害大數據對于提升災害風險評估模型性能有很大幫助。

(4)模型仍存在一定的不確定性。由于選擇的訓練案例源自全國各地上報災情,災情本身是人為統計,存在著時間差異和地區差異,這可能也是模型在直接經濟損失風險評估中沒有其他風險評估結果準確性高的原因之一。另外,樣本本身偏向于重大洪澇災害過程,對于一般災害的評估效果尚待驗證。

本文利用災害大數據建立了縣域洪澇過程災害風險評估模型。隨著社會經濟的快速發展,區域的承災體和孕災環境會發生很多變化,在今后的研究中,需要不斷引入最新數據,更新和累積大數據,提升模型的可靠性??偨Y下一步工作,重點有三個方向:一是繼續完善指標體系和樣本分布,利用第一次全國自然災害綜合風險普查數據對指標進行更新,進一步完善模型;二是收集北方地區重大災害過程案例,并驗證模型在北方地區是否具有通用性;三是模型的推廣應用,比如用于確定針對歷史災情分析時各指標權重,或用于缺乏資料地區的洪澇災害風險評估等。

猜你喜歡
災體洪澇災情
鹽城市夯實災害災情管理基礎
洪澇造成孟加拉損失25.4萬噸大米
近54 年貴州省洪澇災害時空特征及成因分析
2022年6月全球災情
基于三元鏈式傳遞結構的區域旱災實際風險綜合防范機制分析*
洪澇適應性濱河景觀設計——以湖南省永州一中河段為例
2021年12月全球災情
災害脆弱性相關概念探討
A dataset of Ya’an Earthquake based on social media
西南地區承災體數據采集與動態更新系統1
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合