?

廣西林火驅動因子及預測模型研究

2023-12-22 03:38巨文珍韋龍斌彭泊林李常誠
林業資源管理 2023年5期
關鍵詞:林火降雨量林區

巨文珍,韋龍斌,彭泊林,李常誠,潘 婷

(廣西壯族自治區林業勘測設計院,南寧 530011)

森林火災是一項突發性強、破壞性大、處置較為困難的自然災害。近年來,隨著全球氣候變化,其發生次數和受災面積均有增加趨勢,給各國森林資源、人民生命安全和財產造成了巨大的威脅[1-2]。

利用驅動因素對林火發生概率進行預測是森林火災的研究熱點[3]。隨著研究深入,從前期僅考慮單一的氣候因子逐漸發展為氣候、可燃物、地形、人類活動等多因素的綜合預測[4-7]。Logistic回歸模型是最常見的預測模型,在有較好預測精度的同時能夠通過模型參數明確解釋因子與林火之間的關系,但對數據的正態性和線性關系有較高的要求[8-10];機器學習模型對數據要求較為寬松,現已在林火預測中得到了廣泛應用并取得了不錯的效果[11-14],如潘登等[5]和李永和等[15]對湘中丘陵區和浙江省林火預測模型進行了研究,對比均發現機器學習模型精度要優于logistic回歸模型。

廣西森林資源豐富,地形復雜,林區經營活動頻繁,近年來極端天氣日數逐漸增多,全區森林火災管控難度逐漸增大。深入研究廣西森林火災的主要驅動因子并對其發生概率進行預測,對于優化該區域防滅火資源的分配,更加有效地進行森林火災的預防與撲救具有重要意義。當前對林火預測模型的研究主要集中在東北、東南和云貴川地區[16],缺乏對廣西大尺度下林火驅動因素的深入分析。因此,本研究通過Logistic回歸模型和機器學習模型探索氣象、可燃物、地形、人類活動等四大類驅動因素對廣西林火發生的影響,旨在為廣西森林火災監測預警提供科學參考。

1 研究區概況

廣西壯族自治區(20°54′—26°23′N,104°28′—112°04′ E)西靠云貴高原,北為南嶺山地,南臨熱帶海洋,地勢自西北向東南傾斜。全區為典型的亞熱帶季風氣候,雨熱同期,年平均氣溫17~24 ℃,年降雨量750~2 200 mm。植被類型主要有溝谷雨林、季雨林、常綠闊葉林、常綠落葉混交林、落葉闊葉林、針闊混交林等,人工林樹種主要有杉木(Cunninghamialanceolata)、馬尾松(Pinusmassoniana)和速生桉(Eucalyptusrobusta)等[17]。廣西90%以上的森林火災由人為原因導致,其中又以農事用火和祭祀用火居多。每年9月到次年4月,尤其是清明、重陽等重要祭祀節日前后是森林火災最頻發的時段,這段時間是廣西重點防火期(1)廣西壯族自治區.廣西森林火災易發多發原因及對策調研報告.2023.。

2 數據來源及研究方法

2.1 數據來源

1)森林火災數據為廣西2011—2020年的火災檔案資料,包括火災發生點的經緯度、日期等信息。在剔除經緯度錯誤的火災數據后,共保留了6 495組數據。由于模型要求數據為二項分布的形式,本文采用ArcGIS 10.2在研究區域的林地內按照森林火災數量1∶1生成隨機點。生成時,在林火發生點處創建了1 km的緩沖區以減小空間自相關性。隨機點的時間也是在研究期內隨機生成。

2)選取氣象、地形、可燃物、人為活動等四大類因素作為建立林火預測模型的初始變量。氣象因素包括月平均降雨量、月平均相對濕度、月最高氣溫、月平均氣溫、月平均風速、月大風天數等6個因子,從全區2011—2020年的30弧秒氣象格網數據中,通過林火發生點與隨機點的時間和空間坐標提取;地形因素包括海拔和坡度,從全區數字高程DEM與坡度柵格數據中提取;可燃物載量從廣西第一次森林火災風險普查數據庫中提取;人類活動因素包括林區人口、經濟、建筑物數量,從全區30弧秒林區人口、經濟和建筑物格網數據提取(2)廣西壯族自治區,廣西壯族自治區林業勘測設計院.廣西第一次森林火災風險普查成果.2022.。

2.2 研究方法

2.2.1Logistic回歸模型

設置因變量數據結構為二項分布形式(林火發生為1,未發生為0),假設林火發生概率為P,林火不發生概率為(1-P),得到關系模型如式(1)所示。

(1)

經過變換,可得如式(2)所示的林火發生概率評估公式。

(2)

式中:β0為常量;自變量x1,x2,…,xn為各林火驅動因子;β1,β2,…,βn為各驅動因子的系數。

2.2.2機器學習模型

隨機森林(Random Forest,RF)通過從原始訓練樣本集中隨機有放回地抽取k個樣本生成新的訓練樣本集合,生成大量的決策樹,所有決策樹預測類中的眾數類別即為隨機森林所預測的這一樣本單元的類別。RF模型有著對數據較強的適應能力和抗噪聲能力,被廣泛用于林火預測[13]。

支持向量機(Support Vector Machine,SVM)是一種基于結構風險最小化原則的通用學習算法,能夠有效地克服機器學習中多維度和過擬合的問題[18]。它的基本思想是在樣本輸入空間或特征空間構造出一個最優超平面,使得超平面到2類樣本集之間的距離達到最大,從而取得最好的一般化能力[14]。

反向傳播(Back Propagation,BP)神經網絡是一種多層前饋神經網絡[19],在輸入層與輸出層之間增加可設置層數的神經元(隱藏層),輸入數據經由神經元通過激活函數進行單向傳遞,通過不斷迭代調整權重與閾值,直到輸出結果與期望接近。

2.2.3因子選擇與模型檢驗

通過標準化處理消除不同因子之間量綱的差異,利用方差膨脹因子VIF(Variance Inflation Factor,VIF)進行多重共線性檢驗,剔除共線性較高的自變量。將全部樣本分為建模樣本(70%)和檢驗樣本(30%),為減少由于樣本劃分帶來的隨機性對參數結果的干擾,隨機生成了5次建模樣本,通過Logistic回歸模型篩選出3次以上顯著的變量來構建Logistic回歸模型和機器學習模型。

利用準確率(Accuracy)、召回率(Recall)和受試者工作特征(Receiver Operating Characteristic,ROC)來評價各模型的擬合效果。準確率和召回率越高分別代表模型的整體預測精度和對森林火災的預測效果越好,ROC曲線不受分割閾值影響,能夠較好地評價模型的泛化能力[20]。ROC曲線下方面積為AUC(Area Under Curve,AUC),取值范圍為[0.5,1],AUC值越大表示模型的性能越優秀[21-22]。

2.2.4數據分析與處理

使用Excel 2019對歷史森林火災數據進行初步處理,使用ArcGIS 10.2提取林火發生點和隨機點的各項屬性數據,使用R軟件完成模型的構建與檢驗。

3 結果與分析

3.1 因子選擇與模型構建

通過方差膨脹檢驗得出月最高氣溫與其他因子之間存在多重共線性,剔除月最高氣溫后,隨機生成了5個訓練樣本構建了Logistic回歸模型。模型變量選擇結果如表1所示,在5次模型構建中,除林區經濟顯著1次外,其余變量均顯著3次以上,參數符號在5次建模結果中均保持一致。最終確定可燃物載量、林區建筑物數量、林區人口數量、海拔、坡度、月平均降雨量、月平均相對濕度,月平均氣溫、月大風天數、月平均風速等10個變量作為構建Logistic回歸模型和機器學習模型的自變量。

表1 Logistic回歸模型變量選擇結果

確定最終建模因子后,重新構建Logistic回歸模型(表2)。從表中參數的大小來看,對林火發生影響最大的前5位因素是林區建筑物數量、海拔、月平均相對濕度、月平均降雨量和月平均風速;從參數符號來看,可燃物載量、林區建筑物數量、月平均風速和林區人口數量與林火發生概率呈正相關,而海拔、月平均相對濕度、月平均降雨量、坡度、月大風天數、月平均氣溫與林火發生概率呈負相關。

表2 最優Logistic回歸模型擬合統計結果

構建機器學習模型后,將各模型中因子按重要性排序匯總(表3)。不同模型中因子重要程度結果略有差異:整體上,林區建筑物數量、月平均降雨量和月平均相對濕度是影響廣西森林火災最主要的驅動因素,月大風天數相較于其它因子對廣西森林火災影響最小;在Logistic回歸模型和RF模型中,海拔是影響林火發生主要的因子,但在SVM模型和BP神經網絡模型排名中相對靠后;可燃物載量僅在BP神經網絡模型中排名較高。

表3 因子重要性排序

3.2 模型精度檢驗結果

從表4可知,機器學習模型整體精度均優于Logistic回歸模型,準確率和召回率均在80%以上。各模型均有較好的泛化效果,驗證樣本整體精度要優于建模樣本。從召回率看,logistic回歸模型對林火發生點的預測效果更好,精度相比整體準確率高5%左右;機器學習模型對非林火發生點和林火發生點的預測區別相差不大。從圖1可得知:各模型均具有較高的預測精度,SAUC>0.85;RF的預測效果最好,SAUC=0.92。

圖1 模型ROC曲線

表4 模型評價指標對比

3.3 研究區林火發生概率預測

通過模型精度檢驗得知RF模型擬合效果最佳,基于此模型對廣西全區各鄉鎮林火發生概率進行預測。按市進行統計,結果如表5所示。林火發生概率僅表示該區域林分引發火災的難易程度,并不代表林火發生的必然性。整體上,廣西全區林火發生概率處于較高水平,概率較低的地區主要為林地面積較少的城區街道。位于桂西的河池市、百色市、崇左市林火平均概率均在0.7以上,最高達0.972,森林火災隱患最大;南部沿海的北海市林火發生概率最低。

表5 廣西林火發生概率分布

4 討論

從模型結果可以看出,研究區域內林火發生與可燃物載量、林區建筑物、林區人口數量呈正相關,與海拔和坡度呈負相關,這與大多數研究結論一致[23-26]。廣西可燃物載量較高的地區主要為松、杉、桉樹等人工林集中區,這些地區,林區人口與建筑物數量同樣較多,生產經營活動頻繁,加之樹種本身易燃性高,引發森林火災的風險大。隨著海拔的上升和坡度增大,人類活動逐漸減少;海拔的上升,氣溫降低、相對濕度與植被含水率上升;坡度的增大,水分滯留時間短,植被減少可燃物載量降低:這都大大降低了森林火災發生的可能性[10,27-30]。部分研究表明林火的發生與經濟呈正相關[16,31],本次建模結果顯示林區經濟對林火發生的影響并不顯著,這與梁慧玲等[11]的研究結果一致,可能是由于經濟發達地區基本為城區,森林面積分布相對較少,同時森林火災管控水平較高,引發的森林火災數量較少。

模型結果顯示,森林火災的發生與月平均降雨量和月平均相對濕度呈負相關,與平均風速呈正相關。這是因為降雨量與相對濕度的增加,能夠提高森林可燃物的含水率,而較高的風速能夠加速可燃物的干燥,提高燃燒性[8,32]。當前鮮有研究分析月大風天數與森林火災之間的關系。大多數研究顯示,氣溫的升高能夠促進地表蒸騰作用,降低植被含水率,增加森林火災發生的風險[16,27]。本研究結果顯示,月平均氣溫和月大風天數與森林火災概率均呈負相關,這可能與廣西的氣候特點有關。廣西地處低緯,屬亞熱帶季風氣候區,大風天氣主要由強對流天氣和臺風過境導致,集中分布在夏秋兩季[32-33]。雖然夏秋兩季在全年里溫度較高,但由于是汛期,降雨量大,林火不易發生[8]。因此,模型結果顯示其與森林火災概率呈負相關。

在模型精度上,Logistic回歸模型與機器學習模型對研究區域內林火發生均有較好的預測效果(SAUC>0.85),機器學習的整體精度要高于Logistic回歸模型,其中RF模型的預測精度最高。從各因子與林火發生概率的相關關系來看,各因子之間相互影響,使得Logistic回歸模型并不能夠較好地揭示部分因子與森林火災之間的獨立關系[30,34]。今后,可通過考慮空間自相關性和分季節建模來提高模型對各驅動因子的解釋度及精度。

5 結論

本研究結合氣象因子、地形因子、可燃物載量和人為活動因子,構建了Logistic回歸模型和機器學習模型對廣西林火發生概率進行預測。結果表明:林區建筑物數量、月平均降雨量、月平均相對濕度是廣西林火發生的主要驅動因子;logistic模型和機器學習模型均取得了較好的擬合效果(SAUC>0.85),RF模型的精度最高。對廣西各地區林火發生概率預測的結果顯示:廣西森林火災高風險區在馬尾松、杉木、速生桉等易燃樹種集中分布區;桂西北、桂西南地區由于降雨量相對較少,季節性干旱天氣頻繁,林火發生概率相比南部沿海地區高。整體上,預測結果符合廣西客觀實際,能為廣西林火預警預測提供參考。

猜你喜歡
林火降雨量林區
記游哈林區(節選)
無錫惠山區堅持“六抓六強” 構建林火防治銅墻鐵壁
林火監測系統在森林防火中的應用與發展
降雨量與面積的關系
半邊天
保護好森林資源 讓林區青山常在
小隴山林區茵陳菜開發前景
國有林區發展林下經濟應處理好“三個關系”
洞庭湖區降雨特性分析
羅甸縣各鄉鎮實測降雨量分析及應用研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合