?

基于深度學習的內蒙古大興安嶺林區火災預測建模研究

2024-02-22 11:35張金鈺彭道黎張超珺賀丹妮楊燦燦
林業科學研究 2024年1期
關鍵詞:火點林火火災

張金鈺,彭道黎*,張超珺,賀丹妮,楊燦燦,3

(1. 北京林業大學森林資源和環境管理國家林業和草原局重點實驗室,北京市 100083;2. 山西農業大學林學院,山西 晉中 030801;3. 滁州學院地理信息與旅游學院,安徽 滁州 239000)

深度學習具有空間鄰域性,可以從輸入的數據中發現更深層的特征,能高效、準確地對森林火災進行預測,因此運用深度學習進行林火預測逐漸成為國內外研究熱點。Dimuccio 等[1]使用地理信息系統技術,利用地形、道路密度、人口密度等與火災相關的8 個因素,使用訓練好的反向傳播人工神經網絡頻率-概率程序,計算每個因素類別的評級并分析,生成森林火災敏感性指數圖,利用燒毀面積評價得到其結果一致率為78%。Radke[2]基于美國落基山脈地區,利用深度學習進行野火蔓延趨勢的預測,形成了FireCast 模型。Zhang 等[3]提出了使用Convolutional Neural Network(CNN)的森林火災敏感性空間預測模型,采用受試者工作特征曲線下面積(即AUC)指標,證實了所提出的CNN 模型(AUC = 0.86)比隨機森林、支持向量機、多層感知器神經網絡和核邏輯回歸基準分類器的精度都更高。駱開葦[4]以中國西南地區為研究區域,通過整合可燃物誘發因子、氣象誘發因子、地形誘發因子和森林火災參考信息因子,構建了完整的歷史森林火災事件及誘發因子數據庫,通過深度學習模型完成歷史森林火災風險評估,結果表明,構建的深度學習模型對森林火災風險有很好的評估性能。Naderpour[5]提出一個空間框架來量化悉尼北部海灘地區的森林火災風險,具有MLP 架構的深度神經網絡模型提高了適應性和決策能力,可以適應澳大利亞的不同地區,對加權程序的本地化采用要求也很小。Prapas[6]在希臘每日野火風險預報的研究中,提出了能夠捕捉時空數據的深度學習模型。

大興安嶺森林資源豐富,是我國重要的生態保護地,也是典型的寒溫帶森林區域,曾遭遇嚴重的森林火災侵害,可以作為研究寒溫帶森林生態系統林火的重要區域,研究該地區林火事件能夠為相似的林火研究提供借鑒[7]。因此開展大興安嶺的林火預測研究是十分必要的。

本研究以內蒙古大興安嶺為研究區,從MCD64A1 月度火點數據產品獲取研究區森林火災點,構建森林火災潛在影響因子數據集,通過建立卷積神經網絡、隨機森林、支持向量機模型對研究區2018 年森林火災的發生概率進行預測和森林火險區劃,并對模型效果進行評價,以期為大興安嶺森林防火工作開展提供支持。

1 研究地區概況及研究方法

1.1 研究區概況

內蒙古大興安嶺林區,在內蒙古自治區的東北方向(119°36'26″~125°24'10″ E,47°03'26″~53°20'00″ N)[8],海拔425~1 760 m[9],是我國4大國有林區之一。林區地處高緯地帶,南北跨7°,地域遼闊,是中國最大的集中連片的國有林區[10]。內蒙古大興安嶺地區位于寒溫帶大陸性季風氣候帶,全年平均氣溫在-4 ℃至-2 ℃之間,平均氣溫小于10 ℃的時間長達9 個月。全年降水量在300 mm 以上,相對濕度為70%~75%,林區總面積約1.07 × 107hm2,森林覆蓋率達79.82%。2009—2018 年期間,研究區發生過多次森林火災,火災分布情況如圖1。

圖1 研究區及森林火災分布(2009—2017)Fig. 1 Research area and forest fire distribution(2009—2017)

1.2 數據來源及預處理

1.2.1 森林火災預設影響因子理論依據 氣溫直接影響森林可燃物的含水量,高溫且降水量少、強風且持續干旱的氣候條件下森林火災高發[11-12]。地形條件對森林火災的作用是間接的。地形條件影響局部小氣候進而影響到森林可燃物含水率變化,并對森林火災的發生產生影響[13-14]。區域火災歷史數據可以反映區域的歷史森林火災狀況,發生過森林火災的地方有再發生森林火災的潛力,因此需要關注。植被指數能夠反映森林覆蓋,是對地表植被狀況的簡單、有效和經驗的度量,植被指數越高的地方,發生森林火災的概率也相應較大。人為因素對森林火災發生具有“增殖”效應[15],通??紤]與道路的距離、與河流的距離等。

1.2.2 數據來源 火點數據為MCD64A1 月火點數據產品,獲取自基于云的地理空間處理平臺谷歌地球引擎(Google Earth Engine, https://earthengine.google.com/),其空間分辨率為500 m,時間分辨率為8 d,時間范圍為2009—2018 年,本研究同時選取低、中、高3 個置信水平等級的火點數據。地形數據為ASTER GDEM 數據,空間分辨率為30 m,下載自地理空間數據云(https://www.gscloud.cn/),在地理數據處理軟件中進一步計算得到坡度、坡向、平面曲率數據。氣象數據(平均氣溫、總降水量、平均風速)源自國家地球系統科學數據中心,空間分辨率為1 km,時間分辨率為月。NDVI 來源于中國科學院資源環境科學數據中心(https://www.resdc.cn/DataSearch.aspx)。人為因素矢量數據(與建筑物的距離、與道路的距離、與水域的距離)獲取自開源網站OpenStreetMap(https://www.openstreetmap.org/),時間分辨率為5 a。

1.2.3 數據預處理 在輸入模型前,對每個森林火災影響因子圖層進行最大最小歸一化處理,將圖層像素點取值控制在[0,1]范圍。在ArcGIS 10.8 中,將論文中涉及的森林火點及火災影響因素圖層像素大小統一為1 km × 1 km,坐標系統一為WGS_1984_UTM_Zone_51N。最后,使用波段合成工具將1 a 內所有的影響因子圖層合并為1 個柵格圖層,最終建立11 個多變量柵格數據集。為解決原有火點及非火點數據不平衡的問題,本研究通過創建隨機點工具生成非火災點,與已知火災點合并生成5 560 個訓練樣本(圖2)。設定2009—2017 年所有火點的森林火災發生概率為1,重復出現的火點只記1 次,非火點的森林火災發生概率為0,作為后續模型的標簽數據。

圖2 樣本點分布情況Fig. 2 The distribution of sample points

1.3 研究方法

1.3.1 特征選擇方法 本研究通過計算容差值和VIF 值來進行特征選擇,同時計算Pearson 相關系數來度量變量之間的線性關系強度,以及計算Spearman 秩相關系數來度量變量之間的非線性關系(p≤ 0.05)[16]。

1.3.2 支持向量機 支持向量機(Support Vector Machines, SVM)有很強的數學基礎和嚴謹的理論支持,是常用的監督學習模型,可運用于數據分類、回歸分析和模式識別模型。支持向量機算法的最優分類面求解問題,本質是求樣本分類間隔最大的二次函數的目標解。使用網格搜索法,最終確定γ為1,正則化參數設置為80。

1.3.3 隨機森林 隨機森林(Random Forest,RF)是一種基于Bagging 算法和決策樹方法的集成學習方法。RF 利用重抽樣技術對訓練樣本進行隨機采樣,訓練出多個不同的決策樹,將多個決策樹的分類結果進行組合,投票或取平均得出最終的預測結果。同樣使用網格搜索法,最終確定生成樹個數為450,樹的最大深度為18。

1.3.4 卷積神經網絡 卷積神經網絡(Convolutional Neural Networks, CNN)是一種前饋神經網絡,參數采用經典的隨機梯度下降法(Stochastic Gradient Descent,SGD)不斷調整。本研究所用的卷積神經網絡(CNN)模型的框架是以Alexnet為參考,使用TensorFlow 作為后端。為解決特征過多而產生的過擬合問題,加入Dropout 算法和增加Batch Normalization 層。

每個輸入patch 都是1 個大小為15 × 15 × 11的三維數據(像元大小15,波段數為11)。本研究的主要架構包括3 個卷積層、3 個最大池化層和3 個全連接層。卷積層的核數均為64,核大小均為3 × 3,步長為1,填充方式選擇“same”。每個卷積層后都有一個ReLU 激活函數、一個BN 層和一個最大池化層。最大池化層的核大小為2 × 2,步長為2,3 個全連接層均有32 個神經元,在全連接層中調整權重衰減,并在全連接層后添加1 個雙向分類器的激活函數,即Softmax,可以計算出該點屬于火點/非火點的概率值。參數總量為84 706個,參數量設置較為合理。

UWB解算的位置信息和編碼器提供的速度陀螺儀獲得的機器人偏航角速度dωgvrok作為測量信息。則測量方程為:

本研究基于前人經驗選擇超參數取值并根據訓練過程中的準確率和損失值圖(圖3),確定超參數的最優取值為:學習率為0.001,批處理大小為32,Dropout 值為0.5,優化方法選擇RMSprop,卷積核數量為64。

圖3 訓練中的準確率和損失值變化曲線Fig. 3 Accuracy and loss curve during training

1.3.5 模型評估方法及標準 本研究采用4 個統計指標,包括總體準確率、特異性、召回率、精確率[17]。這4 個統計指標按以下方式計算:

式中TP表示實際為火點,預測結果也為火點,FP表示實際為非火點,預測結果為火點,TN表示實際為非火點,預測結果也為非火點,FN表示實際為火點,預測結果為非火點。在分類模型中,預測結果一般以概率值輸出,通常設置閾值來將概率轉化為具體類別。因此,閾值的設定與模型的準確率十分相關。受試者工作特征(Receiver Operating Characteristic, ROC)曲線和曲線下面積(Area Under ROC Curve, AUC)用于判斷預測結果的準確性,并表達了模型的泛化能力。

2 結果與分析

2.1 模型的變量選擇

基于林火影響因子相關性熱力圖(圖4)結果表明,坡度與粗糙度呈現明顯的正相關性,而平面曲率和剖面曲率則呈現較明顯的負相關性。為了防止模型過擬合,將影響火災發生的因子中的粗糙度和剖面曲率剔除,而保留坡度和平面曲率用于后續研究。

圖4 林火影響因子相關性熱力圖Fig. 4 Correlation heat map of forest fire influencing factors

隨機森林計算后,得到11 個影響林火影響因子的重要性值。氣溫、海拔、與水域的距離、總降水量是影響林火發生最為重要的4 個因素。此外,與建筑物的距離、月均風速和NDVI 等因素也對森林火災的發生產生了較為顯著的影響,其重要性值均大于0.05。這些變量均與森林火災有著明顯的關系,因此可以用于后續的建模研究。

2.2 卷積神經網絡訓練結果

訓練過程包括訓練和驗證2 個階段。訓練樣本和驗證樣本分別占訓練集的80%、20%。在每個epoch 結束后,使用驗證樣本數據集對超參數進行微調。結果表明(圖5),每次訓練后,訓練樣本數據集和驗證樣本數據集的準確性均達到95%以上,驗證集的損失值低于0.05,而驗證集的損失值在0.15 左右。最終,選擇驗證集的損失值最小時(epoch=300)對應的模型作為最終的分類模型。

圖5 訓練過程中準確率和損失值變化Fig. 5 The change of accuracy and loss value during graph training

2.3 模型評價指標及模型比較

本研究將CNN 與RF 及SVM 這兩種常見的機器學習方法進行比較,并通過繪制評價指標雷達圖(圖6)對這3 種方法進行比較。在預測樣本數據集中,CNN 精確率和召回率遠高于RF 及SVM,達到90%以上,CNN 特異性和總體準確率略低于RF 及SVM,但可明顯觀察到CNN 總體性能優于RF 及SVM,故CNN 預測結果最為可靠。

圖6 3 種模型評價指標雷達Fig. 6 Three kinds of model evaluation index radar map

AUC 值是評價模型分類性能的一個重要指標,用來評估模型的平均性能。其中,CNN 的AUC 值為0.838,表示CNN 對2018 年大興安嶺林區森林火災預測的整體擬合度達到了83.8%,高于RF(0.788)和SVM(0.794)(圖7)。

圖7 3 種模型的ROC 曲線Fig. 7 ROC curves of the three models

2.4 模型預測及生成森林火災敏感性圖

經過訓練,最終得到分類模型,使用測試數據集(2018 年的多變量柵格數據集)來評估最終模型性能。因為滑動窗口在預處理階段密集重疊并覆蓋了整個柵格數據集,故模型可以對所需預測圖中的每個像素得出火災和非火災類別的概率,選擇火災類別的概率作為最終的預測概率值,可視化生成森林火災敏感性圖(圖8)。3 種模型均識別出在大興安嶺東南方向森林火災易感性的值較大,中部和西部位置火災發生概率較小,這表明大興安嶺東南地區更易發生森林火災,中部和西部地區較不易發生森林火災。

圖8 RF、SVM、CNN 模型預測2018 年森林火災敏感性Fig. 8 RF, SVM and CNN model prediction of forest fire sensitivity in 2018

通過分析圖9 可以發現,CNN 模型中極高和極低的森林火災類別占總研究區森林面積的90%以上,在3 種模型中所占比例最高,高、中、低3 類分別占總面積的2.12%、1.89%和2.74%。因此, CNN 模型能夠有效劃分出森林火災易感性極高及極低的區域,有利于在實踐工作中加強對森林火災易感區的火災預防。相比之下,RF 和SVM的預測圖中存在較大范圍的中高易感區,對林火高易感性區域沒有明確的判定。因此,CNN 模型的結果更適合該地區森林火災的預測。

圖9 3 種模型下林火敏感性等級占比情況Fig. 9 The proportion of forest fire sensitivity grades under the three models

3 討論

3.1 森林火災主要潛在影響因素

針對變量選擇,本研究將粗糙度和剖面曲率這兩個因子剔除,保留剩余的11 個特征用于后續建模。氣溫、海拔、與水域的距離、總降水量是影響林火發生較為重要的4 個因素,這與Najafabadi、Pourtaghi、馬文苑、Nami、Abdi 等的研究結果基本一致[18-22]。隨著海拔的增加,林火發生概率明顯下降,這是因為海拔的增加使得植被和土壤的濕度增加[22],且受人為干擾較少[23],不利于森林火災的發生。氣象條件大多是通過影響可燃物的含水量和溫度對林火的發生時間和區域產生影響[24],氣溫升高會使林區內可燃物的含水量減少,也會使可燃物本身的溫度升高,減少了外部因素達到其燃點所需的熱量,可燃物容易被點燃[25-27];降水可以反映出可燃物濕度的變化情況,降水量較多時林區內可燃物含水量處于飽和狀態,不易被點燃,發生森林火災的可能性和嚴重程度都會較低[26-27]。人為因素也會對森林火災的發生有一定影響,距離人為活動的距離越遠,森林火災發生的概率也就越小[28-29]。而坡向對森林火災發生的解釋度較小,這與li 等[30]的研究結果一致。

3.2 深度學習在森林火災預測方面的優勢

本研究證實了CNN 在森林火災預測方面具有比RF 和SVM 更為突出的優勢,能夠有效地劃分出森林火災易感性極高和極低的區域,因此CNN 模型的結果更加適合森林火災預測。CNN 模型AUC 值達到0.8,其精度介于Dimuccio 等[1]、Zhang 等[3]研究的AUC 值之間,基本滿足預測精度。在Bisquert[31]關于西班牙西北部加利西亞森林火災概率的預測研究中也證實,人工神經網絡的準確性和精度都高于邏輯回歸。Bergado[32]運用29 個量化特征,采用深度學習方法生成2006—2017 年澳大利亞維多利亞州未來7 天內野火燃燒概率的每日地圖,該地圖更平滑、更正則化,在各項定量和定性指標中都顯示出很大的優越性。Muhammad[33]探索了CNN 并設計了一種微調架構,用于在有效災害管理系統的監視期間進行早期火災檢測,研究證實該框架有高準確性和低火災誤報率??偟膩砜?,與機器學習SVM、RF 相比,CNN 具有以下優勢:首先,CNN 可以考慮相鄰空間區域的相關性,因此適用于空間和地理相關的研究。其次,深度學習可以揭示更深層的特征。通過多次卷積和池化操作,CNN 可以提取更高級和抽象的特征,這些特征對于森林火災的發生起著決定性的作用。最后,CNN 通過權值共享減少了訓練過程中的超參數數量,從而降低了CNN 的結構復雜度。

4 結論

本研究選取地形、氣候、植被和人為方面共11 個因素形成多變量柵格數據集,構建出3 個林火敏感性模型,并將大興安嶺森林火災的風險進行可視化展示。對大興安嶺森林火災進行預測,有助于相關部門重點盯防,做到早預防、早發現,對大興安嶺森林火災預防工作有重要意義。

(1)通過特征選擇方法,最終確定11 個森林火災潛在影響因子,分別是地形、平面曲率、坡度、坡向、平均氣溫、總降水量、平均風速、與道路的距離、與水域的距離、與建筑的距離、NDVI等。其中,氣溫、海拔、與水域的距離、總降水量是影響林火發生最為重要的4 個因素。

(2)CNN 模型的AUC 值高于RF、SVM,說明CNN 對林火的預測更準確,模型可靠性更高。

(3)空間上,大興安嶺森林地區東南地區森林火險等級較高,較易發生火災。

猜你喜歡
火點林火火災
無錫惠山區堅持“六抓六強” 構建林火防治銅墻鐵壁
林火監測系統在森林防火中的應用與發展
亞像元火點對紅外預警衛星的輻射干擾特性
半邊天
人身上有5個祛火點
點煙頌
江蘇省海門市如何實現連續4年秸稈焚燒“零火點”?
掌握火災逃生知識
離奇的火災
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合