?

基于RF-RFE算法的地鐵車站洪澇災害預測研究

2024-03-12 11:43蓮,劉
鐵道標準設計 2024年3期
關鍵詞:正確率車站準確率

白 蓮,劉 平

(蘭州理工大學土木工程學院,蘭州 730050)

1 研究背景

洪澇災害一直是威脅人類社會發展的重要因素之一。近年來,中國城市化進程快速發展,但城市防洪防災基礎配套設施與城市化快速進程需求未能匹配,我國每年遭受洪澇災害的城市超過百座,其中發生地鐵車站洪澇災害的案例更是屢見不鮮。同時,由于地鐵車站的建筑結構和運行環境均處于封閉或者半封閉狀態之中,因此,一旦發生地鐵車站洪澇災害,車站內的相關設備設施出現故障,地鐵運行系統受阻,且救援難度也較大,嚴重威脅了人員的生命安全,并造成大量的經濟損失。

目前,國內外學者對地鐵車站洪澇災害進行了大量研究。在災害防汛措施方面,AOKI等[1]依據地鐵車站系統的防汛措施,開發了能夠承受15m深洪水壓力的滑動門;LIN等[2]基于流體容積模型方法,模擬了擋洪設施失效后,洪水入侵地鐵車站的全過程,為極端天氣下地鐵車站的安全設計提供了參考;LIU等[3]將改進的投影尋蹤模型(PPM)運用到地鐵車站工程抗澇能力評價中,有效地處理了地鐵車站工程抗澇能力的高位數據;趙露薇等[4]研究了暴雨干擾下地鐵系統脆弱性形成機制,以期為暴雨天氣下地鐵系統安全運營提供參考建議。在災害應急管理方面,馬晴晴等[5]將降雨情景下的地表積水分布與地鐵站進行耦合,量化了積水對地鐵站的干擾程度,為地鐵站制定應急管理措施提供了新思路;WU等[6]為地鐵車站工程暴雨內澇災害應急預案,提出了一種基于語言直覺模糊集、結構熵權和TOPSIS的群決策方法;LONG和ZHANG[7]提出了一種改進經驗公式的應急疏散引導方案,研究行人行為對引導疏散的影響,通過地鐵車站疏散模擬實驗,提供了相應的應急疏散措施。在災害風險評估方面,閆緒嫻等[8]構建了韌性城市下地鐵洪澇災害風險分析模型,從韌性角度對地鐵系統洪澇災害防治提出針對性建議;LYU等[9]對地鐵系統的洪水風險進行了評估研究,以期增加地鐵系統功能恢復力;YU等[10]采用組合賦權法,建立了地鐵車站內澇風險的模糊綜合評價模型,為地鐵車站內澇風險評估提供了新思路。

然而,上述研究均集中在災害管理及風險評估方面,缺少對地鐵車站洪澇災害的預測研究,若能在極端天氣情況來臨前,依據相關變量建模預測某地鐵車站是否會發生洪澇災害,可幫助車站相關管理人員制定合適的應對措施,加強地鐵車站防洪減災的能力。因此,李輝山、白蓮等[11]提出了一種基于DNN神經網絡的地鐵洪澇災害預測方法,并取得了較好的預測效果,但該方法在變量選擇時未降低相關數據維度及未去除變量間的冗余,在進行預測時,數據的復雜度和冗余信息會嚴重影響到整個預測過程的速度以及整體的數據檢測性能。隨機森林-遞歸特征消除(random forest-recursive feature elimination,RF-RFE)方法能夠處理大量數據和評價正則化回歸特征變量的重要性,該方法在去除冗余特征的同時,可篩選出最佳特征變量,有效地縮短數據訓練和交叉驗證的時間,提高預測模型的運算速度及數據檢測性能。

綜上,基于RF-RFE和DNN神經網絡,提出了地鐵車站洪澇災害的預測方法。首先,使用發生地鐵車站洪澇災害的實測數據,構建災害初始變量集,通過隨機森林-遞歸特征消除(random forest-recursive feature elimination,RF-RFE)方法選出重要變量;其次,使用重要變量數據訓練DNN神經網絡,得到最優網絡結構;最后,將實測災害數據輸入預測模型,測試分析預測模型性能。該方法優化了災害變量集,降低了敏感數據對模型預測結果的影響,提高了預測模型的準確率,實現了對地鐵車站洪澇災害的準確預測。

2 變量集構建

2.1 初始變量集選擇

通過災害實際案例、文獻查閱和專家訪談的形式,初步確定地鐵車站洪澇災害變量集。為保證文獻查閱的完整性、代表性和科學性,在SCI-E、Elsevier、中國知網、萬方等數據庫輸入“地鐵車站內澇”“地鐵車站災害”“城市軌道交通暴雨”等關鍵詞,檢索出相關文獻。依據全面性文獻篩選原則,梳理出17個災害變量集,將17個災害變量集發送給具有相關理論基礎的專家,通過“專家意見—反饋說明—修改意見—統一意見”程序,多次循環往復,最終確定13個地鐵車站洪澇災害變量集。所確定的災害變量集如表1所示。

表1 地鐵車站洪澇災害變量集

由表1可知,地鐵車站洪澇災害的原因主要表現在以下3個方面。(1)氣候變暖和城市化效應。據相關研究指出[12],未來極端氣候出現的概率會大大增加,隨著我國城市化進程的快速發展,大量基礎設施和城市更新等建設項目改變了原有城市構造[13],使得城市路面硬化嚴重、城市周邊部分河道被填埋及城市調蓄能力下降等,如若遇到極端強降水天氣,極易發生城市內澇,引發地鐵車站洪澇災害事故。(2)地鐵車站排水系統能力[14]。車站排水系統主要依附市政排水系統,強降雨導致市政排水系統超負荷運作,造成排水管道爆裂或堵塞,使得車站周邊積水過多,易發生積水倒灌現象。(3)應急管理措施[15]。地鐵車站應急管理措施能及時降低發生洪澇災害的風險、減少人員傷亡和財產損失,最快恢復車站運營秩序。

2.2 基于RF-RFE的變量選擇

采用RF-RFE算法從地鐵車站洪澇災害初始變量中選擇重要變量,能夠隨機選取樣本和特征,還可使模型有較好的擬合和抗噪能力,提高分類的正確率[16]。

2.2.1 隨機森林和變量重要性分析

隨機森林(Random Forest,RF)是一種多棵決策樹集成學習算法[17],其思想是運用統計學理論,利用Bootstrap重抽樣方法從原始訓練樣本中得到多個訓練子集,并對每個子集進行決策樹建模,多棵決策樹集合構建為隨機森林,所有決策樹預測平均值為最終預測結果,算法的主要步驟如下。

(2)從所有樣本中隨機選擇x個變量,n個訓練子集與x個變量構建一棵決策樹,在決策樹的每個節點處抽取mtry個變量,計算每個變量蘊含的信息量,并選擇分類能力最佳的變量進行節點分裂。

(3)重復前面步驟,直至生成含有m棵決策樹的隨機森林。

(6)變量φx的重要度計算如式(1)所示。

(1)

2.2.2 RF-RFE算法

遞歸特征消除(Recursive Feature Elimination,RFE)是反復構建模型,直至選出最優特征子集的一種特征變量排序選擇方法[18]。RF-RFE算法是將RFE方法引入隨機森林算法,并對變量重要性排序進行選擇。本文選擇RF-RFE算法是考慮到該算法有助于減少冗余信息對算法的影響,可提高地鐵車站洪澇災害變量分類正確率。RF-RFE算法步驟是通過“訓練初始變量集—計算變量重要性—變量重要性排序—刪除重要性最小變量—計算分類正確率”遞歸重復過程,直至所有變量計算完畢,將分類正確率最高的訓練集所對應的變量作為重要變量,具體流程如圖1所示。

圖1 RF-RFE算法流程

3 基于RF-RFE和DNN神經網絡的預測模型

3.1 DNN神經網絡基本原理

DNN(深度神經網絡,Deep Neural Networks)是一種深層學習,在1986年由D.E.Rumelhart和J.L.McCelland等在研究BP神經過程中被提出。DNN神經網絡主要具有以下優勢:(1)強大的非線性擬合能力;(2)強特征提取能力;(3)較強的刻畫能力?;谝陨蟽烖c,選擇DNN神經網絡構建地鐵車站洪澇災害預測模型,可規避非線性災害數據的過度擬合,使得模型具有良好的表達能力。

DNN深層神經網絡由3個部分組成:DNN的拓撲結構、激活函數與損失函數、訓練DNN算法[19]。DNN神經網絡結構如圖2所示。

圖2 DNN神經網絡結構

在圖2所示網絡結構中,x1,x2,…,xn為DNN神經網絡輸入值;b為隱含層神經單元的偏置值;w1,w2,…,wn為神經單元連接的權值;y為神經元輸出,可按照式(2)計算,其中g為神經元激活函數,本文使用tanh、Sigmoid激活函數,分別如式(3)、式(4)所示。

y=g(z)=g(wx+b)

(2)

(3)

(4)

3.2 RF-RFE和DNN神經網絡算法流程

RF-RFE和DNN神經網絡算法包括以下兩個部分:①利用RF-RFE算法得到地鐵車站洪澇災害重要變量;②以重要變量為輸入樣本,訓練DNN神經網絡預測模型。算法流程如圖3所示,具體步驟如下。

圖3 RF-RFE和 DNN神經網絡算法流程

(1)收集地鐵車站洪澇災害數據。

(2)使用RF-RFE算法計算分類樣本的正確率,得到重要變量。

(a)初始變量訓練集輸入為

訓練集的輸出為

式中,n為訓練樣本總數;xi,j為第j個輸入樣本的第i個變量;第i個變量的具體內容見表1;yj∈{0,1}為第j個輸入樣本所對應地鐵車站洪澇災害事件的判別標簽,0表示未發生地鐵車站洪澇災害,1表示發生地鐵車站洪澇災害。

(b)使用RF訓練13個初始變量集,計算變量重要性并記錄分類正確率。

(c)刪除重要度最小的變量,重新訓練變量集,計算變量重要性并記錄分類正確率。

(d)重復步驟(c),直至所有變量集訓練完畢,最高分類正確率的訓練集所對應的變量為重要變量。

經過步驟(2),可得13個初始變量的重要性排序以及每個訓練集的分類正確率,最高分類正確率的訓練集所對應的輸入變量為重要變量。

(3)構建重要變量訓練集,訓練DNN神經網絡。

使用重要變量構建訓練集來訓練DNN神經網絡,本網絡選取精準率P、召回率R、F1分數(調和平均數)、準確率(Accuracy)等4個指標作為模型評價指標。TP代表預測正確的發生地鐵車站洪澇災害數量;TN代表預測正確的未發生地鐵車站洪澇災害數量;FP代表未發生地鐵車站洪澇災害中錯誤預測為發生地鐵車站洪澇災害數量;FN代表發生地鐵車站洪澇災害中錯誤預測為未發生地鐵車站洪澇災害數量;F1是P和R的調和平均數,F1越接近為1,說明模型表現越好,計算如式(5)~式(8)所示。

(5)

(6)

(7)

(8)

4 實例分析

4.1 樣本數據及預處理

本文樣本數據來源于發生地鐵車站洪澇災害的案例,共248組數據,其中正樣本為遭受地鐵車站洪澇災害共129組數據,負樣本為未遭受洪澇災害共119組,正負樣本比例約為0.52∶0.48。樣本數據信息主要依靠國家氣象信息中心、百度地形圖、城市軌道交通工程項目建設標準和防洪標準等官方發布信息與國家規范[20-22],其中部分數據依靠新聞發布的實時信息來源于https://www.chinanews.com.cn/china/,數據處理為優良中差4個等級,對應數值4,3,2,1,發生地鐵車站洪澇災害為1,未發生地鐵車站洪澇災害為0。

為提升訓練速度和分類效果,消除樣本之間量級不同所造成的影響,將所有數據使用最值歸一化處理且映射到[0,1],歸一化計算如式(9)所示。

(9)

式中,xscale為歸一化后的數據;x為原始數據;xmax、xmin為原始數據的最大、最小值。

4.2 變量選擇

使用RF-RFE算法對地鐵車站洪澇災害的變量進行篩選并評價時,需要人工對隨機特征變量個數及決策樹數量等重要參數進行設定。隨機特征變量個數為特征變量總數的平方根,此處設置為4,決策數的數量設置為50。經過RF-RFE算法提取后,地鐵車站洪澇災害初始變量的重要性排序為:{C1,C7,C6,C9,C4,C10,C12,C11,C5,C3,C8,C2,C13}。每刪除重要性排序在最后一位變量時,需重新訓練變量集并計算分類正確率。分類正確率隨變量個數的變化曲線如圖4所示。

圖4 分類正確率與變量個數關系曲線

如圖4所示,當變量個數少于7時,分類正確率整體呈上升趨勢;當變量個數等于7時,分類正確率達到峰值為88.1%;當變量個數大于7時,分類正確率呈下降趨勢;在所有變量都被計算時,分類正確率為83.74%,與選用重要性排序前7個變量數相比,分類正確率下降了4.36%。因此,本研究選擇重要性排序靠前的7個變量(C1降雨量、C7積水回灌、C6河道影響、C9防洪高程設計、C4地區年降雨量、C10排水系統能力、C12信息調度能力)作為地鐵車站洪澇災害預測的重要變量,部分重要變量訓練集如表2所示,行向量表示訓練樣本,列向量表示重要變量,訓練集輸入矩陣如式(10)所示。

表2 重要變量訓練集節選

input=

(10)

4.3 DNN神經網絡模型

DNN神經網絡主要包含隱藏層的層數和各隱藏層的節點數目兩部分,本研究利用重要變量構建的訓練集訓練DNN神經網絡。具體網絡結構為1層輸入層、6層隱含層和1層輸出層,其中,輸入層神經元節點為重要變量;隱藏層神經元激活函數選用tanh函數、dropout(隨機失活)=0.1、r(學習率)=0.000 5;輸出層為1個神經元節點,即是否發生地鐵車站洪澇災害,激活函數Sigmoid將數據映射到[0,1]中,取閾值為0.5,即輸出層輸出大于0.5時預測為發生地鐵車站洪澇災害,小于0.5時預測為未發生地鐵車站洪澇災害。該網絡選用二分類交叉熵損失作為損失函數,如式11所示。

(11)

4.4 訓練結果與分析

通過準確率和F1分數兩個評價指標來衡量DNN預測模型,預測模型訓練集、驗證集和測試集的準確率變化如圖5所示。

圖5 DNN模型準確率預測結果

如圖5所示,3種樣本的準確率隨著訓練進程而顯著提升,前1 000次迭代中訓練集、驗證集和測試集的準確率快速上升;中間1 000~2 500次迭代中,訓練集的準確率穩定在0.86~0.88之間,驗證集的準確率在0.84處上下波動,測試集的準確率在0.80~0.9之間波動;后2 500~4 000次迭代中,訓練集的準確率在0.87處保持平穩,驗證集的準確率波動范圍縮小,在0.85處保持相對平穩,測試集的準確率達到0.85~0.9。這表明了該模型具有良好的預測精度和模型泛化能力。

圖6為DNN神經網絡訓練集、驗證集和測試集的F1分數變化圖,前1 000次迭代快速上升,后1 000~4 000次迭代中,訓練集、驗證集和測試集F1分數值穩定在0.87~0.90之間,說明模型未過度擬合且表現良好。

圖6 DNN模型調和平均數曲線

5 結論

通過地鐵車站洪澇災害實例研究、文獻查閱及專家訪談方法,篩選出影響發生地鐵車站洪澇災害因素作為初始變量集;并采用隨機森林—遞歸特征消除(RF-RFE)算法進行初始變量集優選,構建了重要變量集;最后,將重要變量集作為DNN神經網絡模型的輸入變量,對DNN神經網絡進行了訓練,得到地鐵車站洪澇災害預測模型。主要結論如下。

(1)RF-RFE與DNN神經網絡算法結合,與未去除變量信息冗余相比,有效降低了DNN神經網絡算法的輸入維度,提高了預測模型的運算速度。以重要變量為輸入的DNN神經網絡模型更具有良好的性能,準確率提升了4.36%,驗證了選擇重要變量可以提高DNN神經網絡算法的預測精度,證明RF-RFE和DNN神經網絡算法相結合的預測方法具有理論意義。

(2) 基于RF-RFE與DNN神經網絡預測模型在地鐵車站洪澇災害案例中的預測準確率結果為88.1%,F1分數為90%,說明預測模型具有較好的識別能力和泛化能力,能夠滿足對于地鐵車站洪澇災害預測的需求,證明該預測方法具有應用價值。

為得到更具有普遍性的結論,后續研究需要將RF-RFE與DNN神經網絡算法用于其他數據庫,并從理論上分析和論證該方法應用于數據處理的優越性。此外,可繼續補充和提煉災害數據樣本,如何構建更全面的地鐵車站洪澇災害初始變量集有待進一步討論。

猜你喜歡
正確率車站準確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
門診分診服務態度與正確率對護患關系的影響
高速公路車牌識別標識站準確率驗證法
車站一角
在北京,一個車站的治理有多難
生意
品管圈活動在提高介入手術安全核查正確率中的應用
生意
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合