?

基于CEEMDAN 和相關性分析的大壩位移預測

2024-01-22 11:43傅露瑩齊慧君李同春姜鵬輝杜效鵠
三峽大學學報(自然科學版) 2024年1期
關鍵詞:波動分量測點

傅露瑩 齊慧君 李同春 姜鵬輝 杜效鵠

(1.河海大學 水利水電學院, 南京 210098;2.水電水利規劃設計總院, 北京 100120)

大壩變形過程中會受多種復雜因素影響,如降雨、光照、溫度、滲流等因素,導致數據波動頻繁,真實的數據特征不能很好地被模擬出來,因此挖掘出波動數據的隱藏信息具有重要意義,小波分析[1]的發展一定程度上改善了非平穩的監測資料的統計分析質量,但由于模型的基函數不存在自適應性,因此如果想要在分離數據的同時保證損失降到最低,就無法通過單一的小波變換實現.而經驗模態分解(EMD)是一種處理非平穩數據常用的方法,該方法依據信號自身的時間尺度特征對信號進行分解,具有自適應性.任超等[2]對大壩位移序列進行經驗模態分解,有效分離出隱含在時序中的非線性高頻波動成分和低頻趨勢成分,一定程度上提高了大壩變形預測精度,但EMD易出現模態混疊,為解決上述問題引入完全自適應噪聲集合經驗模態分解(CEEMDAN),武新章等[3]將CEEMDAN 應用到風電預測中,也證實了CEEMDAN 能有效克服模態混疊現象.

隨著人工智能的發展,隨機森林(RF)[4]、長短期記憶神經網絡(LSTM)[5]等機器學習方法已被用于預測大壩位移,并取得了不錯的效果,雖然這些模型可以處理非線性相關的數據,但其很難捕捉變化幅度較大的數據彼此之間的關系,因此針對數據的非平穩性,將數據預測模型和數據分離模型相結合能夠極大提高預測準確率.鄭旭東等[6]利用EMD 和PCA 模型結合對觀測數據進行分析,從而構建映射矩陣進行轉換,實現消噪效果,但位移的波動不一定是觀測儀器引起的誤差,更多的是由環境因素導致的波動,不能完全去除,馬佳佳等[7]將EEMD 和LSTM、MLR模型結合起來應用到大壩位移預測中,有效提高了預測精度,但并未考慮分量與輸入變量之間的相關性.鑒此,本文提出了CEEMDAN-PCCs-TCN-XGBoost組合預測模型,通過CEEMDAN 算法提取數據趨勢,Pearson相關系數提取復雜因素的相關性,同時應用TCN 算法和XGBoost算法分別進行預測,最后將預測結果累加作為最終的預測結果,將該模型應用到某重力壩工程來驗證模型的可行性,并與傳統模型和EEMD-LSTM-MLR 等模型預測結果對比驗證準確性,具有較高的工程應用價值.

1 模型原理

1.1 基于CEEMDAN 方法的數據分解

本文通過信號分解技術對原始位移數據進行預處理.使用CEEMDAN 方法的主要原因是由于CEEMDAN 比EMD 和EEMD[8]具 有 更 好 的 反 模 式混合性能,通過加入經EMD 分解后含輔助噪聲的IMF分量,并在分解得到的每一階IMF 分量后都進行總體平均計算,有效解決白噪聲從高頻到低頻的傳遞問題,提升分解效果,具體步驟如下:

第1步:在待分析信號S(t)中添加自適應性白噪聲B i(t),CEEMDAN 一階分量見式(1).

式中:T表示添加噪聲的總次數,本文取50次;i表示添加噪聲次數.

第2步:構造下一個分解信號S(t)=S(t)+αi B i(t),得到IMF2.

第3步:重復前兩步直到結束,最終余項見式(2).

式中:c表示產生IMF的個數.

1.2 基于樣本熵的位移分量重構

樣本熵(SampEn)是一種時間序列復雜性測度方法,是對近似熵算法的改進,其結果的精度優于近似熵.使用一種非線性動力學參數SE 來判斷序列復雜度和序列隨著維數變化而產生新模式的概率大小,SE會隨著序列復雜程度的增加和生成新模式概率的提高而增大.樣本熵只需少量數據即可,對時間序列數據的自相似性和復雜性程度進行定量分析,因此在工程領域得到廣泛應用,具體算法理論參見文獻[9-10].

經過CEEMDAN 分解后的位移原始序列產生若干IMF 分量,為了簡化計算模型,通過減少執行指令,從而提高整體的運行速度,本研究通過樣本熵對分解后的IMF分量序列進行重構.

1.3 Pearson相關系數

Pearson相關系數方法(PCCs)是能夠衡量一對隨機序列之間相關程度的一種統計學方法,可以定量地衡量波動數據和多種因素之間的相關關系,其取值范圍在[-1,1]之間,其中1表示完全正相關,相關系數的絕對值越大,相關性越強.

1.4 時間卷積網絡

時間卷積網絡(TCN)針對時序數據模型以CNN模型為基礎,增加了入因果卷積、膨脹卷積和殘差鏈接3種特殊結構.TCN 模型在處理序列數據方面明顯優于一般的循環結構,如LSTM 和GRU,并且在相同容量的情況下,它們比循環結構具有更長的內存,梯度穩定、感受靈活、并行性好.

膨脹因果卷積可以通過調節感受尺寸受層數,卷積核尺寸和膨脹系數以滿足不同長度序列感知需求,從而解決CNN 中時間建模長度受卷積核尺寸限制這一難題,殘差鏈接被證明是訓練深層網絡的有效方法,它使得網絡可以以跨層的方式傳遞信息.一個殘差塊包含兩層的卷積和非線性映射,在每層中還加入了Weight Norm 和Dropout來正則化網絡.TCN 的結構簡圖如圖1所示.

圖1 TCN 結構簡圖

設一維序列的輸入l={s1,s2,…,s n-1}∈R n與卷積核f:{0,…,n-1}→R,其序列元素s的卷積運算F的表達式:

式中:*為卷積運算;n為卷積核尺寸;d為擴張系數,d越大,間隔步長越大,越能夠捕獲到更長時間序列的狀態知識,本文選擇d為[1,2,4,8].

1.5 XGBoost算法

XGBoost是一種高效的梯度提升決策樹算法.在原有的GBDT 基礎上進行了改進,使得模型效果得到大大提升.重要的是,XGBoost是一個集成模型,作為一種前向加法模型,他的核心是融合了集成Boosting思想,將多個弱學習器通過一定的方法整合為一個強學習器.即用多棵樹共同決策,并且用每棵樹的結果都是目標值與之前所有樹的預測結果之差并將所有的結果累加即得到最終的結果,以此達到整個模型效果的提升,并且在目標函數中使用歸一化,以降低模型的復雜性,防止過擬合,加快學習過程.它由決策樹的有效實現組成,以生成一個組合模型,其預測性能優于單獨使用的單個技術,輸出函數計算如下:

2 預測步驟

本文提出的CEEMDAN-PCCs-TCN-XGBoost組合預測模型,步驟如下:

1)利用CEEMDAN 方法對數據進行分解,得到各IMF分量,根據樣本熵值的大小將分量重構為趨勢項和波動項,趨勢項用HST 模型表示,波動項根據Pearson相關系數提取相關性大的作為輸入變量.

2)使用時間卷積網絡和XGBoost算法分別對重構后的位移分量進行預測,將全部的預測值相加得到最終的位移預測值.將位移預測結果與實測值進行誤差分析,并與其他算法結果進行對比.

CEEMDAN-PCCs-TCN-XGBoost 模型步驟如圖2所示.

圖2 CEEMDAN-PCCs-TCN-XGBoost模型步驟

3 實例分析

3.1 監測概況

以位于中國云南省某重力壩為例,壩頂高程為1 002 m,共19個壩段.為監測大壩水平位移,在1、7、12、17及19 號壩段上布設正倒垂線,共計18 個測點,其中12 號為溢流代表性壩段,也是最主要的壩段,布置了3條不同錨固深度組成的倒垂線組,用以相互校核和比較不同深度的基巖變形的測值的大小,測點布置如圖3所示.樣本選取12號壩段的一個監測點的倒垂線測點數據為測試案例,選取1999年7月15日到2005年10月9日之間共計574組數據的水平位移數據組成的時間序列,在輸入數據前將數據進行歸一化處理.

圖3 正倒垂測點布置

3.2 CEEMDAN 提取數據趨勢

大壩測點采集的原始位移數據受復雜條件的影響,監測數據難免會包含高頻的波動,對模型分析的準確性造成影響.為進一步掌握數據的變化規律,從而獲取更多數據內部的特征信息,本研究采用CEEMDAN 算法對原始位移數據進行分解,分解完的各IMF分量和殘差如圖4所示.

圖4 位移數據CEEMDAN 分解結果

原始數據分解后得到9 個不同尺度的IMF 分量,頻率由高到低,對應的IMF 圖像越來越平滑,考慮到直接對全部分解分量進行預測,不僅計算量迅速增加,還會由于模型復雜導致預測結果偏差較大.因此需要將分解后的位移分量進行重構來提高預測精度.

樣本熵的模式維數取2,相似容限r取25%的原序列標準差,根據樣本熵值分析各位移分量數據的復雜混亂程度以此重構位移分量,樣本熵值越大,自我相似性就越低,產生新模式的概率越高,時間序列就越復雜,計算結果見表1.

表1 原始位移分量的樣本熵

將分量根據計算結果大小進行重構,IMF3、IMF4值比較接近將其進行對比,為了使數據更趨近于理想的位移趨勢變化,選擇更平滑的曲線,將值最大的4個分量合并作為波動項進行預測,將其他相似性高的分量合并作為趨勢項使用HST 模型進行預測,重構的趨勢項與原位移序列前后對比如圖5 所示,趨勢項與原序列前后基本一致,說明降噪方法保留了監測數據的原始特征.

圖5 重構前后的對比

3.3 模型自變量的確定

趨勢項特征明顯,主要以環境變量(水位、溫度和時間)為自變量,以影響變量(如變形、開裂或滲流)為因變量,建立回歸模型.一般回歸模型可表示為:

式中:y為效應變量;H表示上游庫水位;a i、b i和c i表示回歸系數;t表示觀測天數;θ=t/100.

波動項波動變化幅度較大,眾多的監測資料表明,波動項的波動變化和庫水位、壩體溫度的變化相關性較大,而原始的水位、溫度數據同樣波動幅度較大,隨機性較高,有必要對數據進行分解以清除數據噪音并提取關鍵信息,選取測量得到的庫水位數據和壩體內溫度計測量得到的溫度數據如圖6所示,數據波動頻繁,變化特征不明顯,故采用CEEMDAN 算法對水位數據、溫度數據進行分解如圖7所示.

圖6 上游水位和溫度變化趨勢

圖7 CEEMDAN 分解結果

再利用Pearson相關系數分別分析波動項分量和各分量之間的相關性,選取相關性強的作為輸入變量,選取分量結果見表2.

表2 最終選取的分量與波動項的相關系數

3.4 預測結果與驗證

本研究采用TCN 算法對趨勢項進行預測,采用一維卷積網絡,在Tensorflow 下實現,卷積核大小為8,采用Adam 優化器,學習速率為0.001,而波動項因為相關性較差采用高效的隨機梯度提升實現的XGBoost算法預測,選擇Pearson相關系數較高的分量作為輸入變量,每次迭代的模型選擇gbtree.預測結果如圖8所示.

圖8 位移預測結果

為了證明此模型的準確性,本研究選取SVM、EMD-SVM、EEMD-ARIMA、EEMD-LSTM-MLR 模型對原位移序列進行對比試驗,截取測試集進行比較,預測結果如圖9 所示,各模型評價指標對比見表3.由結果可知,本研究提出的CEEMDAN-PCCs-TCN-XGBoost模型相比于其他模型對大壩位移預測的擬合效果更高.

表3 各模型評價指標對比

圖9 各模型預測結果對比

為了更準確的量化模型預測效果,本文選取均方根誤差ERMS對極值點的預測偏差進行比較、平均絕對誤差EMA對區間平均預測誤差進行比較、平均絕對百分比誤差EMAP用來體現預測值與實測值之間的偏離程度以及擬合系數R2比較預測曲線與實測位移曲線擬合程度.本文提出的CEEMDAN-PCCs-TCN-XGBoost模型的ERMS、EMA、EMAP指標相較于SVM 模型減小了72.72%、77.77%、79.58%,且R2指標提高了39.58%;相較于EMD-SVM 模型減小了66.67%、71.42%、73.39%,且R2指標提高了21.87%;而對比EEMD-ARIMA 模型和EEMD-LSTM-MLR模型的ERMS、EMA、EMAP指標,分別減少了57.14%、60%、63.29%和50%、60%、63.75%,R2指 標 提 高了10.41%和9.38%,位移預測精度相較于別的模型都有明顯的提升,驗證了模型的準確性.

同時為了驗證模型的可行性,進一步采用其他測點進行驗算,另選測點進行模型可行性的驗證,結果如圖10所示.由結果可知,該模型適用于不同測點,驗證了模型的可行性.

圖10 其他測點預測結果

4 結 論

本研究提出了基于CEEMDAN-PCC-TCN-XGBoost模型的位移預測方法,將模型運用到實例中,研究結果表明:

1)CEEMDAN 使得數據變得光滑特征明顯,有效避免模態混疊現象,且相較于EMD-SVM、EEMDARIMA、EEMD-LSTM-MLR 等 模 型CEEMDANPCCs-TCN-XGBoost模型預測精度得到大幅度提升,能更好的模擬波動數據的變化特征,并且得到了水位和溫度分量對位移波動影響大.

2)從結果來看,對波動項的預測精度有待提高,因此未來還要繼續發掘波動項和其他輸入變量的變化相關性,提高波動項的預測精度.

猜你喜歡
波動分量測點
液壓支架整機靜強度試驗及等效應力分析
帽子的分量
基于CATIA的汽車測點批量開發的研究與應用
羊肉價回穩 后期不會大幅波動
微風里優美地波動
2019年國內外油價或將波動加劇
論《哈姆雷特》中良心的分量
干濕法SO2排放波動對比及分析
分量
拱壩結構損傷的多測點R/S分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合