?

基于因果分析的能源系統缺失值補充研究

2024-02-21 06:00
軟件導刊 2024年1期
關鍵詞:變量預測因子

房 旭

(浙江理工大學 計算機科學與技術學院,浙江 杭州 310018)

0 引言

能源系統中,外部設備如傳感器和采集器所處的環境錯綜復雜,電磁、濕度、溫度等外界因素的干擾,系統運行中通訊網絡的波動以及一些人為的錯誤操作,都可能導致監測數據出現不可預測的缺失現象[1-3]。自然界的數據分布通常不均衡,能源系統中采集器和傳感器的數據經過消除趨勢及差分后所形成的數據往往也不均衡,對于跨度很大的兩組時序數據而言,其收集成本高,可能需要一些極端的數據進行學習。本文利用因果分析優化LSTM 的優化器,嘗試解決該問題,以達到精度更高的優化結果。

因果分析理論的研究現狀主要集中在Pearl 等[4]出版的《Causal Inference in Statistics:A Primer》,該文主要解決了傳統統計語言中如何定義數據中的因果問題。Pearl等[4]提出認知因果包含3 個層級,事物之間的關聯為第1層級,在此之上還需要對過程進行有目的的干預,第3 層級為反事實推理。傳統的機器學習最擅長的是根據數據中呈現出來的相關性學習函數去擬合條件概率,這種機器學習模型只學習到了認知因果的第1個層級。

文獻[1]提出因果圖和結構因果模型的概念,因果圖是在貝葉斯網絡的基礎上定義,通過有向無環圖(DAG)的形式并遵從馬爾可夫性和忠實性假設,抓住圖與數據交互的關鍵,實現了圖的連接性和變量獨立性之間的聯結。相比因果圖,結構因果模型包含了更多信息,其不僅蘊含了一個觀測分布,還蘊含了干預分布和反事實分布,可以在因果圖干預的基礎上,進一步支持反事實推理。后門準則和前門準則可以幫助識別并消除因果圖中的混淆變量,將do 算子表示的干預分布轉化成條件分布,在此基礎上利用統計方法進行因果推斷,從而去除混淆因子[5-7]。本文將結合LSTM 模型中的優化器[8-15]進行因果分析及優化,通過嘗試消除因果分析生成的混淆因子,對優化器進行改進,從而達到更加收斂的預測結果,并將其用于能源系統缺失值補充。

1 因果分析消除混淆因子

1.1 不均衡數據預處理

本文針對能源系統中的不均衡數據選用BBN[16]框架,假設一對訓練樣本描述為x,y∈{1,2,…,C},其中C表示類別的數量。卷積學習分支和重平衡分支分別采用均勻采樣和逆采樣,采樣的樣本分別表示為(xc,yc)和(xr,yr),兩類樣本分別加入各自的分支產生特征向量fc∈RD和fr∈RD。而后通過累計學習策略綜合兩個分支的輸出,該過程可表示如下:

其中,z∈RC為對每個類別的預測,每一個類別i∈{1,2,…,C}的預測表示為[z1,z2,…,zC]T,通過Softmax函數可以得到每一個類別的預測概率。

再通過交叉熵損失函數E(·,·)計算對于預測概率=[,…]T的損失值。最終損失函數可表示如下:

Pytorch 中SGD Momentum 的定義為:

μ·vt-1為定義的Momentum,深度學習出現過擬合和欠擬合的問題是因為某些優化器,如SGD Momentum、Adam 優化器引入了Moving Average Momentum,其將過去所有的訓練集拿過來進行加權求和,使訓練的方向更加穩定。當數據分布不均勻時,優化器會傾向于選擇捷徑進行學習訓練,產生偏見從而影響最終優化方向。

如圖1 所示,相對平衡的數據進行深度學習時的學習曲線相對正常,但如果是比較極端的數據,學習的曲線會出現提前收斂的情況,這會造成預測出現較大誤差。本文針對這種走捷徑問題進行分析,嘗試通過因果分析找出因走捷徑問題產生的深度學習偏見問題并削弱其對學習過程的影響。將影響訓練時產生的不被期望偏見的因素稱為混淆因子,使得LSTM 模型在訓練過程中按照預先設計的學習路線進行,避免捷徑學習問題的產生,從而達到更加精確的收斂。

Fig.1 Convergence direction of optimizer in different data distributions圖1 優化器在不同數據分布中的收斂方向

1.2 模型優化器因果分析

優化器在優化模型學習時會產生一些不被期望的偏移。圖2 中Deflection 被認為是影響優化器產生偏見的主要因素,SGD+Momentum 本身也會產生一定程度上的偏轉,Feature 和Deflection 都與研究的主要因素SGD+Momentum 有著正相關關系,但兩者在深度學習過程中會產生一種偽相關,這是不期望產生的,這種偽相關在因果分析理論中[1]稱作Backdoor Shortcut。因果分析理論中方法Backdoor Adjustment 被用來去除Feature 和其產生的Deflection之間的關系,公式如下:

Fig.2 Impact of learning bias in Momentum causal analysis on the results圖2 因果分析Momentum產生學習偏移對結果的影響

假設頭部偏轉方向Deflection 是與動量相似的特征指數移動平均值的單位向量。

T是總的訓練迭代次數Deflection 代表對主方向的偏轉,由主干參數偏差引起,偏差Deflection 公式表示為:

解決M的未知分布問題采用Backdoor Adjustment,將其中公式的變形取到一個近似值。當M的分布無法確認,且M的可能值無限大時,如果給定一個特定值,則只能觀察一個樣本變量(i,x,d);當M的數量與(i,x,d)的數量都比較大時,便可以假設M的數量等于樣本(i,x,d)的數量,即生成的特征值X與算法項Momentum 有1∶1的關系,可以通過對X進行采樣從而近似地獲取到M的分布。

其中,f(xk,dk;)為定義的特征值X到Prediction 的預測函數,g(xk,dk;)為定義的Propensity Score 函數。

De-confounded訓練階段P(Y=i|do(X=x))的logit為:

利用因果分析消除混淆因子主要解決的問題是當數據的分布未知,樣本的數據呈現長尾分布時,利用因果分析對Momentum 算法進行改進,可去除其特征值產生的直接影響從而提取出有害因子在某一方向上的固定偏轉,進而優化模型。

2 實驗方法與結果分析

2.1 數據集

多變量預測中涉及到除電量以外的其他相關數據,比如溫度、濕度、壓強等,將這些變量也加入到訓練中。本文選取2017 年1 月1 日至2021 年12 月31 日5 年內的 多變量數據,電力在夏天隨著氣溫的升高會有一定量的增加,濕度會呈現出下降趨勢,壓強與濕度幾乎呈現出同樣趨勢,到了冬季這3 種變量又呈現出完全相反趨勢,在多變量數據中有著極為緊密的關聯性,如圖3所示。

Fig.3 Multivariate data of a steelmaking plant in 5 years圖3 某煉鋼廠5年內的多變量數據

2.2 評估標準

采用均方根誤差作為評估標準,也稱作標準誤差,將其定義為i=1,2,3...n。在有限的觀測次數中,均方根誤差常用以下公式表示:

其中,i表示第i個數據,N為數據長度。均方根誤差是在預測值和真實值差的平方和與觀測樣本數據N的比,再將其求平方根。

2.3 實驗方法

首先加載數據集,然后對其進行標準化縮放,特征值在(0,1)之間,用3 個小時數據預測1 小時數據,再構建一個3 到1 的監督學習型數據,選擇5 年中的前3 年進行學習,將前12 列作為X進行訓練,倒數第4 列作為Y。測試數據也同樣,將數據轉換為3D 輸入,步長為3,基于此搭建LSTM 模型,優化器選擇SGD+Momentum,并進行實驗。

擬合網絡中,預測過程中將數據格式化成n*12 列,將預測列和后3 列數據進行拼接,因為后續逆縮放時,數據形狀要符合n*4 的要求,然后對拼接好的數據進行逆縮放,觀測值與真實值都要重復拼接縮放和逆縮放的過程。輸入訓練集和驗證集同時不斷調參進行訓練,對比每次的擬合圖,直到達到一個相對理想的擬合曲線。

以圖3 所示的數據為數據集,按照上述方法對標準化后的能源系統多變量時間序列訓練集建立LSTM 模型。因為本數據集的樣本采集是以每小時為單位收集,用n_hours個數據預測一條數據,后續的輸入和輸出都與其有關,將數據由2D 轉換成3D 時作為維度參數,構造監督學習模型時作為參數,設置時間步長,即timestep=n_hours等。n_features代表特征數量,特征值構成多變量進行預測,同時影響訓練和測試集的輸入輸出由2D 轉換成3D 時也會作為維度參數。

2.4 實驗結果分析

本文提出基于因果分析的LSTM 模型(CALSTM),基于LSTM 利用因果分析預測的結果擬合曲線圖與其他流行模型比較結果如圖4 所示??梢钥闯?,CALSTM 模型的擬合精度高于其他模型,特別是函數極值處;本文提出的方法擬合曲線平滑擬合度高,而傳統LSTM 擬合呈現出偏高的情況且波動較大,Transformer 模型效果也較為理想,但在函數極值處仍出現個別擬合差的情況。其原因在于,本文提出的模型類似于Transformer 的編碼器和解碼器架構,該架構有利于充分學習數據之間的相關聯系及潛在的分布規律,從而保證模型收斂時誤差率相對較小,通過對比證明本文模型表現出更高的魯棒性和精度。

Fig.4 Fitting curve of prediction results圖4 預測結果擬合曲線

為了證明該模型有效性,將其與當前流行的時間序列預測方法進行比較,評價指標為MAE、RMSE、MSE,如表1所示。首先將本文提出的CALSTM 模型與LSTM 模型做消融實驗,兩者均在相同的訓練集上進行訓練,均選擇SGD+Momentum 作為優化器,并在同一測試集上進行誤差分析??梢钥闯?,CALSTM 在3 項評估標準中均優于傳統LSTM 模型,本文模型RMSE 降低2.04,MAE 降低1.65,MSE 降低54.10,這些指標證明CALSTM 可有效避免因走捷徑產生的學習偏見,有效降低長尾分布數據在深度學習中的誤差率。

Table 1 Statistical of time series interpolation efficiency evaluation表1 時間序列插補效率評估統計

CALSTM 相比傳統的平均值(Mean)算法預測精度明顯提升,相比ARIMA 與BRITS,本文模型也有明顯優勢,相比ARIMA,RMSE 為評估標準降低0.1,本文提出的方法沒有對時間序列進行假設擬合操作,而是將數據集進行訓練,由機器進行輸出降低了誤差率。相比BRITS,在MAE標準下降低近0.05,BRITS 對比本文方法相當于只有編碼器部分,本文模型的解碼器會對輸入進行學習從而降低誤差率。相比流行的Transformer 在各項數值中也表現優異,因為本文模型中也有類似的編碼解碼器模型結構,是在其優點基礎上又改進了優化器。由圖5 可以看出,本文提出的模型在樣本數據量較少和較多的情況下均可以獲得很高的預測精度,本文模型消除偏見及再均衡策略可以達到明顯高于其他模型的預測精度。綜上所述,本文所用方法在該煉鋼廠能源系統的數據集中以LSTM 為基礎通過因果分析去除偏見可以有效降低誤差率,使得預測精度更高。

Fig.5 Comparison of model training sample data and prediction accuracy圖5 模型訓練樣本數據與預測精度比較

通過比較實驗,本文改進的LSTM 模型使用因果分析去除模型在學習過程中的混淆因子,切斷機器學習走捷徑的問題,在多變量復雜的能源系統環境下,取得了較好的預測結果,這證明因果分析出的混淆因子能夠降低模型預測效率與魯棒性,優化器消除影響后具有更好的學習性能。

3 結語

本文提出基于LSTM 模型,通過因果分析得出混淆因子,該混淆因子會在深度學習時產生學習偏見,影響LSTM在輸出時的誤差率。本文在消除混淆因子的情況下進行預測,并通過對比實驗證明了其有效性,該模型在未知數據分布情況下仍可以提高預測精度。將改進的優化器用于能源系統中多變量數據的預測,對于生產環境多樣且復雜的工程應用具有直接積極作用。實驗結果表明,本文提出的方法可以更加精確地進行缺失值插補,有利于基于基礎數據作進一步分析及監測后續操作,對于復雜能源系統整體性能有較大提升作用。后續研究將致力于提高預測準確率并確保數據波動較大時的穩定性,以更好地服務于智慧能源系統。

猜你喜歡
變量預測因子
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
因子von Neumann代數上的非線性ξ-Jordan*-三重可導映射
抓住不變量解題
也談分離變量
一些關于無窮多個素因子的問題
影響因子
我的健康和長壽因子
不必預測未來,只需把握現在
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合