?

基于隨機森林算法和粗糙集理論的改進型深度學習短期負荷預測模型

2024-01-06 10:10封鈺宋佑斌金晟馮家歡史雪晨俞永杰黃弦超
發電技術 2023年6期
關鍵詞:粗糙集決策樹修正

封鈺,宋佑斌,金晟,馮家歡,史雪晨,俞永杰,黃弦超

(1.國網江蘇省電力有限公司蘇州供電分公司,江蘇省 蘇州市 215004;2.國網浙江省電力有限公司杭州市錢塘區供電公司,浙江省 杭州市 310000;3.華北電力大學電氣與電子工程學院,北京市 昌平區 102206)

0 引言

短期電力負荷預測對保障電力系統安全經濟運行具有重要意義[1-3]。近年來,隨著全球電力市場不斷發展,現貨市場和日內交易制度不斷完善,對負荷預測精準度的要求也越來越高[4-8]。影響負荷的因素多種多樣,常見的有天氣因素(溫度、濕度、日照強度等)和時間因素(工作日、節假日、當前具體時間等)[9]。同時,一些政策性因素也會導致負荷規律發生變化,如疫情管控導致工廠減產、停工,造成用電負荷下降;對電動汽車的鼓勵性政策導致用電負荷增加。以上因素使得短期負荷預測呈現出極強的非線性和隨機性特點。

到目前為止,短期負荷預測方法主要有傳統預測方法和啟發式預測方法2類[10-14]。傳統預測方法包括時間序列法和回歸分析法等,缺點在于數學模型較為簡易,預測的精準度有待提高[13-14]。啟發式預測方法包括支持向量機法和神經網絡法等,因具有一定的自適應能力,近幾年在非線性預測領域被廣泛使用[10,12]。然而,支持向量機法存在過于依賴核函數的局限性;神經網絡法的訓練效果往往取決于網絡結構,目前通過神經網絡進行負荷預測的研究大多采用經驗法選擇大量特征量作為輸入,而沒有進行特征量的評判精簡,導致神經網絡結構復雜、訓練費時[15-16]。因此,如何準確地選擇神經網絡輸入特征量十分重要。

隨機森林(random forest,RF)算法是一種基于決策樹的自學習算法,能夠進行數據的分類和回歸,在電氣工程等領域應用廣泛[10-12,17-18]。文獻[18]將隨機森林算法和神經網絡相結合,進一步提高了預測的精準性,但未對預測結果進行修正,且評價模型全部聚焦在整體,既未對局部預測點的誤差進行研究,也沒有將負荷預測中的突變點納入研究范圍。

綜上所述,為進一步完善研究,本文提出一種基于RF 算法和粗糙集理論(rough set theory,RST)的改進型深度學習(deep learning,DL)短期負荷預測模型(RF-DL-RST)。該模型引入政策因素,與時間、天氣因素一起建立負荷預測特征集,將關鍵特征量和歷史負荷值作為深度學習的輸入、輸出項進行訓練,并通過粗糙集理論修正預測結果。最后,以蘇州某地區電網為例,對該模型的有效性進行仿真驗證。

1 隨機森林算法的特征量提取原理

1.1 隨機森林算法簡介

隨機森林算法示意圖如圖1 所示。隨機森林算法的關鍵在于決策樹,通過對每棵決策樹的預測結果采用投票或者加權平均等方式得到預測或回歸結果。

圖1 隨機森林算法示意圖Fig.1 Schematic diagram of RF algorithm

關于決策樹的形成,國內外研究者提出了很多種決策樹算法,如ID3、C4.5、分類回歸樹(classification and regression tree,CART)這3 種算法都是采用從頂部出發、自上而下形成決策樹的方法[19-20]。在決策樹形成過程中,每一個新的節點都需要選擇新的屬性作為分裂的依據,這3 種決策樹算法不同點在于生長過程中葉子分裂的抉擇判據。其中,CART 對回歸樹使用最小均方差作為分裂的屬性度量,對分類樹使用基尼指數(Gini index,GI)作為分裂判據[19-20]。當運用隨機森林算法進行分類時,采取投票的方式確定最終結果,當運用隨機森林算法進行回歸時,采用取均值的方式得到預測結果。此外,為了降低過擬合、隨機誤差對預測結果的影響,一般將原始數據分為訓練集和測試集,而后利用bootstrap 方法進行訓練集抽取,接著采用CART 算法從上到下逐個對每一棵決策樹進行訓練,直到滿足要求。

1.2 特征量提取

如何選擇數據集中的關鍵特征量對降低模型復雜度、縮短運算時間十分重要。隨機森林算法進行關鍵特征量提取時,一般采用基尼指數或袋外數據錯誤率進行評價[19-22]。采用袋外數據錯誤率提取特征量的算法詳見文獻[21-22],本文采用基尼指數的方式進行研究,原理如下。

假設數據集有J個特征量(X1,X2,X3,…,XJ),C個類別,I棵決策樹,則節點m的基尼指數為

特征量Xj在節點m的重要性評分采用節點m分枝前后的基尼指數變化量表示:

式中Gl和Gr分別為節點m分枝后2 個新節點l、r的基尼指數。

設定特征量Xj在第i棵樹中出現的節點集合為M,則特征量Xj在第i棵樹的重要性表示為

綜上,特征量Xj在RF中的重要性可表示為

由此,可以對數據集中的各個特征量進行重要性排序,提取重要特征量。

2 深度學習原理

深度神經網絡(deep neural network,DNN)是深度學習的一種框架,它是一種具備至少一個隱含層的神經網絡。與傳統BP神經網絡相比,兩者有著相似的結構,但DNN 隱含層的層數一般較多,并采用了layer-wise 的訓練機制,克服了BP神經網絡訓練中的梯度擴散問題。與傳統的求解方法相比,訓練好的DNN具有較高的計算效率和計算精度[23]。

典型的DNN 網絡結構如圖2 所示,首尾分別為輸入、輸出層,中間層都是隱含層,各層間是全連接關系(前一層的任一節點一定與后一層的任一節點連接)。假設第i-1層有g個節點,則第i層的第j個節點的輸出表示為

圖2 DNN示意圖Fig.2 Schematic diagram of DNN

式中:σ(·)為激活函數,用于對某一節點的輸入求和并進一步增強;為第i-1層的第k個節點到第i層的第j個節點的權重系數;為第i-1層的第k個節點的輸出;為第i層的第j個節點的偏差系數。

本文采用均方差損失函數,表示如下:

式中:P為訓練樣本數;yp,t為t時刻p樣本的期望值;為DNN輸出的預測值;T為預測時段數。

同時,本文對損失函數引入L2正則化,目的在于限制權重參數在一定范圍,以適應異常值和噪聲,表達式[23]如下:

式中:α為正則化超參數;ω為權重向量。

設定參數的學習率為μ,通過式(7)反復更新隱含層參數,直至預測精度收斂[23-24]。

3 預測修正模型

粗糙集理論是一種處理不確定性和模糊問題的數學工具,能夠對不一致、需要誤差修正或有數據丟失的缺陷信息進行有效修正和分析[25-26]。

利用粗糙集理論建立負荷預測修正模型[25-26]:

式中:yt+1和分別為t+1時刻預測值和修正值;st為尺度因子。

要求解尺度因子st,需構建一個信息系統。本文假設粗糙集理論所依的信息系統為K=(U,A),其中:論域U為DNN 輸出的預測值集合;A=C∪S為屬性集,S={st}代表決策屬性,條件屬性C為數據集特征量的集合,基于已有的研究結果[25-26],此處定義C={a,b,c}。其中:

至此,通過式(9)—(12)可對負荷預測值進行修正。

4 預測結果評價模型

本文設置均方誤差(mean square error,MSE)和最大絕對誤差(maximum absolute error,MAE) 2個指標對預測結果進行評價。預測負荷和真實負荷的均方誤差用于評價整體預測效果;預測負荷和真實負荷的最大絕對誤差用于評價局部點的預測效果。MSE和MAE分別表示如下:

式中:N為預測點的數量;yn為第n個預測點的真實值;為第n個預測點的預測值。

5 RF-DL-RST預測模型

RF-DL-RST 模型框架如圖3 所示。本文的目標是對電力負荷進行短期預測,輸入的特征量包括天氣、時間等多種因素,與預測結果(即負荷數據)存在量綱、單位等差異,需要對預測數據進行預處理,具體方法見文獻[26]。

圖3 RF-DL-RST模型示意圖Fig.3 Schematic diagram of RF-DL-RST model

影響地區用電負荷的因素非常多,有天氣、時間和政策等因素,然而DNN的預測精度并不與輸入項呈正相關,當輸入項過多時,不僅會造成網絡結構復雜,還有可能劣化模型精度。

參照文獻[18],本文建立負荷預測的特征集。不過,本文認為其時間因素中的周日期和工作日、節假日構成重復,故剔除周日期特征量。同時,考慮到近幾年疫情封控對社會用電方式的影響,本文將該日是否封控也作為一個特征量進行研究。此外,本文還補充了平均溫度、平均風速、日出時間、日落時間等天氣因素作為特征量。具體預測特征量見表1。

表1 預測特征量Tab.1 Prediction characteristic variables

6 算例分析

本文使用蘇州某地區電網2022 年10 月28 日至2023 年2 月4 日的負荷數據對RF-DL-RST 預測模型進行仿真驗證。為驗證RF-DL-RST模型的優越性,設置2 個對比模型,其中:對比模型1 是RF-DL 模型,無RST 修正部分;對比模型2 是DL-RST 模型,無RF 特征量篩選部分。3 個模型的相關參數選擇一致。

6.1 負荷預測關鍵特征量提取

對表1所選取的預測特征量進行重要性排序,RF 模型中決策樹數目設置為500,分裂特征數取3,訓練集和測試集比例為9∶1。圖4 為特征量重要性分析結果。

圖4 隨機森林算法特征量重要性分析結果Fig.4 Results of importance analysis of characteristic variables based on RF algorithm

從圖4 可以看出,表1 中15 個特征量按重要性得分從低到高排序后,當日小時、最低溫度、平均溫度、天氣條件、節假日、工作日、日出時間、是否封控這8 個特征量得分較高,因此將其作為DNN模型的輸入項。

6.2 深度學習訓練

將由RF篩選的8個關鍵特征量和歷史負荷數據分別作為DNN 模型的輸入、輸出項進行訓練。DNN輸入層節點數為8,輸出層節點數為1。設置DNN 含3 層隱含層,節點數分別為40、30 和20,激活函數為ReLU;訓練集和測試集比例為9∶1,訓練次數為200次。

在迭代過程中,預測值的均方誤差隨訓練次數的變化曲線如圖5 所示??梢钥闯?,均方誤差在訓練次數為150 左右時開始收斂,不斷趨近于975 MW2這一數值。

圖5 預測值均方誤差隨訓練次數的變化曲線Fig.5 Curve of MSE of predicted value changing with training times

6.3 RST修正

依據式(8)—(12) 分別計算條件屬性C={a,b,c},以及在t之前的決策屬性S,從而得到粗糙集信息系統。鑒于粗糙集理論處理數據的要求,此處設定條件屬性C={a,b,c}的編碼規則[13]為

由此,可計算得到修正后的負荷預測數據。

圖6為2023年2月5日的實際負荷與RST修正前后預測負荷曲線??梢钥闯?,經RST 修正后的預測負荷曲線基本介于實際負荷曲線和未經RST修正的預測負荷曲線之間,更接近實際負荷曲線。

圖6 實際負荷與RST修正前后預測負荷曲線對比Fig.6 Comparison of actual load and predicted load curves before and after RST correction

6.4 對比分析

根據式(13)、(14)可計算出預測結果的評價指標。RF-DL-RST 模型與RF-DL、DL-RST 模型的指標對比如表2所示。

表2 3個模型的指標對比Tab.2 Index comparison of three models

從表2 可以看出,與RF-DL 模型相比,RFDL-RST 模型的MSE 指標降低了30.198%,整體預測結果更接近真實值,MAE指標也從5.77%下降到4.01%,在07:00—08:00(負荷迅速增加)和22:00—23:00(負荷迅速降低)等負荷變化較大的特殊時段,預測精準度大大提高。

此外,與DL-RST 模型相比,RF-DL-RST 模型的MAE 和MSE 指標分別降低了15.221%和21.425%,且RF-DL-RST模型的DL訓練時間縮短了10.186%,說明通過RF 模型精簡DL 輸入特征量能夠提高負荷預測效果。

綜合以上分析可知,RF-DL-RST 模型的預測結果明顯更優,驗證了本文預測模型的有效性。

7 結論

針對短期負荷預測,基于隨機森林算法和粗糙集理論,提出RF-DL-RST模型。通過實例計算分析,得到如下結論:

1)通過RF 對影響負荷的因素進行重要性評估,縮短了模型運算時間,提高了預測的精準度。

2)通過RST對模型結果進行修正,并從整體和局部2 個角度建立評價模型,驗證了方法的有效性,大大提高了對負荷突變點的預測精準度。

猜你喜歡
粗糙集決策樹修正
Some new thoughts of definitions of terms of sedimentary facies: Based on Miall's paper(1985)
修正這一天
基于Pawlak粗糙集模型的集合運算關系
合同解釋、合同補充與合同修正
一種針對不均衡數據集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
軟件修正
多?;植诩再|的幾個充分條件
基于決策樹的出租車乘客出行目的識別
雙論域粗糙集在故障診斷中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合