?

基于集成機器學習模型的短期光伏出力區間預測

2024-02-27 02:46陳習勛吳凱彤彭顯剛
智慧電力 2024年2期
關鍵詞:特征選擇出力區間

陳習勛,吳凱彤,何 杰,彭顯剛

(1.廣東電網有限責任公司汕頭供電局,廣東汕頭 515041;2.廣東工業大學自動化學院,廣東廣州 510006)

0 引言

光伏發電在世界范圍內得到普遍的開發應用,對改善全球氣候變暖以及緩解全球能源危機發揮著積極的作用[1-2]。但是,光伏發電功率容易受到所在區域范圍內的多種氣象因素如太陽輻照度、溫度及相對濕度等直接或間接的影響,導致光伏出力具有一定的隨機性、間歇性和不確定性等特點。分布式光伏的大規模并網會對電力系統運行的穩定性和可靠性造成不利影響[3]??梢?,提高短期光伏出力的預測精度顯得十分迫切。傳統的點預測方法無法精準量化不確定性大小,不能適應電力系統安全風險精準評估的應用需求,而光伏出力的區間預測不僅能夠有效量化光伏出力的不確定性,還能定量描述光伏出力的概率區間,為電網調度人員提供更為全面的預測信息[4]。

目前,常用的點預測方法主要有時間序列模型[5-6]、深度學習模型[7-9]以及混合模型[10-12],這些方法利用歷史光伏數據以及氣象數據來確定某時刻光伏出力值,具有一定的局限性,無法準確描述光伏出力的不確定性。為了更直觀地量化光伏的不確定性以及準確捕捉光伏出力的時序信息,許多學者將研究重點轉移到光伏的出力區間預測上。文獻[13]提出了一種基于高斯混合模型的光伏概率區間預測方法,雖然該方法的預測結果優于典型單一分布模型,但該方法并未與點預測方法進行對比分析。文獻[14]利用藤Copula 對光伏功率及其相關變量間的關聯結構進行解析,建立條件分位數回歸模型預測光伏功率的概率密度函數。文獻[15-17]都提出基于深度學習的混合模型模型,并將其應用于光伏功率預測,這些方法的預測效果不錯,但無法準確描述光伏出力的隨機性和波動性。文獻[18]提出一種基于高階馬爾可夫鏈和高斯混合模型的光伏電站短期出力概率預測方法。文獻[19-20]中使用到的預測模型具有相同的預測模式,都利用氣象數據和歷史光伏出力數據進行短期光伏預測,都是利用歷史光伏數據以及氣象數據來確定某時刻光伏出力值,具有一定的局限性,無法有效地量化光伏出力的不確定性。文獻[21]通過Copula 模型得到光伏出力的概率分布,但Copula 模型會因不同的函數形式而產生的不同的效果,實際工程中在選取Copula 函數形式上仍有難度。

本文提出一種基于快速相關性過濾算法結合集成機器學習模型(Fast Correlation-based Filter-Ensemble Learning,FCBF-EL)的短期光伏出力區間預測方法。針對輸入特征冗余導致的預測誤差,本文利用快速相關性過濾(Fast Correlation-based Filter,FCBF)算法提取日光伏出力預測模型的最優輸入特征集;然后,將最優特征集輸入到集成機器學習(Ensemble Learning,EL)預測模型中進行訓練與測試;最后,基于EL 學習模型的預測結果,計算這組模型的預測概率密度函數,確定預測區間的上下限。本文選取澳大利亞愛麗絲泉一座光伏發電站數據進行仿真驗證了所提模型的性能。

1 快速相關性過濾的特征選擇算法

1.1 FCBF算法原理

FCBF 算法是一種采用后向順序搜索策略快速有效尋找最優特征子集的特征選擇方法,常采用對稱不確定度(Symmetrical Uncertainty,SU)作為測量指標去衡量一個特征與目標變量是呈相關性還是冗余性。

假設離散隨機變量X=[x1,x2,...,xm]和隨機變量Y=[y1,y2,...,yn]。

式中:H(X)為變量X的信息熵,表達了取值的不確定性;H(X|Y)為變量X關于變量Y的條件熵,即在變量Y已知的前提下變量X的不確定性程度;I(X;Y)為表示在觀察到Y隨機變量后X變量信息熵減小的互信息,描述了2 個變量之間相互關聯程度的大??;P(xi) 和P(yj) 分別為隨機變量X=xi,Y=yj的概率;P(xi|yj)為隨機變量Y=yj條件下隨機變量X=xi的條件概率;m、n分別為隨機變量X、Y所有可能取值的總數。

由于I(X;Y)的大小會受到變量值和變量單位的影響,需要對互信息進行了歸一化處理,通常使用SU(X,Y)來計算2個隨機變量之間的相關性大小,即對稱不確定性的值,可用SU(·)來簡化表示[22]。

由式(4)可知,SU(X,Y)的值介于[0,1]之間,其值越大,表明隨機變量X和隨機變量Y之間的相關性就越大。當SU(X,Y)=0,表示這2 個隨機變量不相關,當SU(X,Y)=1,表示這2個隨機變量完全相關。

1.2 FCBF特征選擇算法實現步驟

FCBF特征選擇算法主要包括2個步驟:

1)去除不相關特征:計算每個特征與類別之間的相關性,挑選大于閾值的特征組成候選子集。

2)去除冗余特征:對各子集采用SU度量準則以及近似馬爾科夫毯(Markov Blanket,MB)條件篩選出相關特征并剔除掉冗余特征。

本文實現的FCBF特征選擇算法詳細流程圖如圖1所示。

圖1 FCBF特征選擇算法的流程圖Fig.1 Flow chart of FCBF algorithm

2 短期光伏出力區間預測模型

2.1 預測模型工作原理

本文通過集成決策樹、支持向量機、K 近鄰回歸(KNN)、隨機森林回歸以及Bagging 回歸等機器學習模型基學習器,可以構建集成學習模型(EL 模型)來實現整體預測精度的提升。本文提出的FCBFEL 模型工作原理總體結構框架如圖2 所示。

圖2 集成機器學習模型的總體結構框架圖Fig.2 Overall frame structure of integrated machine learning model

2.2 預測步驟

1)歷史數據預處理。在收集數據的過程中,可能會出現數據缺失和數據異常的情況,在訓練預測模型之前需要對原始數據進行清洗、填充以及異常值剔除等處理,然后對處理后的數據進行歸一化處理。

2)最優特征集的提取及數據集劃分。光伏出力對不確定性氣象因素的依賴度高,原始數據集的采樣間隔為5 min,其中包括溫度、相對濕度、總水平輻射度、散射水平輻射度、風向以及日降雨量。

為了提高運算效率,減少預測誤差,將原始數據以[x1,t,x2,t,…,xk,t,yt](k+1)×t的矩陣形式輸入到快速過濾的特征選擇算法中,根據FCBF 算法的工作原理篩選出最優輸入特征集。其中,xk,t代表第k種特征在t時刻的數據,為列向量;yt代表目標光伏出力的列向量?;诙啻螌嶒炞C明,當特征向量與光伏出力相關度大于80%時,此時預測模型的預測效果最佳。

最優輸入特征集被劃分為訓練集、驗證集與測試集。其中,訓練集占數據集的80%,用于訓練模型;驗證集占數據集10%,用于求解每個基學習器的最優參數;測試集占數據集的10%,用于評估該模型的預測性能。

3)構建并訓練模型。單個基學習器往往只能在某些方面表現出色,而集成學習通過組合多個基學習器彌補這些基學習器表現不足的方面,構建1 個性能更全面、預測效果更好的強學習器。本文擬選用決策樹、支持向量機、KNN 回歸、隨機森林回歸以及Bagging 回歸基學習器構建集成學習模型,每個基學習器的初始參數隨機生成,將訓練集以及驗證集分別放入每個基學習器中進行參數調整,每個基學習器的損失函數是均方誤差函數。為了減少初始化可調參數設置所造成的性能誤差,本實驗循環重復100 次集成學習的訓練與驗證過程,從中選取性能誤差最優的一組參數作為模型參數。然后,收集每次循環得到的預測誤差,通過最大似然估計,根據置信水平確定預測區間的上下限。

4)測試并評估。將測試集放入已完成訓練的模型,對該組預測模型的所有預測結果求均值,并結合步驟3)得到的預測區間上下限,得到最終的光伏出力預測區間。判斷預測結果是否滿足精度要求,若滿足跳轉到步驟5),否則,跳轉到步驟3),重新訓練模型。

5)結束。輸出預測日光伏出力的預測區間。

2.3 預測區間上下限的確定方法

假設隨機樣本滿足某種概率分布,但又無法得知其具體的參數,最大似然估計就是1 種常用的參數估計方法。本文采用最大似然估計方法求得光伏出力預測區間的上下限,核心思想通過若干次試驗,觀察其結果,得知某個參數能使這個樣本出現的概率最大,而其他參數使這個樣本出現概率較小,因此可將這個參數作為估計的真實值[23]。

最大似然估計的步驟如下:

1)根據集成學習模型多次迭代得到的預測誤差,寫出預測誤差的似然函數:

式中:ei為第i次迭代學習得到的預測誤差向量;θ為所求參數向量,M為迭代學習次數。

2)對上述似然函數取對數lnL(θ)。

3)對參數θ1,θ2,…,θM求偏導數獲得似然方程組:

4)求解式(6)。判斷方程組是否有解,若有,則為所求的最大似然估計;否則,最大似然估計常在θj的邊界點上得到。

5)根據對數似然方程組的解,確定目標似然函數中的參數估計值,得到預測誤差變量的概率分布。

6)然后,將所有的預測誤差分別與負荷預測曲線相加,相加的結果仍服從預測誤差的概率分布。最后,根據所選取的置信水平,提取出滿足要求的預測區間上下限。

2.4 評價指標

本文采用2 類不同的評價指標對所提模型的預測效果進行直觀地評價。

第一類評價指標是常用于評價點預測效果的指標[24]:平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)、均方根誤差(Root Mean Square Error,RMSE)。MAPE,RMSE 的值分別用EMAP,ERMS表示:

第二類為常用于評價概率預測的指標:預測區間覆蓋概率(Prediction Interval Coverage Probability,PICP)以及預測區間歸一化平均寬度(Prediction Interval Normalized Average Width,PINAW)。PICP,PINAW 的值分別用PPIC,WPINA來表示。PPIC描述預測區間的可靠性,其值越大,說明越可靠;WPINA描述預測區間寬度的精準程度,一般其值越小越好[25]。

式中:Li和Ui分別為第i個預測區間的下界和上界;R為負荷實際值的范圍(用于歸一化)。

當yi∈[Li,Ui]時,ci=1,否則,ci=0。

3 算例分析

3.1 光伏出力數據集劃分及預處理

本文使用的光伏出力數據是來自澳大利亞光伏研究中心(DKASC)的某1 個太陽能發電系統,該系統采用天合光能單晶硅陣列,大型雙軸跟蹤器,裝機容量為23.4 kW[26]。原始數據集是該發電站在2019—2020 年的光伏出力數據,每5 min 采樣1次,每1 天共288 個點。由于7:00 前以及19:00后無太陽輻射量,發電量幾乎為0,因此,在實驗過程中只采用7:00—19:00 間144 個采樣點的光伏發電數據。實驗計算機配置為:處理器Intel(R),Core(TM),i7-10510U,CPU 1.80 GHz 處理器,基于Python3.9運行環境。

在進行實驗前,需要對原始數據進行歸一化處理,標準歸一化的公式為:

式中,x為原始光伏出力數據集;xmax和xmin分別為該數據集的最大值和最小值;xg為標準歸一化后的數據。

從式(11)中可得出xg的取值會落在區間[0,1]中。

本文從原始數據集中提取2020 年1 月至2020年8 月的光伏出力數據作為算例分析,驗證所提方法的預測性能。訓練集與測試集的劃分如下:訓練數據占原始數據集的80%,驗證集占訓練數據的20%;原始數據集余下部分為測試數據。

3.2 最優特征集的選取

本文選擇11 個特征量如表1 所示,包括溫度、相對濕度、總水平輻照度、散射水平輻照度、風向、日降雨量以及預測日前5 日每天的光伏出力等。假設目標值為預測日的光伏出力,利用FCBF 特征選擇算法,尋找最合適預測模型的輸入特征集?;贔CBF 算法選擇的特征向量相關性如表1 所示。本文將選取相關性大于80%的特征向量作為預測模型的最優特征輸入集。

表1 特征向量與光伏出力的相關性Table 1 Correlation between feature vectors and photovoltaic output

其中,太陽的輻照度是影響光伏出力最直接的因素,而降雨可能會產生遮擋太陽對光伏板照射的光線的云層,間接導致光伏發電量大大縮減。因此,若預測日的降雨量較大,光伏的出力將大幅度下降,日降雨量對光伏出力會有較大的相關性。

3.3 實驗結果分析

本文所提出的光伏出力區間預測方法是集成多個機器學習模型,結合不同基模型的優勢獲得準確的未來光伏出力區間。經過多次實驗發現,當置信水平設置為90%時,所提及模型的預測性能最佳,為保持一致性,所有區間預測模型的置信水平均設置為90%。為了證明所提出方法的有效性,在相同的條件下,分別與Adaboost、支持向量回歸(Support Vector Regression,SVR)、長短期記憶網絡(Long Short-Term Memory,LSTM)、門控循環單元(Gated Recurrent Unit,GRU)、高斯過程回歸模型(Gaussian Process Regression,GPR)、深度學習分位數回歸模型(Deep Learning Quantile Regression,DLQR)進行對比實驗。此外,為了驗證FCBF 特征選擇算法的優勢,基于最小冗余最大相關特征選擇算法的集成學習模型也參與對比實驗中。

所提方法與GPR,DLQR 以及基于最小冗余最大相關特征選擇算法的集成學習模型(Minimum Redundancy Maximum Relevance-Ensemble Learning,MRMR-EL)的預測區間對比如圖3 所示,其中展示了7:00—19:00 之間的144 個時間點的曲線,其中紅色實線為光伏出力真實值,藍色實線為光伏出力預測值,綠色區域代表光伏出力在置信水平為90%下的預測區間。從圖3 中可看出,本文所提方法得到的在置信水平為90%下的預測區間不僅能完全覆蓋真實的光伏出力曲線,預測區間的歸一化平均寬度比較窄,但是在光伏出力峰谷時區間寬度明顯較寬,可能是光伏受不確定性因素影響較為突出導致的。

圖3 集成學習模型與區間預測模型的預測結果Fig.3 Prediction results obtained by integrated learning model and interval prediction model

為了進一步證明本文所提方法的優勢,本文列出了與其他幾種不同模型的點預測方法的結果整體趨勢對比如圖4 所示。為了更直觀地展示所提方法的優越性,圖5 及表2 描述在不同評價指標下集成學習模型與其他預測模型的預測性能比較。

表2 各預測模型的評價指標對比Table 2 Comparison of evaluation indicators between prediction models

圖4 集成學習模型與其他模型的點預測結果對比Fig.4 Comparison of photovoltaic output prediction results at different time points between integrated learning model and other models

圖5 各預測模型的評價指標Fig.5 Evaluation indicators of each prediction model

圖4 給出了9 種不同的點預測模型預測結果對比曲線,在整體上所有曲線都能貼合光伏出力的變化趨勢,而本文提出的FCBF-EL 方法的光伏出力預測值更接近真實值。其性能由圖5 以及表2指標可明顯看出,FCBF-EL 模型的RMSE 和MAPE是最低,是在所有模型中預測性能最為理想。而且相比于常用的區間預測模型,本文模型的預測區間覆蓋率可達95%以上,證明所提出方法具有一定的優越性。

4 結論

本文構建了基于FCBE-EL 的短期光伏區間預測模型,而且還與常用的點預測與區間預測模型進行預測性能的比較。在同一條件下,通過實例分析并結合點預測評價指標以及區間評價指標進行不同模型的預測性能評估。研究結果表明:

1)集成學習模型能夠融合基學習器的優點并彌補不同基學習器之間的不足,得到精度更高、穩定性更強的短期光伏出力預測結果。

2)快速相關性過濾特征選擇算法能夠降低冗余特征導致的預測誤差,加入特征選擇算法后能夠進一步提高集成學習預測模型的光伏出力預測精度。

本文所提出的短期光伏出力預測模型在實際的工程應用中具有一定的前景和意義。但是本文基于集成機器學習預測模型仍存在不足,例如在集成學習模型中未加入優化參數的算法、在特征輸入集中未考慮更近光伏站點的氣象特征及未詳細分析不同閾值下最優輸入特征集對預測精度的作用,以上問題將成為日后工作的重點。

猜你喜歡
特征選擇出力區間
解兩類含參數的復合不等式有解與恒成立問題
你學會“區間測速”了嗎
Kmeans 應用與特征選擇
風電場有功出力的EEMD特性分析
區間對象族的可鎮定性分析
要爭做出力出彩的黨員干部
聯合互信息水下目標特征選擇算法
風電場群出力的匯聚效應分析
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
基于二元搭配詞的微博情感特征選擇
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合