?

基于特征構造和改進PSO算法的分布式光伏功率預測

2024-03-10 03:34孟令哲曾新華龐成鑫
電源技術 2024年2期
關鍵詞:輸出功率聚類粒子

孟令哲,周 翔,曾新華,龐成鑫

(1.上海電力大學電子與信息工程學院,上海 200090;2.復旦大學工程與應用技術研究院,上海200433)

大多數分布式光伏并沒有完善的天氣數值測量、衛星云圖以及預報系統[1-2],相比集中式光伏電站,功率預測難度較大。文獻[3]利用聚類方法進行天氣分類,文獻[4]采用多種天氣融合進行預測。相比集中式光伏電站,分布式光伏歷史數據量較少,天氣分類進一步縮減可用數據,導致預測精度不高。

針對以上問題,建立了基于聚類算法的特征工程,聚類的指標以及結果作為新的特征,以擴大分布式光伏數據集的樣本規模;提出改進粒子群優化算法(PSO),該改進算法基于一種跳出循環策略,確保PSO 算法避免局部最優情況發生,向全局最優方向迭代,并應用于模型超參數優化中。

1 分布式光伏數據預處理

采用拉依達(3-Sigma)準則[5]來判斷異常數據,并對異常數據進行插值處理。分布式光伏輸出功率數據一般服從Beta 分布或者正態分布[6],認為測量數據x和平均數據μ之差若超過3 倍的標準差δ,則判定為異常數據,如式(1)所示,將原始數據壓縮到[0,1]范圍內,最后預測時反歸一化處理。

2 相關性分析及特征構造

只考慮光伏出力不為0 時刻的點,由于各個環境變量對分布式光伏輸出功率各不相同,應對整個數據相關性進行分析,以便于模型的降維處理,減少計算時間。每個環境變量序列與光伏輸出功率相關性計算公式如式(2)所示:

式中:R(Xj,Xk)為相關性系數;Cov(Xj,Xk)是兩個向量的協方差;Var(Xj)和Var(Xk)是兩個向量各自的方差。

引入二分聚類算法對原始數據進行聚類,相比于傳統k-means 聚類算法[7]能克服陷入局部極小值的情況。聚類后的每個數據都會有一個歐氏距離的數據特征,該數據點是每個時間點的所有歐氏距離,歐氏距離計算公式如式(3)所示:

式中:d(x,y)是歐氏距離;xi是歸一化后特征;yi是歸一化后的光伏出力。該公式描述了與集群中心點的距離,中心點指的是典型天氣情況下的輸出功率和氣象因素之間的關系。每個時間點計算的歐氏距離作為獨立輸入特征,引入到數據集訓練,其機理相當于先于模型訓練前,分析輸入和輸出的相關性,該相關性指標納入到訓練模型中,再引入聚類結果的特征。由于分布式光伏的數據可能沒有明確天氣的特征,所以無法進行傳統的典型天氣如晴天、陰天、雨天的劃分,若采用聚類算法劃分,則無法說明該類別是否屬于某種典型天氣,而只能說明歸類結果。擴充后的數據集再進行監督學習,因此,本構造方法的訓練特征增加二維,分別為聚類結果及歐氏距離,可用數據增加,能夠解決分布式光伏測量系統測量數據少的問題。

3 網絡模型

為了保留數據時序性,所提出的單步預測模型以長短時記憶網絡(LSTM)為基礎,引入注意力機制在LSTM 之后分配權重,提出改進后的PSO 算法作為網絡超參數的優化,并采用由序列到監督的學習方法。

3.1 LSTM 循環神經網絡

LSTM 在1997 年由Hochreiter 和Schmidhuber 所提出,是一種適合處理時間序列連續性的網絡,相比于循環神經網絡(RNN)會出現陷入梯度消失和爆炸的情況,LSTM 網絡能夠解決長期依賴的問題[8]。LSTM 網絡的一個單元結構如圖1 所示。

圖1 LSTM單細胞結構

3.2 引入注意力機制的網絡模型

注意力機制是一種人類視覺反映到大腦而產生不同關注點的機制?,F有如LSTM 模型之類的模型雖能學習輸入與輸出相關性,但無法準確關注到各個輸入對輸出的影響程度大小,而注意力機制相當于對輸入值進行一個權重的分配,其它模型如BP 神經網絡與注意力機制的結合在處理長序列的任務時表現并沒有LSTM 結合注意力機制好。因此,將注意力機制與LSTM 模型相結合進行分布式光伏預測,所提模型的框圖如圖2 所示。

圖2 網絡模型框圖

X0~Xn為輸入網絡模型的歷史數據,包括氣象數據、歷史輸出功率,稱為輸入層。該數據流過LSTM層進行特征提取學習,其中,利用改進的PSO 算法優化整個LSTM 網絡的超參數,優化的參數結果返回到LSTM 層中。在注意力層中,h1~hn為輸入序列的狀態值,進行相似性判斷后求兩者向量點積,按概率賦予各部分之間的權重a1~an,賦予較強特征較大的權重,反之同理,根據權重系數,對h1~hn加權求和,使得模型對強特征的表達能力更強,最后,數據通過全連接層輸出預測結果。

3.3 改進PSO 的超參數優化

使用粒子群算法進行超參數優化,共進行維度為3 的超參數優化,控制變量為抓包數大小,LSTM隱藏層神經元大小,正則化率。目標函數如式(4)所示,該公式反映了預測值與真實值的差值比之和,數值越小,說明模型擬合程度越高。

式中:predict為光伏輸出功率預測值;true為真實值。

針對標準粒子群算法存在容易陷入局部最優的問題[9],本文提出一種改進的PSO 算法,用于在循環中跳出局部最優點,并進行下次迭代。標準PSO 算法出現局部最優的原因主要有以下兩點:(1)粒子速度衰減較快,導致粒子在迭代到一定代數的過程中,速度太小,無法進行搜索更新;(2)對于某些復雜問題,雖然粒子速度沒有明顯衰減,但是被更新到最優位置的概率大大減小。

為了解決陷入局部最優的問題,提出以下策略:每次迭代時,當獲得一個局部最優位置,則對所有粒子的位置進行編碼成一個向量,對此時的粒子進行聚類,聚類中心點隨迭代次數增加而減少,防止迭代剛開始時,粒子最優位置不清晰,錯誤選擇最優位置,但必須選擇以每次迭代的局部最優位置作為一個中心點,也即加入先驗知識,如果局部最優聚類簇數小于某一個中心點聚類簇數,則保存全局最優到一個數組當中,引入變異策略,按照一定概率,當變異值大于0 且數組不為空集,則自行隨機選擇數組中的元素作為全局最優,否則就初始化粒子和種群。由于數組中的粒子都是歷史的最優值,再次選擇時可以提高粒子速度,同時,初始化會重新生成最優值,避免一直在局部最優值下迭代。為了實現快速優化,獲得全局最優和局部最優之間最佳平衡,引入自適應慣性權重ω,公式為:

式中:ωmax和ωmin是慣性權重的最大值和最小值;f為目標函數值;favg為平均值;fmin為最小值。

ω用來控制粒子的速度大小,ω大時,由基本PSO 更新公式知,全局搜索能力強;ω小時,粒子速度減小,局部搜索能力強。當每個粒子測量到的光伏輸出功率誤差基本一致時,粒子速度變小,則陷入了局部最優,此時優化得到的優選變量為非最優值,導致LSTM 網絡參數設置不合適,最終使得預測質量降低。由式(5)可知,引入的自適應慣性權重ω增大,增大了全局搜索能力,避免了繼續朝著局部最優處更新粒子,粒子全局最優得到更新。

3.4 評價指標

本文采用的評價指標共有三種:均方根誤差(RMSE)、平均絕對誤差(MAE)、擬合度[10]。RMSE與MAE均反映了預測值與真實值的偏差程度,擬合度的值越接近1,說明模型擬合效果越好。三種評價指標的公式如下:

式中:RMSE、MAE、R2均為模型評價指標;Pi為第i時刻光伏發電功率的真實值;P'i為第i時刻光伏發電功率的預測值;Piav為發電真實值的平均值;n為測試集的總時刻。

3.5 總流程

圖3 為神經網絡預測光伏功率流程圖,數據預處理包含了數據的清洗。利用聚類算法,生成聚類結果及歐氏距離作為新特征擴充數據集。特征工程構造完畢后,歸一化數據進行監督學習,劃分為訓練集、測試集以及預測集三類。在訓練集中,經過3.3節的算法,在該算法循環中初次訓練網絡模型,根據適應度函數得到最優超參數,在測試集應用最優超參數進行訓練,輸出評價指標來判斷該模型的性能。預測集用于輸出歸一化的預測值,反歸一化預測值后,最終輸出預測結果。

圖3 神經網絡預測光伏功率流程圖

4 實驗分析

本研究的目的是在數據量少的情況下,預測分布式光伏電站的發電量,所用數據集為澳大利亞公開光伏數據集(DKASC),包含了分布式光伏的輸出功率以及各類氣象因素,原始數據有全局輻射水平、溫度、相對濕度、漫反射水平、風速、降雨量、相位。采用平臺為python3.8 版本。將數據進行異常數據的檢測和歸一化處理后,構造特征工程并融合數據集。測試集選取了一天內150 個輸出功率不為0 的時間點,用于直觀反映預測效果。訓練集與測試集之比為7∶3。

由式(2)計算得各因素相關系數為:全局輻射水平0.903、溫度0.423、相對濕度0.556、擴散水平輻射0.117、風向0.001、降雨量0.362 2、電流0.996,歐氏距離特征相關系數為0.574 6,聚類結果特征相關系數為0.481 1,與輸出功率有較高相關性,證明了所提特征構造方法有效。由以上分析可知,風向及擴散水平輻照度與光伏輸出功率的相關性最小,該類特征不應作為模型的訓練特征。

改進PSO 的初始化參數,設置為迭代次數90 次,加速因子C1為2,C2為3,慣性權重最大、最小值分別為0.7 和0.3,粒子數50 個,搜索維度為3 維。目標函數如式(4)所示,優化迭代曲線與未優化迭代曲線如圖4 所示,標準算法在迭代至16 代時,算法開始有一個較長時間的收斂,而改進后的算法在第78 代后才收斂,這是由于收斂速度與收斂計算時間存在矛盾。改進后的算法由于其粒子初始化的原因,導致在經過局部最優時重新迭代,算法收斂速度下降。改進后的迭代曲線上有兩次適應度函數迅速增加,這是由于跳出循環策略的引入,選擇了歷史最優值或者粒子初始化,從而跳過局部最優,經過兩次突變后,目標函數繼續下降,并最終收斂,而標準的PSO算法,??吭诰植孔顑炋幉辉偈諗?。改進的PSO 算法從初始目標函數值的2.4×1010降至1.4×1010。標準PSO 算法從初始目標函數值的2.6×1010降至2.2×1010。

圖4 粒子群算法優化曲線對比圖

優化超參數的初始值和尋優范圍如表1 所示。最終的優化結果是神經元數量為57,dropout 比率為0.015 64,Batch size 為34。在此超參數下,固定模型的訓練效果最好。

表1 超參數優化值

表2 展示的是不同超參數的取值,進而形成的評價指標。初始超參數均取表1 中的初始值。由表2可以看到,改進后的PSO 算法相比標準PSO 算法優化LSTM 網絡超參數后,RMSE、MAE均下降,而預測精度提升。說明與標準算法相比,改進算法的收斂性更好,找到了更能滿足目標函數最小值的控制變量,而結合圖4,標準算法的適應度函數已經在第15代趨于穩定不再收斂,因此可以說明該算法陷入了局部最優,而改進后的算法無論在適應度函數曲線上下降方面,還是在優化超參數使得模型性能得到提升方面,均證明了所提改進效果的有效性。

表2 不同超參數對性能指標的影響

網絡模型共有4 層,包括2 個LSTM 層,一個注意力層以及一個全連接層。較高的學習率會增加丟失先驗知識的風險,因此引入了學習率自適應調整策略,每經過10 次迭代,學習率降低為原來的1/10,初始學習率為0.01,采用Adam 優化器。

圖5 展示了預測結果的對比,所提模型采用注意力機制與LSTM 網絡結合,且采用改進的PSO算法進行超參數的優化,LSTM 模型是指去除超參數優化及注意力機制預測的結果??傮w來看,相對于LSTM 模型,所提模型的預測值與真實值更接近,曲線較為平滑,預測效果良好。在光伏出力較高的時間點,與真實值貼合更緊密,表明模型可以準確預測高出力點的值。在光伏出力趨勢波動較大時,LSTM 模型預測極端變化點的輸出功率結果相比實際值會偏高,而所提模型在極端點的預測與真實值幾乎一致。

圖5 分布式光伏總預測曲線

表3 是不同方法評價指標的數據。每次實驗和迭代由于尋優各有差異以及模型的學習效果不同,數據均有變化,最大變化率不足5%,各種方法和模型下的實驗均進行5 次,取平均值。

表3 預測方法評價指標對比

方法一是簡單LSTM 監督模型,其中超參數為初始參數;方法二引入聚類算法構造特征,擴充數據集;方法三引入了注意力層;方法四引入改進PSO 算法優化超參數。隨著模型深度增加,RMSE與MAE評價指標均依次降低,R2指標均依次升高,說明模型的擬合效果較好。構造特征后,RMSE及MAE均有較大幅度降低,這是由于原始數據被擴充后,網絡模型提取了更多有用信息,同時,各個特征的相關性信息也被充分提取。相比于方法三,方法四的評價指標改善情況顯著,這是由于超參數的選擇可以改善模型性能,而優化超參數會讓固定結構的模型把性能發揮到極致。

表4 對比了不同神經網絡對評價指標的最終影響,均采用特征工程以及使用優化算法進行超參數自動調優。從表中可以看出,LSTM 的評價指標優于其他三類神經網絡,而Bi-LSTM 網絡與LSTM 網絡的評價指標接近,且只有對于MAE,Bi-LSTM 低于LSTM,因此選用LSTM,而不選用Bi-LSTM 網絡是合理的??梢钥吹?,相比于BP 神經網絡,RNN 性能有較大的提升,這是由于RNN 神經網絡具有時序性,相比BP 神經網絡能夠更好處理時間序列。

表4 預測模型評價指標對比

5 結論

本文提出了一種基于數據分析和挖掘的神經網絡模型,應用于分布式光伏歷史數據有限輸出功率的短期預測場景?;跉W式距離的特征工程的構造方法,新特征與輸出功率之間存在較強聯系,最終在預測評價指標上表現較好。同時,為了讓模型更加關注到與輸出功率存在強聯系的數據,引入了注意力機制到LSTM 模型當中。實驗證明,模型評價指標R2相比于簡單模型進一步提高,最終擬合度接近98%。提出了一種避免PSO 算法陷入局部最優的策略并應用于神經網絡的超參數自動尋優,該策略是經過一個局部最優的判據后,選擇初始化粒子或者更新粒子跳過局部最優點,實驗證明,相比標準的PSO 算法,適應度曲線突起后大幅度下降,避免出現局部最優不再收斂的情況。

猜你喜歡
輸出功率聚類粒子
基于粒子群優化的橋式起重機模糊PID控制
基于粒子群優化極點配置的空燃比輸出反饋控制
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
適用于智能電網的任意波形輸出功率源
基于雙層BP神經網絡的光伏電站輸出功率預測
一種層次初始的聚類個數自適應的聚類方法研究
分布式發電系統并網逆變器輸出功率的自適應控制
自適應確定K-means算法的聚類數:以遙感圖像聚類為例
基于Matlab的α粒子的散射實驗模擬
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合