?

基于LSGAN 和GA-ELM 的風電功率短期預測

2023-01-16 09:07趙睿智丁云飛
上海電機學院學報 2022年6期
關鍵詞:電功率聚類損失

趙睿智, 丁云飛

(1.國網上海市電力公司長興供電公司, 上海 201913;2.上海電機學院 電氣學院, 上海 201306)

風電功率的短期預測多采用風電場的數值天氣數據(Numerical Weather Prediction,NWP)。NWP數據具有一定的規律性和差異性,相似天氣和極端天氣的NWP數據差異顯著,因此對NWP數據作聚類分析是十分必要的。目前,基于聚類分析的風電功率預測研究已卓有成效,文獻[1-3]采用聚類算法對功率數據進行聚類分析預測,均取得良好的效果。

盡管NWP的聚類分析已在風電預測中產生良好的效果,但其未考慮聚類后不同類別的數據是否平衡,即正常天氣NWP的數量遠遠大于極端天氣的數量的情況。若將非平衡數據代入模型中訓練,則容易導致多數類預測效果優于少數類。針對非平衡數據集問題,文獻[4]在數據過采樣處理前,對不平衡數據進行聚類劃分,緩解了過采樣技術難以處理類內不平衡數據的缺陷。文獻[5]首先獲取非平衡數據的概率密度,再通過概率增強生成少數類,從而達到數據平衡。文獻[6]通過引入修正因子抑制多數類樣本的權重,擴大少數類樣本的權重,進而達到分類的平衡性。針對非平衡問題,前期研究的重點在于診斷模型的權重分配,該類模型的可適應性因數據的變化而改變。

生成對抗網絡[7](Generative Adversarial Network,GAN)作為少數類樣本的生成方法為樣本不平衡難題提供了新的解決思路。目前,衍生出許多優化的GAN 算法,如深度卷積生成對抗網絡[8](Deep Convolutional GAN,DCGAN)、條件生成對抗網絡[9](Conditional GAN,CGAN)、最小二乘生成對抗網絡(Least Squares GAN,LSGAN)等。這幾類算法已用于多種領域并取得良好的效果。胡若暉等[10]采用DCGAN擴充少量的軸承振動信號,實現了少量樣本情況下軸承診斷的新思路。CHENG等[11]通過DCGAN 算法生成頻譜數據,實現了小樣本條件下的通信行為識別。張文強等[12]利用CGAN 算法生成特定條件下光伏的功率序列,縮小了特定天氣下光伏不確定出力的范圍。ZHOU 等[13]采用CGAN 來實現書法漢字的生成,有效解決了漢字筆畫遺漏的情況。

本文受對抗博弈思想的啟發,采用LSGAN 算法生成風電功率少數類的NWP數據,用以改善GAN方法訓練的不穩定性,達到不同類樣本數據的平衡。然后,采用基于遺傳算法的極限學習機(Genetic Algorithm Extreme Learning Machine,GAELM)模型[14]進行預測,用以提高預測模型的精度。

1 基本理論

1.1 模糊C均值算法

模糊C 均值(Fuzzy C-Means,FCM)算法采用隸屬度描述數據歸為每個類別的隸屬程度。該算法的基本思想為:將欲聚類的數據集X=[x1,x2,…,xN]劃分為c類,其中,x1,x2,…,xN為欲聚類的樣本數據,N為樣本數量,2≤c≤N,假設聚類中心V=[v1,v2,…,vc]T。

目標函數J的計算公式為

式中,λ為拉格朗日因子。

1.2 生成式對抗網絡算法

GAN是一種無監督的神經網絡,由生成器(Generator,G)和判別器(Discriminator,D)構成,其思想源于零和博弈思想[15],生成器G學習真實樣本的特征分布,將隨機噪聲優化為逼真的虛擬樣本;判別器D是二分類器,甄別虛擬樣本與真實樣本。具體框架如圖1所示。

圖1 GAN基本結構

假設隨機噪聲為z(z服從高斯分布Pz),真實樣本為x(x服從實際分布Pr),生成器輸出為G(z);判別器進行甄別,得到D(x)和D(G(z))。G的目標是使G(z)的分布趨近真實樣本x的分布,即Pg逼近Pr,而D的目標是區分G(z)和x。經過多次迭代,使得Pg無限逼近Pr。

G和D的損失函數為

式中:E(·)為數學期望;G(z)為G生成的樣本數據;D(·)為判別器的輸出結果。

1.3 LSGAN算法

GAN算法的損失函數存在的問題是JS散度不能拉近真實數據和生成數據之間的距離。被判別器D鑒別為真實樣本的生成樣本,樣本離決策邊界很遠,也無法被生成器G優化,這導致G生成的樣本數據質量不高。最小二乘損失函數的優點是將離決策邊界較遠的生成數據拉近到決策邊界,從而使生成數據被G優化。LSGAN 算法采用最小二乘損失函數代替了GAN 的損失函數,降低了GAN算法穩定性低和生成數據質量差的程度。

LSGAN的目標函數為

式中:D(x;θD)為判別器;G(x;θG)為生成器;a為真實樣本數據標簽;b為生成樣本數據標簽;c為生成器參數;a=c=1,b=0。

1.4 GA-ELM 算法

ELM 的輸入權值和閾值是隨機確定的,因此ELM 模型訓練的效果和時間具有隨機性[16]。本文采用GA 方法對ELM 模型的輸入參數進行尋優,具體步驟如下:

(1) 設置初始參數,產生初始種群、迭代次數、初始權值和隱層閾值;

(2) 設置適應度函數,通過GA 模型的不斷選擇、交叉和變異,經過多次迭代,獲取最優的權值w與閾值b,將迭代后的均方根誤差S作為GA 適應度函數,公式為

式中:n為測試樣本數;yi為預測值;^yi為實際值。

(3) 將優化后的權值和閾值代入ELM 網絡,建立GA-ELM 模型。

2 基于LSGAN和GA-ELM 的預測模型

2.1 訓練樣本聚類

采用FCM 算法將NWP數據進行聚類分析,得到聚類類別數c和隸屬度矩陣,根據隸屬度值判斷樣本所屬類別。以聚類有效性評價指標為準則,確定NWP數據樣本聚類的最佳數量。假設聚類數量為c時V(U,V,c)最小,此時NWP數據已被分為c種典型天氣類型,確定類別中心cj和各典型天氣類型的樣本數據。

聚類有效性的評價指標如下:

式中:U為隸屬度矩陣;V為聚類中心;c為聚類數量;xi為第i個點的位置;vk為第k個聚類中心的位置;分子部分表示各聚類中心的緊湊性,分子越小表明各類內部越緊湊;分母部分表示各聚類之間的獨立性,每個類之間的距離越大,則表明各類之間的獨立性越強,聚類中心越疏遠。

因此V(U,V,c)越小,則表明各聚類內部越緊湊,各聚類之間越獨立,進而表明聚類分析結果越合理。

2.2 LSGAN數據生成

由FCM 算法獲得c類NWP數據[D1,D2,…,Dc],比較各類數據的數量,選出最大數量的數據Di(i∈[1,c]),分別將其他數據Dj(j∈1,2,…,c,j≠i)作為真實樣本數據集代入LSGAN 模型中生成新的數據集D′j,使D′j的樣本數量等于Di的樣本數量。因此,數據集[D1,D2,…,Dc]經過LSGAN模型轉變為數據集[D′1,D′2,…,D′i,…,D′c],各類樣本數據集由非平衡狀態調整為平衡狀態。

2.3 建立模型

首先,將風電功率NWP數據進行預處理,再采用FCM 算法對NWP數據進行聚類,獲得c個典型天氣類型。判別不同天氣類型的數據集是否平衡,若數據集非平衡,則將數據集代入LSGAN數據生成模塊生成該天氣類型的新樣本,進而達到數據集平衡。將平衡后的數據集代入GA-ELM 模型進行訓練,建立GA-ELM 預測模型。將測試數據代入模型中獲得預測結果,具體流程如圖2所示。

圖2 基于LSGAN和GA-ELM 的風電功率短期預測流程

3 評價指標

為了驗證模型的預測效果,本文分別以絕對平均誤差(Mean Absolute Error,MAE)、平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)、均方根誤差(Root Mean Square Error,RMSE)作為評價指標。其公式為

式中:et=Rt-Yt為預測絕對誤差值;Rt為第t個風電功率實測值;Yt為第t個風電功率預測值;m為預測時間點數。

4 仿真實驗

本文以上海某14 MW 風電場2017年5月份的NWP數據為例。該NWP數據包括風速、風向、溫度、氣壓、空氣密度5項特征,時間間隔為1 h。分別將第1~28 d的NWP數據共672組數據作為訓練集,將第29~31 d共72組數據作為測試集。該風電場5月份的風電功率時序圖如圖3所示。

圖3 上海某14 MW 風電場5月份功率時序數據

4.1 NWP數據的聚類分析

采用FCM算法將風電場的NWP數據進行聚類分析,計算不同聚類數目的聚類有效性V(U,V,c),進而確定最佳聚類的數量。NWP數據聚類分析中不同聚類數目的有效性函數值見表1。

表1 FCM 的聚類數和有效性函數值

由表可知,FCM 方法在聚類數為4時聚類有效性取最小值,這說明該NWP數據最佳可分為4種典型天氣類型。

將4類典型天氣類型分別記為聚類集D1、D2、D3、D4。每個聚類集中的樣本個數見表2。

表2 各聚類集中樣本個數

4.2 LSGAN平衡樣本集

本文使用的LSGAN 和GAN 模型中,生成器G中隱含層的激活函數采用Relu函數,輸出層則采用tanh函數。判別器D中隱含層的激活函數選用ELU 函數,輸出層無激活函數。

將聚類集D1、D3、D4分別按照D2的樣本數量進行LSGAN的樣本生成。以D1為例,LSGAN和GAN模型中的G和D的損失函數曲線,如圖4、圖5所示。由圖4可見,LSGAN模型中G損失函數會急劇降低,并在達到一定迭代次數后趨于穩定,曲線變化小、收斂快。這表明LSGAN中生成器在整個訓練過程中穩定性好,其損失函數收斂迅速。與此對比,GAN模型中G損失函數在迭代過程中波形變化大,收斂過程中產生多次發散,這表明GAN模型中生成器在整個訓練過程中穩定性較差。由圖5可見,LSGAN模型中D損失函數會急劇降低,達到一定迭代次數后趨于穩定,這表明LSGAN 中判別器在訓練過程中穩定性好且收斂快。GAN 模型中D損失函數在迭代過程中曲線變化大,無法迅速收斂。

圖4 LSGAN和GAN中生成器G 損失函數的對比結果

圖5 LSGAN和GAN中判別器D 損失函數的對比結果

迭代完成后,LSGAN 和GAN 模型中判別器D對生成樣本的判定結果,如圖6所示??芍?LSGAN中判別器的判別概率在[0.4,0.7]上下波動,判別概率在0.5~0.6內居多,表明LSGAN 的判別器實現了納什平衡。由于GAN 中判別器的損失函數未收斂,導致GAN 中判別器的判別概率上下波動大,判別概率多為0或1。

圖6 LSGAN和GAN中判別器對噪聲生成樣本的判別概率

4.3 預測結果分析

經過LSGAN 生成后的NWP數據集為[D′1,D′2,D′3,D′4],各類之間均具有平衡性。本文針對該數據集進行GA-ELM 預測,模型參數見表3。

表3 GA-ELM 的網絡參數設置

風功率預測結果如圖7所示。LSGAN-GAELM 模型預測曲線擬合程度優于GAN-GA-ELM模型,這表明LSGAN方法生成的樣本數據更貼近于真實數據。

圖7 風電場5月份功率預測曲線

各種方法的預測評價指標見表4,GA-ELM 模型的MAE值和RMSE值明顯低于ELM 模型,這說明GA算法優化ELM 算法的輸入權值和閾值可提高預測的精度。GAN-GA-ELM 模型和LSGANGA-ELM 模 型 的MAE、RMSE、MAPE 值 均 比GA-ELM 模型小。這表明對風電NWP數據進行聚類分析,并采用GAN 算法生成少類樣本數據,達到各類樣本的平衡,使得模型訓練更加完善,可提高預測的精度。LSGAN-GA-ELM 模型的MAE、RMSE、MAPE值分別比GAN-GA-ELM 模型降低了0.374 3 MW、0.537 5 MW、3.63%,這說明最小二乘損失函數使模型波動小,也更穩定,樣本生成質量高,進而預測模型效果更好。為了驗證本文算法的廣泛性,本實驗同時采用了9月份、12月份的NWP數據,分別對比了ELM、GA-ELM、GAN-GA-ELM、LSGAN-GA-ELM 模型的預測效果。對比結果顯示,LSGAN-GA-ELM 模型在風電功率預測中精度更高,穩定性更好。

表4 風電功率預測的評價指標

5 結 語

本文提出了基于LSGAN 和GA-ELM 的風電功率短期預測方法。針對NWP數據的規律性和差異性,將NWP數據進行聚類分析,再采用LSGAN方法生成少數類樣本的數據,從而達到各類樣本的平衡,再通過GA-ELM 模型對平衡樣本進行訓練和預測。

分析了LSGAN 和GAN 方法損失函數之間的變化趨勢,對比了2種方法在生成數據中產生的效果,進而得出LSGAN 方法在處理該風電場NWP數據時更穩定且收斂更快。通過對比各類方法的預測效果,得出本文方法預測效果更優。本文方法是GAN 相關理論在風電功率預測領域的應用和延伸,為風電功率短期預測和處理非平衡問題提供了有效途徑。

猜你喜歡
電功率聚類損失
基于PCC-CNN-GRU的短期風電功率預測
胖胖損失了多少元
輕松上手電功率
你會計算電功率嗎
基于K-means聚類的車-地無線通信場強研究
解讀電功率
玉米抽穗前倒伏怎么辦?怎么減少損失?
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺的K-means聚類算法改進及并行化實現
基于改進的遺傳算法的模糊聚類算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合