?

基于機器學習的風電場風速多模式集合預報

2024-01-31 03:46高盛許沛華陳正洪
南方能源建設 2024年1期
關鍵詞:方根風電場均值

高盛,許沛華,陳正洪

(湖北省氣象服務中心,湖北 武漢 430205)

0 引言

中國致力于發展可再生能源、實施化石能源清潔替代,到2030 年使非化石能源占一次能源消費的比重達到25%左右,其中風力發電是重要組成部分,但大規模風電并網對電力系統的運行和調度帶來挑戰。風電的隨機性、波動性和間歇性等固有特點嚴重影響了其并網利用。為了保證電網的安全穩定運行,華中能源局華中監管局 2019 年發布了《關于印發華中區域“兩個細則”的通知》,該規定要求風電場日前短期預報準確率要達到80%以上[1]。不能滿足上述預報準確率要求的電站的售電經濟收益將受到影響。部分電站因功率預報不準確,全年發電量的3%~5%無法對電站產生經濟價值,嚴重影響了電站的經濟效益[2]。甚至有電站因預報準確率不高出現虧損的嚴重情況。因此準確穩定的日前風電功率預報在風力發電運行過程中起著主導作用。

1)國內外研究現狀

國內外傳統短期風電功率預報方法主要包括基于數值天氣預報數據的物理方法和統計方法[3-4]。物理方法通過數值天氣預報數據計算風電場的預計風速,再帶入風電場的風功率曲線進行擬合從而得到最終發電功率;而統計方法則基于歷史數據和實時數據進行統計計算預報,比較常見的包括動力統計法,它在數值預報結果和風電場的風電功率之間建立一種映射關系,包括線性以及非線性方法來獲得預報結果。在實際應用中,這些方法存在數據不完備、自動化通訊設備故障、風電出力限制等問題,這些問題都會影響預報結果[4]。

隨著機器學習技術的普及,越來越多的研究開始探討如何將機器學普及。機器學習算法能夠從大規模的氣象數據中學習規律,并能夠適應不同的氣象條件,因此具有潛在的優勢[5]。隨著機器學習在各個領域的廣泛應用,預測算法的性能和效果成為近期研究的關注點。本文旨在深入研究和對比多種基于機器學習的預測算法,包括隨機森林算法(Random Forest,RF)[6]、基于決策樹的集成算法(Light Gradient Boosting Machine,LightGBM)[7]、自適應增強算法AdaBoost[8]、機器學習算法以及基于深度神經網絡的(Gated Recurrent Unit,GRU)[9]、(Bidirectional Long Short Term Memory,Bi-LSTM)[10]等方法。在過去的研究中,這些算法在不同任務和數據集上表現出色,但其性能差異和適用場景仍需深入了解[4,11]。

2)本文研究內容

本文著重選取位于湖北省內多個典型風電場,針對這些場站數據開展集合預報算法的比較與研究,得出適用于湖北省各個區域的數值預報模式以及在湖北省表現比較好的預報方法。在文章中,通過選擇重點試驗場站并檢驗對比各種集合預報方法在試驗場站的結果,通過仔細分析結果數據從而得到本文的研究結論數據。最終由預報風速的對比分析得出適用于不同地區場站的集合預報方法。

1 研究數據選取

本研究采用了陳正洪等[12-13]研究中被證明在湖北省較為有效的4 種不同的數值預報產品,包括CMA-WSP V1.0、CMA-GD、WHMM V2.0 和EC數值預報[14]。其中,CMA-WSP V1.0 是由中國氣象局風能太陽能中心下發的面向風能和太陽能的數值天氣預報[12],水平分辨率為3 km × 3 km(下簡寫為3 km),預報時長為未來72 h。CMA-GD 是由廣東省區域數值天氣預報重點實驗室基于GRAPES 非靜力模式[15]開發的華南區域中尺度模式,水平分辨率為3 km,預報時長為未來72 h。WHMM V2.0 是由中國氣象局武漢暴雨所提供,華中區域中尺度數值天氣預報系統以廣泛使用的中尺度數值天氣模式WRF 為基礎。模式區域中心位于(114.133°E,30.617°N),采用3 層嵌套包括全國、華中、湖北省3 個區域,其分辨率分別為27 km、9 km 和3 km 。本項目中采用湖北區域的預報,預報時效為84 h。EC 預報采用數據來自歐洲氣象中心的再分析資料,資料水平分辨率為1 km,每天模擬時效為72 h。在本研究中通過網格間隔選取數據點的方式得到水平分辨率為3 km 的數據進行使用。此外,本研究還采用了基于機器學習的5種集合預報方法,在研究中對比以上5 種方法和直接采用數值預報模式及通過選取多種數值預報模式在預報地點的預報結果取平均值的方法(簡稱為均值法)進行對比。

為了方便后續對比,本文選取的4 種模式均選取相同的模式水平分辨率和預報時效。本文統一使用的模式分辨率為3 km,時間分辨率為 15 min。對于分辨率不同的預報模式,如果該預報模式有水平分辨率為3 km 的數據源則采用該數據源,如果該預報模式的水平分辨率比3 km 更高則采用間隔取網格數據點的方式將水平分辨率降為3 km 后進行對比。所有數據每日08:00(北京時間,下同)起報,僅采用未來72 h 的預報結果進行使用。在根據模式計算場站實際格點數據的時候采用線性插值的方式計算從網格數據到格點的具體數值。

本文使用的資料年限為2021~2022 年兩年的數據,主要種類如下:7 個風電場的測風塔觀測數據,時間分辨率為15 min,7 個風電場基本情況如表1所示。

表1 7 個代表性風電場基本信息表Tab.1 Basic information of seven representative wind farms

所選風電場在湖北省的地圖位置如圖1 所示。圖中顏色代表所在地區70 m 高度層的年平均風速,越接近紅色代表年,平均風速越高,越接近藍色代表年,平均風速越低。

圖1 湖北省典型風電場選取分布圖Fig.1 Distribution of typical wind farms selected in Hubei Province

2 機器學習及集合預報方法

2.1 RF 算法

RF 算法是隨機訓練決策樹的集合,被廣泛應用于解決分類和回歸問題,隨機森林回歸模型是一種集成方法,它結合了各種不相關的回歸樹,減輕了每棵樹的不穩定性問題,每棵樹基于隨機抽樣的訓練數據和隨機選擇的特征進行構建。在分類任務中,每棵樹對樣本進行分類,最后通過投票機制確定最終的分類結果。對于回歸任務,各樹的輸出取平均值。該算法在數據和特征的選擇上體現出隨機性,使得每棵樹都是獨立且略有不同的,提高了整個模型的泛化能力。

2.2 Adaboost 算法

Adaboost 是一種集成學習算法,旨在通過組合多個弱分類器來構建一個更強大的分類器。其核心思想是通過迭代訓練,每一輪關注被前一輪分類錯誤的樣本,為其分配更高的權重,從而集中處理難以分類的樣本。新的分類器以加權投票的方式與之前的分類器進行組合。AdaBoost 算法的主要思想是將每次迭代產生的弱學習者結合起來,形成一個強學習分類器。該算法通過迭代,每次迭代都關注之前模型分類錯誤的樣本,提高其權重。在每個迭代中,構建一個基礎分類器,最終通過加權投票將這些基礎分類器組合成一個強分類器。樣本的權重會被調整,以便后續模型更加關注先前分類錯誤的樣本,從而逐步改善整體性能。

2.3 LightGBM 算法

LightGBM(也簡寫為LGBM)是于2016 年提出的一種基于決策樹GBDT(Gradient Boosting Decision Tree)的梯度提升算法[7]。它通過迭代地訓練決策樹,每次迭代都試圖糾正上一輪迭代的錯誤。采用直方圖算法,將連續的特征值分桶,然后在桶上進行分裂,大幅提高了訓練速度。

LightGBM 的核心思想是基于直方圖的決策樹算法,將樣本中連續的浮點特征值離散化成K 個整數并構造與之長度相等的直方圖。遍歷時,將離散化后的值作為索引在直方圖中累計統計量,然后根據直方圖的離散值,遍歷尋找最優的分割點。這樣可以有效地降低內存消耗,同時達到降低時間復雜度的目的。LightGBM 在處理大規模數據集時具有較好的性能,并且能夠處理高維稀疏特征,還支持并行化訓練。

基于LightGBM 算法能夠并行處理海量數據的特性,將該算法用于對時間序列的殘差和風速、溫度、濕度、氣壓等多種參數進行多特征并行處理,能夠更好地降低模型計算的時間復雜度,提高預測的效率和精度。

2.4 GRU 算法

GRU 是一種門控循環神經網絡。它包括更新門、重置門和候選隱藏狀態。這些門控制著信息的選擇性傳遞和遺忘。GRU 旨在解決傳統RNN 中的梯度消失問題,能夠更好地捕捉序列數據中的長期依賴關系。由于其門控機制,特別適用于處理序列數據,如時間序列數據[16]。GRU 算法的核心公式見式(1):

式中:

zt——代表更新門;

rt——代表重置門;

ht——代表候選隱藏層細胞狀態;

ht——最終的隱藏狀態。

這個公式描述了GRU 網絡的控機制和細胞狀態更新方式,通過控制信息的流動從而可以生成合理的時間序列處理輸出結果。

2.5 Bi-LSTM 算法

雙向LSTM(Bi-LSTM)由兩個LSTM 單元組成,它考慮了過去和未來的輸入特性。相比GRU,它通過引入門控機制和雙向LSTM 單元更有效地解決了長期依賴性的問題[17]。LSTM 的核心原理是通過一系列的門控單元來控制信息的流動和遺忘。具體而言,LSTM 包括輸入門、遺忘門和輸出門3 個關鍵組件。輸入門決定了當前輸入信息的重要程度,遺忘門控制了前一時刻的記憶是否被保留,輸出門決定了當前記憶的輸出。LSTM 算法的核心計算公式見式(2):

式中:

it——代表輸入門;

ft——代表遺忘門;

ct——代表隱藏層細胞狀態;

ot——輸出門的輸出;

ht——最終的隱藏狀態。

Bi-LSTM 通過將數據雙向輸入可以進一步提升長期依賴數據的利用效果,使用Bi-LSTM 可以捕捉過去和未來狀態的影響。Bi-LSTM 的計算公式見式(3):

式中:

這種受控存儲是長短期記憶網絡和門控循環單元的基礎,可以緩解梯度爆炸和消失等問題。長短時記憶神經網絡在時序序列數據中具有良好的性能。

2.6 集合預報算法

針對復雜轉折性天氣,單一數值模式預報產品無法有效提高預報準確率[18],采用多種集合預報方法進行對比檢驗是一種比較好的方法[19]。集合預報算法是一種通過將多種數值預報模式數據進行對比優選,再輸入給機器學習方法或傳統預報方法進行檢驗,最終輸出表現最優的預報結果的方法。其主要特征在于針對每種預報算法,在集合預報過程中都會通過對比優選數值預報數據源進行預報檢驗得到最終輸出。許楊等[3,11,13]在過去的研究中提出了基本的集合預報思想,本研究采用的集合預報方法核心思想與之前的研究保持一致,依然是通過多種預報源與算法進行對比的方式得到較好的結果。本研究在對比過程中通過數據組合計算,并討論分析集合預報的表現來探討適合于湖北省的集合預報算法。本研究采用的集合預報系統流程如圖2 所示。

圖2 集合預報流程圖Fig.2 Flow chart of ensemble forecasting

為確保實驗的全面性和可信度,本研究采用了多個數據集和場景,并綜合考慮了算法的準確性、泛化能力和計算效率等方面的指標。在本研究中,所采用的評價指標包括主觀評價指標與客觀評價指標兩種。其中主觀評價指標主要是針對預報結果繪制成的預報曲線進行人工交叉檢驗對比,客觀評價指標主要采用平均均方根誤差計算、算法運行時間計算等指標進行集合預報的算法評價。

3 實驗設計

本研究實驗使用RF、LightGBM、AdaBoost、GRU、Bi-LSTM 共5 種先進的機器學習進行集合預報,并與數值預報模式方法及根據場站優選數值預報模式取均值的方法進行對比檢驗,根據對比檢驗結果優選準確率較高的方法。

3.1 實驗平臺

為公平對比,實驗平臺統一使用同一臺計算機。實驗計算機配置為1 顆英特爾Xeno Gold 6330 CPU,內存大小為128 GB,所用操作系統為銀河麒麟V10 Linux 操作系統,Python 版本為Python 3.7,深度學習算法使用Pytorch 1.8 框架。

3.2 實驗訓練方法

所有基于機器學習的集合預報實驗均采用被經常采用的10 折交叉驗證[20]來驗證效果。具體而言,研究中將整個數據集分為10 個子集,其中8 個用作訓練數據,1 個用作測試數據,1 個用作驗證數據。我們重復這個過程10 次,每次選擇不同的子集作為測試及驗證數據,并計算模型在每次驗證集上的性能指標,如平均誤差、均方根誤差。最終,我們對這10 次評估結果進行平均,得到模型在整個數據集上的性能評估。

對于機器學習算法RF、LightGBM、AdaBoost,使用網格搜索方式來確定最優超參數組合,它的特征在于首先確定每個對結果影響較大的超參數的值域空間,在該空間內等間隔生成超參數值并與其他超參數進行組合形成超參數空間進行實驗搜索。對于RF 方法最核心的超參數為最大深度(max_depth),和弱學習器個數(n_estimators);對于Adaboost 最核心的超參數為學習率(lr)及弱學習器個數(n_estimators);對于LightGBM 最核心的超參數包括學習率(lr),最大深度(max_depth)、弱學習器個數(n_estimators)、列采樣比例(feature_fraction);在實驗過程中,通過搜索超參數組合確定對當前機器學習算法最優的學習配置。

對于深度學習算法,使用動態學習率調整方式根據訓練曲線動態降低學習率避免過擬合,同時引入早停訓練機制,當連續5 個epoch 在測試集上的效果不再下降的時候停止訓練,避免過擬合。二者組合使用解決了epoch 數量需要手動設置或設置不合理的問題,同時可以保證針對各種算法均在一定范圍內可以體現該算法的最優效果。

對于均值法采用同一時刻的多個數值預報模式通過線性插值算法將格點預報轉換到站點預報的風速值求平均值計算的算法進行比較。

在以上算法中,為了公平評估各個集合預報方法的性能。由于均值法是直接使用數值預報的結果因此直接輸出的結果只有風速,其他機器學習算法都可以通過配置學習數據直接生成功率預報結果。為了公平比較,所有預報方法都只預報風速,而不是對比預報功率準確性。因為從風速轉換到發電功率可以使用不同的公式計算,不同的公式選擇會對結果產生微小的影響,這對于評估均值法和其他算法的差異情況有不利影響。本研究通過對比預報風速的偏差來比較不同算法的實際效果,對于后續應用評估功率預報的準確性也具有指導意義。

3.3 實驗結果

為有效評估實驗結果,實驗采用平均均方根誤差RMSE 指標確定不同集合預報方法的偏差,RMSE 計算公式見式(4):

式中:

y ——預報風速(m/s);

表2 是各集合預報算法均方根誤差逐月對比結果,在此表中集合預報的時候使用了全部預報成員進行預報,控制算法變量不同從而對比不同的預報算法的優劣。表3 是各集合預報算法均方根誤差按年對比的情況,其中列“集合成員1”和列“集合成員2”是分別優選2 個不同的集合成員(見電場名稱列,列中名稱從左到右分別對應集合成員1 和集合成員2)進行預報后得到的預報結果。

表2 各集合預報算法均方根誤差逐月對比Tab.2 Monthly comparison of root mean square errors of ensemble forecasting algorithms m/s

表3 各集合預報算法均方根誤差按年對比Tab.3 Yearly comparison of root mean square errors of various ensemble forecasting algorithms m/s

通過表2~表3、圖3 進行對比分析發現,在所有風電場中,傳統均值法預報誤差最大。在象河風電場,Adaboost 集合預報算法的均方根誤差最小,在天河口風電場、周樓風電場、蔡家寨風電場深度學習算法GRU 和Bi-LSTM 算法優于傳統機器學習算法,在周樓風電場和蔡家寨風電場GRU 算法優于Bi-LSTM,在天河口風電場Bi-LSTM 優于GRU 算法。

圖3 集合預報算法RMSE 按年對比分析Fig.3 Yearly comparative analysis of ensemble forecasting algorithm RMSE

在天河口風電場集合預報算法RF、AdaBoost、LightGBM、GRU 和Bi-LSTM、均值法的均方根誤差分別為2.44 m/s、2.25 m/s、2.41 m/s、1.94 m/s、1.90 m/s,在5 種算法中,Bi-LSTM 算法最優,較均值法誤差降低0.73 m/s。Bi-LSTM 集合算法相較于集合成員EC 預報均方根誤差3.24 m/s 下降了1.34 m/s,CMA-WSP 預報均方根誤差3.03 m/s 下降了1.13 m/s。分析發現EC 預報與CMA-WSP 均方根誤差較大,但是從圖形檢驗來看CMA-WSP 預報方法的偏差相對較穩定,因此誤差下降較大。

在周樓風電場GRU 算法最優,均值法預報誤差最大,較均值法均方根誤差降低了0.33 m/s,Bi-LSTM 與GRU 算法誤差接近。其次是RF 算法較均值法下降0.1 m/s,AdaBoost 算法較均值法下降了0.06 m/s。最優的GRU 集合預報算法相較于集合成員EC 預報均方根誤差1.8 m/s 下降了0.06 m/s,相較于CMA-GD 預報均方根誤差2.42 m/s 下降了0.68 m/s。

在象河風電場AdaBoost 最優,較均值法均方根誤差降低了0.52 m/s,傳統均值法預報誤差最大。其次是,RF 較均值法誤差降低了0.46 m/s,LightGBM算法較均值法誤差降低了0.42 m/s。深度學習算法GRU 和Bi-LSTM 的誤差相同,均為1.52 m/s。集合預報算法AdaBoost 相較于集合成員CMA-WSP 均方根誤差3.14 m/s 下降了1.71 m/s,EC 預報均方根誤差1.67 m/s 下降了0.24 m/s。

在蔡家寨風電場GRU 算法誤差最小,較均值均方根誤差降低了0.36 m/s,Bi-LSTM 比GRU 誤差略大,其次AdaBoost 誤差較均值法降低了0.14 m/s,LightGBM 誤差較均值法降低了0.11 m/s,RF 較均值法均降低了0.06 m/s。最優集合預報算法GRU 相較于集合預報成員CMA-GD 的均方根誤差2.49 m/s下降了0.86 m/s,相較于EC 均方根誤差1.86 m/s 下降了0.23 m/s。

綜上可以看出,在集合預報算法中,一般情況下深度學習算法GRU 和Bi-LSTM 優于傳統機器學習算法,傳統機器學習算法又優于均值法,其中Bi-LSTM 在天河口風電場提升最為顯著,較集合成員EC 預報均方根誤差3.24 m/s 下降了1.34 m/s,較均值法均方根誤差全年下降了0.73 m/s。

3.4 實驗曲線檢驗

為了進一步驗證不同方法的實驗結果,本研究進一步抽取象河風電場2022 年8 月作為典型月份,通過曲線比較驗證不同集合預報方法的效果。繪制結果如圖4 所示,圖中圖例RF_WS 代表使用RF 方法預測的風速波動曲線,其他圖例依次類推,圖例OBS_WS 代表實際風速。

圖4 象河風電場2022 年8 月不同預報風速隨時間波動曲線Fig.4 Fluctuation curve of different forecast wind speed with time in Xianghe wind farm in August 2022

從圖中可以觀察均值法(綠色曲線)在大部分時間對比實際風速曲線都存在相對最大的誤差,AdaBoost 的預報走勢在大部分時間與實際風速差值不大。這與數值分析結論基本一致。

數值分析均值法集合預報誤差為2.06 m/s,RF集合預報誤差為1.37 m/s,LightGBM 為1.49 m/s,二者預報誤差較接近。GRU 為1.58 m/s,Bi-LSTM 為1.64 m/s,AdaBoost 為1.35 m/s,預報性能最優,較傳統均值法集合預報誤差降低0.71 m/s。這些數值與實驗曲線觀察到的差距基本一致。因此通過以上分析,針對象河風電場選取AdaBoost 算法可以獲得最佳的集合預報效果。

3.5 實驗結果討論

本文旨在提供對比不同機器學習算法在集合預報中性能的深入理解,為未來預測算法的選擇和優化提供有益的參考。通過對比實驗結果,確定了適用于湖北省不同地區的合適算法和預報模式的組合,為提高集合預報的準確性和效率提供了實際參考。通過數據分析及實驗研究,本文主要有以下兩個貢獻:

1)通過研究對比確定了適合湖北省內“三帶一區”中各個地域最適合的數值預報模式。

2)通過開展集合預報方法的對比研究,確定使用單一數值模式預報產品無法有效提高預報準確率。通過采用多種集合預報方法,使用先進的機器學習、人工智能方法進行集合預報,如使用AdaBoost、RF、BI-LSTM 等機器學習方法,并與傳統的均值法、加權法以及熵值法等傳統集合預報進行對比檢驗,根據對比檢驗結果優選一種準確率較高的方法。

4 結論

本文實驗項目研制完成的不同數值預報在湖北省內不同區域的適用范圍,以及研究了集合預報算法技術。具體結論如下:

1)在棗陽周樓和蔡家寨風電場GRU 集合預報效果最優,在天河口風電場Bi-LSTM 集合預報效果最優,GRU 集合預報算法接近Bi-LSTM,在象河風電場AdaBoost 集合預報效果最優。

2)GRU 和Bi-LSTM 集合預報算法相對于CMAWSP 單一預報月均方根誤差最大降低了2.41 m/s,相對于EC 單一預報GRU 集合預報算法月平均方根誤差最大降低了1.91 m/s,Bi-LSTM 集合預報算法月平均降低了1.85 m/s。年平均GRU 和Bi-LSTM 相對于CMA-WSP 誤差降低了1.45 m/s,相對于EC 誤差降低了0.42 m/s。

3)GRU 在4 個電站的預報性能比Bi-LSTM 和AdaBoost 兩種集合預報算法表現更為穩定,均值法集合預報誤差作為對比參照算法,在所有集合預報算法中誤差最大。

該項研究對于指導風電場功率預報有指導意義,因此具有廣闊的市場前景。如果能獲得準確的風速預報,通過風速到功率的計算公式可以計算出適用于風電場的功率預報結果。本文所使用的基于機器學習的集合預報方法通過調整訓練數據的方式在未來也可以直接輸出較為準確的風力發電功率預報。通過提高功率預報的準確率,一方面可以幫助風電場減輕電網對其考核壓力,提高發電并網比例,提升風電場的經濟收益;另一方面也有利于提高電網運行的穩定性,有著明顯的社會效益。此研究的結論在未來也可以通過類比推廣到湖北省外其他地域,對于全國風力發電多模式集合預報的準確率改進也具有指導意義。

猜你喜歡
方根風電場均值
方根拓展探究
基于PSS/E的風電場建模與動態分析
均方根嵌入式容積粒子PHD 多目標跟蹤方法
揭開心算方根之謎
均值不等式失效時的解決方法
含風電場電力系統的潮流計算
均值與方差在生活中的應用
關于均值有界變差函數的重要不等式
探求風電場的遠景
代力吉風電場的我們
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合