?

基于分層約束強化學習的綜合能源多微網系統優化調度

2024-03-14 07:20楊子民王新迎蒲天驕
電工技術學報 2024年5期
關鍵詞:微網約束調度

董 雷 楊子民 喬 驥 陳 盛 王新迎 蒲天驕

基于分層約束強化學習的綜合能源多微網系統優化調度

董 雷1楊子民1喬 驥2陳 盛2王新迎2蒲天驕2

(1.華北電力大學電氣與電子工程學院 北京 102206 2. 中國電力科學研究院有限公司 北京 100192)

構建多微網系統是消納可再生能源、提升電網穩定性的有效方式。通過各微網的協調調度,可有效提升微網的運行效益以及可再生能源的消納水平?,F有多微網優化問題場景多元,變量眾多,再加上源荷不確定性及多微網主體的數據隱私保護等問題,為模型的高效求解帶來了巨大挑戰。為此,該文提出了一種分層約束強化學習優化方法。首先,構建了多微網分層強化學習優化框架,上層由智能體給出各微網儲能優化策略和微網間功率交互策略;下層各微網以上層策略為約束,基于自身狀態信息采用數學規劃法對各微網內部的分布式電源出力進行自治優化。通過分層架構,減小通信壓力,保護微網內部數據隱私,充分發揮強化學習對源荷不確定性的自適應能力,大幅提升了模型求解速度,并有效兼顧了數學規劃法的求解精度。此外,將拉格朗日乘子法與傳統強化學習方法相結合,提出一種約束強化學習求解方法,有效地解決了傳統強化學習方法難以處理的約束越限問題。最后通過算例驗證了該方法的有效性和優勢。

多微網系統 分層約束強化學習 不確定性 數據隱私保護

0 引言

在“雙碳”目標背景下,新能源滲透率逐漸升高。多微網系統作為一種包含可再生能源、多能負荷、分布式儲能等的綜合集成單元,可以通過微網內多能互補和微網間協調優化,在增強配電網系統供電可靠性和促進可再生能源就地消納等方面發揮顯著作用[1-4]。然而多微網系統規模較大,同時由于可再生能源出力的波動性、不同能源形式之間的耦合性等,其調度優化問題面臨著重大挑戰,因此尋找能夠實現高效能量管理的優化策略對于提高系統性能十分必要。

針對多微網系統的優化調度問題,文獻[5]計及微網間的功率交互,建立了多微網系統經濟調度模型,并驗證了多微網協調運行相較于獨立運行可有效減少運行成本;文獻[6]則建立了光伏余電上網的微網決策模型,采用序列二次規劃算法進行求解,并通過算例驗證了模型及算法的有效性。此外,其他常用算法如遺傳算法[7-8]、粒子群算法[9-10]、差分進化算法[11]、目標級聯法[12]及交替方向乘子法[13-14]等也已應用于多微網優化問題中。然而以上方法均依賴系統的精細建模及源荷的精準預測,難以針對源荷隨機變化動態響應,當源荷隨機波動時,相應的模型、預測器和求解器均需要進行重設。

深度強化學習(Deep Reinforcement Learning, DRL)通過與環境的交互試錯尋找最優策略,不依賴源荷的精準預測,而且對于源荷的不確定性具有良好的自適應能力[15-16]。因此近期有學者開始關注基于數據驅動的DRL方法,并將其應用于微電網的優化問題中。文獻[17-18]采用了Q-learning算法有效求解微網系統調度優化問題,然而當特征量增多時,該方法將面臨維數災難的問題[19];文獻[19]則提出一種改進的競爭Q網絡算法,基于多參數動作探索機制以解決原算法穩定性低和維度災難等問題,但該算法需要對動作空間進行離散化處理,繼而影響求解精度。文獻[20-22]則將連續空間的強化學習算法應用于綜合能源微網優化問題中,詳細設計了智能體的動作空間、狀態空間和獎勵函數,并通過算例驗證了算法的有效性。文獻[23]建立了基于博弈論的多微網系統協同優化模型,并將博弈論與強化學習算法相結合,通過Nash-Q算法求得博弈均衡解,實現各微網的電能互補和在線優化。文獻[24]為了縮減強化學習的動作空間,對微網優化調度進行分層處理,通過上層強化學習智能體求解儲能策略,下層求解器求解其余分布式電源出力的方法簡化動作空間,從而提升收斂速度,但只針對單微網優化問題,且采用離散空間無法實現連續控制。此外,上述基于強化學習的微網系統優化中,將強化學習問題描述為馬爾科夫決策過程(Markov Decision Process, MDP),優化問題中的約束條件,均通過向獎勵函數中添加懲罰項實現。這種方法屬于“軟約束”施加方式,模糊了目標和約束之間的界限,收斂速度較慢,且需要人工反復調試懲罰系數以保證訓練效果。若懲罰系數過大,則會導致策略過于保守,難以學習到最優策略;反之,則導致約束難以得到嚴格滿足,影響系統安全運行。

針對以上問題,本文提出一種面向多微網的分層約束強化學習優化方法。首先,提出一種多微網系統分層強化學習優化框架,將多微網優化問題分為上下兩層求解,上層無需獲取各微網的所有運行狀態信息,由智能體基于凈負荷預測信息和儲能狀態信息,給出各微網內儲能優化策略和微網間功率交互策略;下層各微網以上層策略為約束,基于自身狀態信息通過數學規劃法對微網內部設備出力進行自治優化。該框架利用上下層之間的協同實現多微網系統的整體優化,充分發揮了強化學習基于數據驅動原理可自適應源荷隨機性的優勢,并有效兼顧了數學規劃法的求解精度。并基于該分層框架提出一種約束強化學習求解方法,該方法融合了深度強化學習方法和拉格朗日乘子法,將約束優化問題轉換為無約束優化問題,驅使智能體在嚴格滿足約束的前提下尋找最優策略。相比于傳統集中式優化方法,本文方法不僅可根據源荷波動動態響應,滿足在線優化的要求,同時也無需聚合所有微網狀態信息,保護了微網數據隱私;相比于傳統強化學習方法,有效地解決了難以處理的約束越限問題,且收斂速度和精度均顯著提升。最后,通過算例分析驗證了本文方法的有效性以及其較傳統集中式優化和DRL方法的優勢。

1 多微網系統模型

本研究面向多微網系統,以含多種能源形式耦合的冷熱電聯供型微網為例,其內部能源形式包括冷、熱、電和氣。圖1展示了微網內的能量流向及多微網系統的結構。

圖1 多微網系統結構示意圖

微網(Microgrid)用MG表示,為不失一般性,圖1中給出了較普遍的冷熱電聯供型微網能量流動關系,實際不同微網的組成并非完全相同。微網內電負荷除了由微型燃氣輪機(Micro-Turbine, MT)消耗天然氣供給,還可由分布式可再生能源、配電網、鄰近微網和蓄電池(Battery, BT)供給,其中與配電網、鄰近微網和蓄電池之間的能量為雙向交互;熱負荷部分由燃氣鍋爐(Gas Boiler, GB)、燃氣和儲熱槽(Heat Storage, HS)供給,同時溴化鋰機組吸收MT發電產生的高溫余熱煙氣制熱供給;冷負荷部分由溴化鋰機組吸收高溫余熱煙氣制冷供給,部分由電制冷機(Electric Cooler, EC)消耗電能制冷供給。在同一區域內,鄰近的微網可以互聯形成多微網系統,微網之間通過聯絡線進行能量交互。微網內設備模型見附錄。

2 多微網系統分層強化學習模型

2.1 分層強化學習優化框架

為簡化強化學習動作空間及獎勵函數的復雜設計,保證算法的可靠收斂,本文提出一種多微網系統分層強化學習優化框架,將多微網優化問題分解為上下兩層求解,上層智能體模型充分考慮時間相關性及整個決策周期的綜合累計回報,僅需基于各微網的預測凈負荷和儲能(含儲電和儲熱)狀態信息,制定微網間的交互策略及儲能優化策略并下發至下層;下層各微網則以上層策略為約束采用數學規劃法求解內部設備的最優出力,同時向上層反饋獎勵信號值指導上層策略更新,避免了上層智能體的無效探索。利用上下層的協同實現多微網系統的全局優化,不僅充分發揮了強化學習可自適應源荷隨機性的優勢,同時也有效兼顧了數學規劃法的求解精度。多微網系統分層強化學習框架示意圖如圖2所示。

圖2 多微網系統分層強化學習框架示意圖

通過分層優化架構,大大簡化了智能體動作空間維度和獎勵函數的復雜設計。而且上層策略給定后,多微網優化任務被分解為多個子微網自治優化問題,各微網可基于上層策略快速得出各時間斷面的設備最優出力,因此大大縮小了下層優化問題的規模,從而實現下層模型的快速求解。此外,在通信方面,上層僅需獲取各微網的凈負荷預測信息、儲能狀態信息及各微網反饋的獎勵信號,無需額外的微網內部狀態信息。而下層各微網之間不進行信息交互,僅基于自身狀態信息進行優化,有效地減小了通信壓力并保護了各微網內部數據隱私,在穩態和故障等不同情況下,也能實現與其他微網的交互與應急處置。訓練完成的模型通過讀取當前狀態空間即可給出優化策略。

2.2 上層智能體模型

2.2.1 智能體狀態空間

智能體的狀態空間用于表征環境的狀態信息,狀態空間包含了智能體決策所需的信息,智能體基于當前狀態做出相應動作并與環境進行交互。本文模型的狀態空間如式(1)所示,包括各微網的儲能荷電狀態、儲熱狀態、分時電價信息以及冷、熱、電凈負荷功率,其中凈負荷信息由各微網上傳,通過負荷預測值減去新能源出力預測值得到。通過分層設計,智能體僅需要獲取基本的狀態信息用于輔助決策,無需獲得微網內設備的詳細運行狀態信息。

2.2.2 智能體動作空間

智能體的動作空間為上層模型中的相關控制變量,包括各微網間的交互功率、各微網的儲電充放功率和儲熱吸收、釋放的熱功率,即

2.2.3 智能體獎勵函數

獎勵函數是智能體基于當前環境狀態選擇對應動作并作用于環境后反饋的獎勵信號。獎勵函數用于指導智能體策略的趨優更新,通過持續的學習使得策略的累計獎勵最大化。本文的優化目標選取為最小化運行成本和環境污染物排放(通過折算成本計算),因此獎勵函數即為多微網系統的綜合優化目標,由于強化學習目標是累計獎勵最大化,故添加負號。

2.2.4 智能體動作約束

智能體動作約束包括荷電量狀態約束式(4)、充放電功率約束式(5)、調度周期始末能量平衡約束式(6)、充放電轉換約束式(7)及各微網的功率交互約束式(8)。儲熱作為儲能設備同樣需要滿足容量、功率、工作狀態約束。與蓄電池類似,此處不再贅述。

為保證輸出動作的上、下限約束,本文將輸出動作經過tanh函數限制在[-1,1]之間,再通過線性變換即可滿足式(4)、式(8)的上、下限約束。對于式(5)~式(7),傳統的強化學習方法通過向獎勵函數中添加懲罰項的形式處理約束,但這種將獎勵和約束統一建模為獎勵函數的方式模糊了目標和約束的界限,需要人為設置懲罰系數。若懲罰系數過大,則會導致智能體難以學習到最優策略;若系數太小,則易使得策略難以滿足安全約束。因此,為避免上述問題,本文將拉格朗日乘子法與傳統強化學習方法相結合,將約束優化問題轉換為無約束問題進行求解,在滿足安全約束的前提下尋找最優策略,從而避免將約束以懲罰項的形式加入獎勵中,該部分內容將在第3節進行詳細介紹。

2.3 下層微網自治優化模型

2.3.1 目標函數

2.3.2 能量平衡約束

多微網系統內的冷、熱、電負荷與出力應滿足實時平衡約束,即

2.3.3 運行約束

除了微網內的能量平衡約束,為保證多微網系統的安全運行,還需滿足設備運行約束及功率交互約束,由于各微網距離較近,因此不考慮線路損耗。

1)微型燃氣輪機運行約束

2)燃氣鍋爐運行約束

3)電制冷機運行約束

4)功率交互約束

2.4 上下層優化模型的交互機制

在本文模型的信息交互中,上層智能體僅獲取各微網的凈負荷預測信息、儲能狀態信息及各微網反饋的獎勵信號,并向下層傳遞儲能策略和微網交互策略。而下層各微網之間不進行信息交互,僅通過上層給定策略進行功率交互,并基于自身狀態信息進行優化。因此有效地減少了多微網設備眾多造成的通信壓力,并保護了各微網內部數據隱私。

3 多微網系統約束強化學習算法

3.1 CMDP

采用強化學習方法解決多微網系統優化問題的一個難點就是如何處理運行約束。在傳統的強化學習方法中,通常采用罰函數法將約束建模為馬爾科夫決策過程(Constraint Markov Decision Process, CMDP)中的負獎勵,然而如何設計合適的罰函數是該方法的難點。此外,這種方法模糊了目標與約束之間的界限,難以確定合適的懲罰系數平衡目標和約束之間的關系。若懲罰系數過小,智能體給出的動作難以滿足運行約束;若系數過大,則可能導致智能體對約束的過度懲罰,難以學習到較好的調度策略,而且即使設置較大的懲罰系數,也無法保證策略嚴格滿足約束。

通過CMDP框架,充分考慮了強化學習過程中的約束問題,避免了獎勵函數的復雜設計及懲罰系數的反復調整,最大程度減少了人為干預,有效地解決了傳統MDP難以平衡目標和安全約束的問題。為了求解CMDP,可采用拉格朗日松弛技術,將帶約束的優化問題轉換為無約束優化問題。具體來說引入以下拉格朗日函數。

3.2 Lagrangian Soft Actor Critic算法

3.2.1 算法目標

SAC算法的最終目標為使累計獎勵最大的同時,保證策略的熵最大化,以增強算法的尋優能力和魯棒性,即

在LSAC算法中,為保證系統安全,需要在滿足約束的前提下尋找策略以最大化算法目標,因此采用拉格朗日乘子法將約束優化問題轉換為無約束優化問題(如3.1節所述),算法目標變為

其中

在本文中,相關動作約束即為式(5)~式(7)和儲熱約束,因此,將輔助成本函數定義為

3.2.2 智能體迭代策略

SAC算法中的柔性策略迭代分為柔性策略評估和柔性策略改進兩部分,可參考文獻[29],此處不再贅述。

3.2.3 智能體網絡構建

其中動作采用了再參數化以減少梯度估計的方差,有

此外,由于SAC算法可處理離散動作空間問題[31],通過將連續動作空間離散化或在神經網絡輸出層中將連續動作和離散動作分別輸出,本文方法也可解決混合動作空間策略生成問題[32],只需對網絡更新過程進行相應修改即可。而由于本文研究的多微網優化問題涉及的均為連續動作空間,因此在算法設計上均是基于連續空間。

圖3 LSAC算法網絡結構

3.3 多微網分層約束強化學習模型整體流程

分層約束強化學習模型將多微網系統的優化任務進行分解,實現多微網優化任務的簡化求解,利用上下層的協同完成模型的訓練,并通過LSAC算法解決傳統強化學習方法難以處理約束的問題。其具體步驟如下:

9)若還未到達末時間斷面,則進入下個時間斷面,令1,轉至步驟3)。

10)若算法收斂或已到最大訓練回合數,則輸出模型;否則,轉至步驟2),進入下一訓練回合。

多微網系統分層約束強化學習流程如圖4所示。

圖4 多微網系統分層約束強化學習流程

4 算例驗證與分析

4.1 算例設置

4.2 模型收斂性分析

針對上述多微網系統優化問題采用分層約束強化學習算法(Bi-LSAC)進行模型訓練,將訓練過程中的累積獎勵函數繪制曲線如圖5所示。從圖5中可看出,訓練過程初期,由于智能體探索的隨機性較強,易產生較不合理的調度結果,獎勵值較小。隨著訓練的進行,智能體與環境的交互經驗逐漸增加,其給出的動作所產生的獎勵值也逐漸升高,并于1 700輪左右收斂,獎勵值不再上升,由于訓練過程中源荷的隨機波動存在小幅振蕩。從圖5中獎勵函數曲線的變化趨勢可以看出模型收斂性較好,且收斂較快。

圖5 獎勵函數曲線

訓練過程中智能體決策動作的約束越限曲線如圖6所示??梢钥闯?,除訓練初期由于智能體隨機探索造成的約束越限以外,動作的約束越限值始終為0,表明本文方法可良好應對強化學習的動作約束問題,保證智能體在滿足約束的前提下尋找最優策略。

圖6 約束越限曲線

4.3 調度優化結果分析

為進一步驗證本文所提方法的有效性,本文采用Bi-LSAC算法針對多微網協同運行場景、多微網獨立運行場景及聯絡線故障斷開場景進行求解,并對相應的優化結果進行分析比較。

4.3.1 多微網協同運行模式

在多微網協同運行模式下,微網1內的冷、熱、電能流動情況如圖7所示。從圖7a中可以看出,微網1內的冷負荷主要由電制冷機及微型燃氣輪機余熱煙氣制冷供給,在0:00—7:00和23:00—24:00兩個電價低谷時段,通過電制冷機將富余的可再生能源及從配電網購買的電能轉換供給冷負荷。而在7:00—23:00時段電價升高,微型燃氣輪機啟動,部分冷負荷由微型燃氣輪機燃氣余熱制冷供給。從圖7b可以看出,微網1內的熱負荷由燃氣鍋爐和微型燃氣輪機交替供給,在0:00—7:00和23:00—24:00時段,熱負荷均由燃氣鍋爐供給,微型燃氣輪機處于停機狀態,這是由于此時電價較低,相比采用微型燃氣輪機進行冷熱電聯供,通過可再生能源及從配電網購電供電制冷,采用燃氣鍋爐制熱收益更高;而在7:00—23:00時段,隨著電價升高,通過微型燃氣輪機消耗天然氣對系統內的冷熱電負荷聯供以減少系統購電,從而降低系統運行成本。同時當微型燃氣輪機供熱大于微網內熱負荷時,熱儲能將剩余熱量進行儲存,在系統供熱不足時補充供給熱負荷。

圖7c、圖7d給出了微網1和微網2內的電能流動情況??梢钥闯?,電能的供需兩端實現了實時平衡。不論是微網1還是微網2,其儲能跟隨電價引導進行充放電,在谷電價時段充電作為備用,在峰電價時段放電以減少系統運行成本。在谷電價時段,兩微網主要通過可再生能源及向配電網購電供給電負荷;而在7:00—23:00時,電價升高,燃氣輪機開始工作,用于供給電負荷以減少用電成本。此外,微網1內的可再生能源在大多數時段均大于系統內負荷需求,是典型的多電型微網;而微網2與之相反,是典型的缺電型微網。因此微網1消納富余可再生能源的方式除了供儲能充電、通過電制冷機轉冷及向配電網售電以外,還可通過聯絡線向微網2輸送電能用于供給微網2內缺額電量;而微網2為減少系統運行成本,當自身用電需求無法滿足時,優先從相鄰微網購電,再考慮向配電網購電。

本文方法得到的運行成本與基于完美預測信息的集中式優化結果比較見表1?;谕昝李A測信息的集中式優化結果,是指源荷預測出力與實際值無偏差的理想條件下,收集各微網全局狀態信息進行集中優化求解得到的結果(即基于實際值得到的集中式優化最優解)。為保證條件一致進行驗證,本文方法也基于預測值直接進行測試,差距在0.03%左右,驗證了本文所提方法的有效性。

表1 最優解與Bi-LSAC結果比較

Tab.1 Results comparison between the optimal solution and Bi-LSAC

4.3.2 協同運行與獨立運行模式對比分析

為驗證多微網協同優化相比獨立運行的優勢。設置各微網通過聯絡線交互協同優化和各微網間聯絡線斷開獨立運行兩種場景進行對比。圖8給出了在兩種場景下多微網系統與配電網的交互電量水平。從圖8中可以直觀看出,多微網協同運行場景下,通過各微網互為備用,有效減少與配電網的交互功率水平,從而降低高可再生能源滲透率對配電網的影響。且通過微網間交互,可有效減少多微網系統的購電成本及污染物排放,相關結果見表2。無交互場景下的運行成本為921.963 8元,相比協同運行增加了9.72%,而污染排放量則相比增加了46.24%。

圖8 協同運行和獨立運行模式的配電網交互水平

表2 協同運行和獨立運行模式結果比較

4.3.3 聯絡線故障場景分析

為驗證模型的拓展性,考慮微網1與微網2之間聯絡線因故障斷開的場景。在該場景下,兩微網交互功率值即為0,下層模型同樣可通過自治優化完成微網內的優化調度,圖9給出了在該場景下微網1的電能流動情況,在該種情況下由于聯絡線斷開,無法通過向相鄰微網供電消納微網1內的富余電量,因此富余電量轉由向配電網售出,所提模型在該場景下同樣可完成系統的調度優化。此外,針對孤網運行場景,與上述聯絡線故障場景類似,只需將下層模型參數進行調整,將配電網的交互功率設置為0,即可完成多微網系統孤網運行的調度優化。

圖9 聯絡線故障情況下微網1電能流動情況

4.4 與傳統強化學習對比分析

4.4.1 優化效果對比分析

本文利用所提基于分層約束強化學習模型的多微網系統優化方法對優化變量進行了分層處理,在下層采用數學規劃法求解部分不具有時間關聯性的動作變量,降低了強化學習獎勵函數設計及動作空間的復雜性。為驗證該方法(Bi-LSAC)相比單層強化學習方法在收斂速度和精度方面的優越性,采用SAC方法解決上述多微網系統優化調度問題,并與本文方法進行對比,兩種方法訓練過程中的運行成本曲線如圖10所示。從圖10中可以看出,采用DDPG(deep deterministic policy gradient)和SAC方法收斂速度較慢且波動性相對較大,分別在大約7 500和7 000輪左右時運行成本曲線收斂,而本文方法收斂迅速,大約在1 700輪左右即可收斂;而且DDPG和SAC方法最終收斂到的運行成本也明顯高于本文方法。三種方法的結果對比見表3,Bi-LSAC方法相比于DDPG和SAC方法給出的調度成本分別降低了18.12%和12.42%,驗證了本文方法在收斂速度及優化能力方面的優越性。

圖10 傳統強化學習方法和Bi-LSAC的運行成本曲線

表3 SAC與Bi-LSAC方法比較

4.4.2 策略約束越限對比分析

除了采用分層優化框架,本文提出的Bi-LSAC方法通過將傳統強化學習算法與拉格朗日乘子法相結合,將約束問題轉換為無約束問題,避免了將約束以懲罰項的形式加入獎勵,使智能體在滿足約束的前提下尋找最優策略。圖11給出了本文方法與傳統方法在訓練過程中的約束越限情況。從圖11中可以看出,傳統方法將約束以懲罰項的形式加入獎勵中,使得目標與越限懲罰的界限模糊,收斂較為困難,盡管越限程度隨著訓練進行有所減少,但始終無法保證約束完全得到滿足;而本文方法除在智能體隨機探索初期有一定約束越限行為,后續訓練過程中智能體動作越限值始終為0,驗證了本文方法可有效處理強化學習約束問題。

圖11 傳統強化學習方法和Bi-LSAC的約束越限情況

4.5 與傳統集中式優化對比分析

4.5.1 計算結果和效率對比分析

本文方法通過靈活調整訓練過程中與環境交互的步長,可應用于不同時間尺度的優化調度問題。為驗證本文所提方法的優越性,調度周期選取24 h,相鄰時間斷面間隔為5 min,采用集中式優化方法解決上述多微網優化問題,將多微網優化問題轉換為混合整數線性規劃問題,利用CPLEX求解器進行求解并與本文方法進行比較。本文方法基于數據驅動,可根據實際數據在s級內給出調度結果,滿足在線優化要求。兩種方法的對比見表4??梢钥闯?,本文方法在基于不完全信息的情況下,即可得到與基于全局信息的集中式優化趨于一致的結果,差距僅為0.023%,且決策時間為ms級別,相比于集中式min級的決策時間,可有效滿足在線優化的要求。同時,圖12給出了隨著微網數量增加兩種方法在決策時間上的變化情況。從圖12中可以看出,隨著微網數量增加,本文方法仍可在s級內給出調度結果,而集中式優化隨著微網數量增加計算復雜度呈指數增長,計算效率大幅下降。

表4 集中式優化與Bi-LSAC方法比較

Tab.4 Comparison of centralized optimization and Bi-LSAC

圖12 集中式優化和Bi-LSAC方法決策時間對比

4.5.2 數據傳輸對比分析

在數據傳輸和信息交互方面,本文所提方法只需由各微網向上層智能體傳遞少量關鍵狀態信息(即凈負荷及儲能狀態)進行決策,無需上傳微網內的其余狀態信息;各微網之間則不進行任何信息交互,其交互功率由上層智能體自適應決策給出,因而可有效降低通信壓力,并保護各微網內部的數據隱私。圖13給出了集中式優化與本文方法數據傳輸量的對比。集中式優化需聚合多微網系統全局信息用于決策,而本文方法相比于集中式優化通信量減少約93.46%,基于局部信息即可完成多微網系統的全局優化,大大降低了通信壓力,同時有效保護了數據隱私。

圖13 集中式優化和Bi-LSAC方法信息傳輸量對比

4.6 應對源荷隨機性分析

強化學習模型可以自適應源荷的隨機性波動,在源荷波動時,無需重新對模型進行訓練,根據訓練好的模型即可實時給出調度結果。為驗證本文所提方法應對源荷不確定性的能力,選取不同場景對模型進行隨機性測試。固定隨機變量中冷熱電負荷的波動性水平不變,其標準差為期望值的5%,而風、電和光伏出力的標準差分別為期望值的10%、15%、20%,基于可再生能源和負荷的基準功率,從每一種波動性水平的概率分布中抽樣生成150個場景集,隨機選取20個場景進行測試。圖14給出了微網1風電波動性水平為20%時所生成的150個場景。

圖15給出了新能源出力波動性為10%時,測試結果與傳統優化求解結果的比較情況,三種波動性水平下的平均測試結果見表5。從測試結果中可以看出,面對不同波動性水平的場景,傳統優化受求解速度限制,難以滿足在線優化的實時性要求,對于源荷的隨機波動,需通過實時市場向配電網購售電滿足實時平衡。而本文所提方法能在線給出優化調度策略,在波動性水平分別為10%、15%、20%時,傳統優化求解得到的平均成本與本文方法求解結果的差距分別在7.82%、10.33%、13.53%左右,驗證了本文方法在應對源荷隨機性方面的優越性。

圖14 波動性水平為20%時的風電場景

圖15 Bi-LSAC和傳統優化在不同隨機場景的成本比較

表5 不同源荷波動性水平下測試結果比較

Tab.5 Comparison of test results under different volatility levels of power and loads

5 結論

本文以多微網系統為研究對象,設計了一種分層優化框架,基于該框架,將數據驅動方法與數學規劃法結合,構建了一種分層強化學習求解方法;并將拉格朗日乘子法與傳統強化學習方法SAC算法結合設計了LSAC算法,以解決傳統強化學習難以處理約束的問題,最終通過算例得到以下結論:

1)通過分層設計實現多微網優化任務的簡化求解,各微網之間不進行信息交互,僅需上傳凈負荷及儲能關鍵狀態信息,并基于自身狀態信息獨立并行求解,然后利用上下層的協同實現多微網系統的整體優化。通過算例驗證了本文所提方法在基于局部狀態信息的情況下,可即時給出與最優解趨于一致的調度結果。

2)本文所提方法將數據驅動與傳統方法相結合,簡化了強化學習動作空間及獎勵設計的復雜性。在充分發揮強化學習快速求解能力的同時,有效地兼顧了數學規劃法的求解精度,可針對多微網優化問題實現高效求解。算例結果表明,相比于傳統強化學習方法在收斂速度和精度上均有較大提升。

3)本文構建了基于拉格朗日乘子法的約束強化學習算法,通過將約束問題轉換為無約束問題,避免了將約束以懲罰項的形式加入獎勵函數中,解決了傳統強化學習難以處理約束的問題。算例表明,所提方法可保證智能體在滿足約束的前提下尋找最優策略,避免了傳統強化學習方法由于人工設置懲罰系數造成的難以滿足約束及收斂困難等問題。

4)模型具有良好的魯棒性,可有效應對源荷隨機性,并自適應快速決策各微網的功率交互,不依賴于源荷的精確建模,相較于傳統優化方法避免了反復的迭代過程,根據源荷狀態即可實時給出調度結果。

1. 微型燃氣輪機

MT是實現冷熱電氣多種能源形式耦合的核心設備,其耗氣量及排出的余熱煙氣熱量均與發電功率成正比,模型為

2. 溴化鋰機組(Lithium Bromide unit, LB)

MT排出的部分高溫余熱煙氣經溴化鋰機組收集后可用于制冷和供熱。

3. 燃氣鍋爐

燃氣鍋爐通過燃燒天然氣向系統供熱,其模型為

4. 電制冷機

電制冷機通過消耗電能進行制冷,其制冷功率與輸入電功率有關,即

5. 蓄電池模型

蓄電池可通過充放電消納微網內出力或供給微網內電負荷,其模型為

6. 儲熱槽模型

7. 分布式可再生能源

本文研究的微網內分布式電源包括風力發電和光伏發電,風力發電和光伏發電的出力可表述為預測出力疊加預測誤差,其中風、光出力的預測誤差符合正態分布。

附表1 分時電價

App.Tab.1 Time-of-use electricity price

時段購電/[元/(kW·h)]售電/[元/(kW·h)] 谷23:00—7:000.250.17 平7:00—10:0015:00—18:0021:00—23:000.650.45 峰10:00—15:0018:00—21:001.10.77

附表2 微網設備參數

App.Tab.2 Parameters of microgrid equipment

參數數值 微型燃氣輪機最大發電功率/kW120 微型燃氣輪機發電效率0.35 微型燃氣輪機熱損失系數0.05 溴化鋰機組煙氣回收率0.75 溴化鋰機組制冷系數1.45

(續)

參數數值 溴化鋰機組制熱系數1.17 燃氣鍋爐最大輸出功率/kW50 燃氣鍋爐制熱效率0.9 電制冷機最大輸入功率/kW100 電制冷機制冷能效比4.24 蓄電池容量/(kW·h)100 蓄電池荷電狀態0.1~0.9 蓄電池自放電系數0 蓄電池充放電效率0.9 蓄電池最大充放電功率/kW20 儲熱槽最大儲熱量/(kW·h)50 儲熱槽自散熱系數0.005 儲熱槽充放熱效率0.9 儲熱槽最大充放熱功率/kW5 與配電網最大交互功率/kW300 與微網最大交互功率/kW100

附表3 神經網絡超參數

App.Tab.3 Neural network hyperparameters

超參數數值 折扣因子學習率軟更新系數經驗回放單元容量采樣樣本數0.993×10-40.00520 00064

[1] 蔡瑤, 盧志剛, 孫可, 等. 計及源荷不確定性的獨立型交直流混合微網多能源協調優化調度[J]. 電工技術學報, 2021, 36(19): 4107-4120. Cai Yao, Lu Zhigang, Sun Ke, et al. Multi-energy coordinated optimal scheduling of isolated AC/DC hybrid microgrids considering generation and load uncertainties[J]. Transactions of China Electrotechnical Society, 2021, 36(19): 4107-4120.

[2] 靳小龍, 穆云飛, 賈宏杰, 等. 融合需求側虛擬儲能系統的冷熱電聯供樓宇微網優化調度方法[J]. 中國電機工程學報, 2017, 37(2): 581-591. Jin Xiaolong, Mu Yunfei, Jia Hongjie, et al. Optimal scheduling method for a combined cooling, heating and power building microgrid considering virtual storage system at demand side[J]. Proceedings of the CSEE, 2017, 37(2): 581-591.

[3] 張釋中, 裴瑋, 楊艷紅, 等. 基于柔性直流互聯的多微網集成聚合運行優化及分析[J]. 電工技術學報, 2019, 34(5): 1025-1037. Zhang Shizhong, Pei Wei, Yang Yanhong, et al. Optimization and analysis of multi-microgrids integration and aggregation operation based on flexible DC interconnection[J]. Transactions of China Electrotechnical Society, 2019, 34(5): 1025-1037.

[4] 劉志堅, 劉瑞光, 梁寧, 等. 含電轉氣的微型能源網日前經濟優化調度策略[J]. 電工技術學報, 2020, 35(增刊2): 535-543. Liu Zhijian, Liu Ruiguang, Liang Ning, et al. Day-ahead optimal economic dispatching strategy for micro energy-grid with P2G[J]. Transactions of China Electrotechnical Society, 2020, 35(S2): 535-543.

[5] 王守相, 吳志佳, 莊劍. 考慮微網間功率交互和微源出力協調的冷熱電聯供型區域多微網優化調度模型[J]. 中國電機工程學報, 2017, 37(24): 7185-7194, 7432. Wang Shouxiang, Wu Zhijia, Zhuang Jian. Optimal dispatching model of CCHP type regional multi-microgrids considering interactive power exchange among microgrids and output coordination among micro-sources[J]. Proceedings of the CSEE, 2017, 37(24): 7185-7194, 7432.

[6] 肖浩, 裴瑋, 孔力, 等. 考慮光伏余電上網的微網出力決策分析及經濟效益評估[J]. 電力系統自動化, 2014, 38(10): 10-16. Xiao Hao, Pei Wei, Kong Li, et al. Decision analysis and economic benefit evaluation of microgrid power output considering surplus photovoltaic power selling to grid[J]. Automation of Electric Power Systems, 2014, 38(10): 10-16.

[7] Dehghanpour K, Nehrir H. Real-time multiobjective microgrid power management using distributed optimization in an agent-based bargaining framework[J]. IEEE Transactions on Smart Grid, 2018, 9(6): 6318-6327.

[8] 趙波, 汪湘晉, 張雪松, 等. 考慮需求側響應及不確定性的微電網雙層優化配置方法[J]. 電工技術學報, 2018, 33(14): 3284-3295. Zhao Bo, Wang Xiangjin, Zhang Xuesong, et al. Two-layer method of microgrid optimal sizing considering demand-side response and uncertainties[J]. Transactions of China Electrotechnical Society, 2018, 33(14): 3284-3295.

[9] 許志榮, 楊蘋, 張育嘉, 等. 考慮不平衡度約束的單三相混聯多微網日前經濟優化[J]. 電網技術, 2017, 41(1): 40-47. Xu Zhirong, Yang Ping, Zhang Yujia, et al. Day-ahead economic optimized dispatch of single and three phase hybrid multi-microgrid considering unbalance constraint[J]. Power System Technology, 2017, 41(1): 40-47.

[10] 李長云,徐敏靈,蔡淑媛.計及電動汽車違約不確定性的微電網兩段式優化調度策略[J].電工技術學報, 2023, 38(7): 1838-1851. Li Changyun,Xu Minling,Cai Shuyuan.Two-stage optimal scheduling strategy for micro-grid considering EV default uncertainty[J].Transactions of China Electrotechnical Society, 2023, 38(7): 1838-1851.

[11] 滕云, 孫鵬, 羅桓桓, 等. 計及電熱混合儲能的多源微網自治優化運行模型[J]. 中國電機工程學報, 2019, 39(18): 5316-5324, 5578. Teng Yun, Sun Peng, Luo Huanhuan, et al. Autonomous optimization operation model for multi-source microgrid considering electrothermal hybrid energy storage[J]. Proceedings of the CSEE, 2019, 39(18): 5316-5324, 5578.

[12] 武夢景, 萬燦, 宋永華, 等. 含多能微網群的區域電熱綜合能源系統分層自治優化調度[J]. 電力系統自動化, 2021, 45(12): 20-29. Wu Mengjing, Wan Can, Song Yonghua, et al. Hierarchical autonomous optimal dispatching of district integrated heating and power system with multi-energy microgrids[J]. Automation of Electric Power Systems, 2021, 45(12): 20-29.

[13] 馬騰飛, 裴瑋, 肖浩, 等. 基于納什談判理論的風-光-氫多主體能源系統合作運行方法[J]. 中國電機工程學報, 2021, 41(1): 25-39, 395. Ma Tengfei, Pei Wei, Xiao Hao, et al. Cooperative operation method for wind-solar-hydrogen multi-agent energy system based on Nash bargaining theory[J]. Proceedings of the CSEE, 2021, 41(1): 25-39, 395.

[14] 歐陽聰, 劉明波, 林舜江, 等. 采用同步型交替方向乘子法的微電網分散式動態經濟調度算法[J]. 電工技術學報, 2017, 32(5): 134-142. Ouyang Cong, Liu Mingbo, Lin Shunjiang, et al. Decentralized dynamic economic dispatch algorithm of microgrids using synchronous alternating direction method of multipliers[J]. Transactions of China Electrotechnical Society, 2017, 32(5): 134-142.

[15] 顧雪平, 劉彤, 李少巖, 等. 基于改進雙延遲深度確定性策略梯度算法的電網有功安全校正控制[J]. 電工技術學報, 2023, 38(8): 2162-2177. Gu Xueping, Liu Tong, Li Shaoyan, et al. Active power correction control of power grid based on improved twin delayed deep deterministic policy gradient algorithm[J]. Transactions of China Electrotechnical Society, 2023, 38(8): 2162-2177.

[16] Mocanu E, Mocanu D C, Nguyen P H, et al. On-line building energy optimization using deep reinforcement learning[J]. IEEE Transactions on Smart Grid, 2019, 10(4): 3698-3708.

[17] Kofinas P, Dounis A I, Vouros G A. Fuzzy Q-learning for multi-agent decentralized energy management in microgrids[J]. Applied Energy, 2018, 219: 53-67.

[18] Xu Xu, Jia Youwei, Xu Yan, et al. A multi-agent reinforcement learning-based data-driven method for home energy management[J]. IEEE Transactions on Smart Grid, 2020, 11(4): 3201-3211.

[19] 黎海濤, 申保晨, 楊艷紅, 等. 基于改進競爭深度Q網絡算法的微電網能量管理與優化策略[J]. 電力系統自動化, 2022, 46(7): 42-49. Li Haitao, Shen Baochen, Yang Yanhong, et al. Energy management and optimization strategy for microgrid based on improved dueling deep Q network algorithm[J]. Automation of Electric Power Systems, 2022, 46(7): 42-49.

[20] 喬驥, 王新迎, 張擎, 等. 基于柔性行動器-評判器深度強化學習的電-氣綜合能源系統優化調度[J]. 中國電機工程學報, 2021, 41(3): 819-833. Qiao Ji, Wang Xinying, Zhang Qing, et al. Optimal dispatch of integrated electricity-gas system with soft actor-critic deep reinforcement learning[J]. Proceedings of the CSEE, 2021, 41(3): 819-833.

[21] 董雷, 劉雨, 喬驥, 等. 基于多智能體深度強化學習的電熱聯合系統優化運行[J]. 電網技術, 2021, 45(12): 4729-4738. Dong Lei, Liu Yu, Qiao Ji, et al. Optimal dispatch of combined heat and power system based on multi-agent deep reinforcement learning[J]. Power System Technology, 2021, 45(12): 4729-4738.

[22] 張津源, 蒲天驕, 李燁, 等. 基于多智能體深度強化學習的分布式電源優化調度策略[J]. 電網技術, 2022, 46(9): 3496-3504. Zhang Jinyuan, Pu Tianjiao, Li Ye, et al. Multi-agent deep reinforcement learning based optimal dispatch of distributed generators[J]. Power System Technology, 2022, 46(9): 3496-3504.

[23] 劉俊峰, 王曉生, 盧俊菠, 等. 基于多主體博弈和強化學習的多微網系統協同優化研究[J]. 電網技術, 2022, 46(7): 2722-2732. Liu Junfeng, Wang Xiaosheng, Lu Junbo, et al. Collaborative optimization of multi-microgrid system based on multi-agent game and reinforcement learning[J]. Power System Technology, 2022, 46(7): 2722-2732.

[24] 聶歡歡, 張家琦, 陳穎, 等. 基于雙層強化學習方法的多能園區實時經濟調度[J]. 電網技術, 2021, 45(4): 1330-1336. Nie Huanhuan, Zhang Jiaqi, Chen Ying, et al. Real-time economic dispatch of community integrated energy system based on a double-layer reinforcement learning method[J]. Power System Technology, 2021, 45(4): 1330-1336.

[25] Sutton R S, Barto A G. Reinforcement learning: an introduction[M]. Cambridge, Mass.: MIT Press, 1998

[26] 沈儒茹. 多微網系統的優化調度策略研究[D]. 哈爾濱: 哈爾濱工業大學, 2020.

[27] Altman E. Constrained Markov Decision Processes[M]. Boca Raton: CRC Press, 2021.

[28] Bertsekas D P. Constrained Optimization and lagrange Multiplier Methods[M]. New York: Academic Press, 1982

[29] Haarnoja T, Zhou A, Abbeel P, et al. Soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor[EB/OL]. 2018: arXiv: 1801.01290. https://arxiv.org/abs/1801.01290.

[30] Lin Longxin. Reinforcement learning for robots using neural networks[D]. Pittsburgh: Carnegie Mellon University, 1992.

[31] Christodoulou P. Soft actor-critic for discrete action settings[EB/OL]. 2019: arXiv: 1910.07207. https:// arxiv.org/abs/1910.07207.

[32] 葉宇劍, 王卉宇, 湯奕, 等. 基于深度強化學習的居民實時自治最優能量管理策略[J]. 電力系統自動化, 2022, 46(1): 110-119. Ye Yujian, Wang Huiyu, Tang Yi, et al. Real-time autonomous optimal energy management strategy for residents based on deep reinforcement learning[J]. Automation of Electric Power Systems, 2022, 46(1): 110-119.

Optimal Scheduling of Integrated Energy Multi-Microgrid System Based on Hierarchical Constraint Reinforcement Learning

Dong Lei1Yang Zimin1Qiao Ji2Chen Sheng2Wang Xinying2Pu Tianjiao2

(1. School of Electrical and Electronics Engineering North China Electric Power University Beijing 102206 China 2. China Electric Power Research Institute Beijing 100192 China)

The optimization of the integrated energy multi-microgrid system is a complex task, with numerous variables and challenges including data privacy protection and uncertainties of power generation and load, posing significant challenges for the efficient implementation of traditional mathematical optimization methods. Recently, many scholars have turned their attention to deep reinforcement learning (DRL) methods, which rely on data-driven principles and exhibit strong adaptability to uncertainties of power generation and load. Nevertheless, the difficulty of convergence persists with increasing system scale, and traditional DRL methods that handle constraints by adding penalty terms to the reward function may obscure the boundary between objectives and constraints, making it difficult to ensure that constraints are fully satisfied and resulting in excessively conservative learning strategies or suboptimal solutions. To address these issues, this paper proposed a hierarchical constraint reinforcement learning optimization method.

Firstly, this paper proposed a hierarchical DRL optimization framework for multi-microgrid systems. The proposed framework divides the optimization problem into two layers: an upper layer and a lower layer. The upper layer does not require obtaining all the operating status information of each microgrid. Instead, it utilizes net load prediction information and energy storage state information to provide energy storage optimization strategies and power interaction strategies. On the other hand, the lower layer enables each microgrid to autonomously optimize the output of its internal devices based on its own status information through mathematical programming, with the upper layer strategy as a constraint. The proposed framework leverages cooperation between the upper and lower layers to achieve overall optimization of the multi-microgrid system. This framework fully utilizes the advantages of DRL based on data-driven principles and effectively considers the solution accuracy of mathematical programming. Based on this hierarchical framework, a constraint DRL method is proposed that combines DRL methods with Lagrange multiplier methods. This method transforms the constraint optimization problem into an unconstrained optimization problem, enabling the agent to find the optimal strategy while strictly satisfying the constraints. Compared to traditional centralized optimization methods, the proposed method dynamically responds to the fluctuations of power generation and load to meet online optimization requirements and protects microgrid data privacy by not requiring the aggregation of all microgrid status information. Compared to general DRL methods, our approach effectively solves the problem of constraint violation and significantly improves both the convergence speed and accuracy.

The following conclusions can be drawn from the case studies: (1) A hierarchical design approach is proposed to simplify the optimization of multi-microgrid systems. The approach does not require information exchange between microgrids and only necessitates uploading net load and energy storage state information. Microgrids can independently and parallelly solve the optimization problem based on their own status information. This approach can provide scheduling results in real-time consistent with the optimal solution when local status information is available. (2) The proposed approach combines data-driven principles with traditional methods, simplifying the complexity of action space and reward design. It effectively balances the rapid solving ability of DRL and the solution accuracy of mathematical programming. Compared to traditional DRL methods, the proposed approach significantly improves both convergence speed and accuracy. (3) The approach combines DRL methods with Lagrange multiplier methods to transform the constrained optimization problem into an unconstrained one. This ensures that the agent can find the optimal strategy while strictly satisfying the constraints. The approach avoids convergence difficulties and constraint violation issues caused by manually setting the penalty coefficient in traditional DRL methods. (4) The model exhibits robustness and can effectively adapt to the fluctuations of power generation and load, making rapid decisions on power interactions of each microgrid.

Multi-microgrid, hierarchical constraint reinforcement learning, uncertainty, data privacy protection

10.19595/j.cnki.1000-6753.tces.230015

TM73

國家重點研發計劃(2020YFB0905900)和國家自然科學基金(52277098)資助項目。

2023-01-06

2023-03-22

董 雷 女,1967年生,副教授,研究方向為電力系統分析、運行與控制。E-mail:hbdldl@126.com

楊子民 男,1998年生,碩士研究生,研究方向為電力系統分析、運行和控制。E-mail:yzm@ncepu.edu.cn(通信作者)

(編輯 赫 蕾)

猜你喜歡
微網約束調度
“碳中和”約束下的路徑選擇
約束離散KP方程族的完全Virasoro對稱
《調度集中系統(CTC)/列車調度指揮系統(TDCS)維護手冊》正式出版
一種基于負載均衡的Kubernetes調度改進算法
虛擬機實時遷移調度算法
基于OMAP-L138的微網控制器設計
基于改進下垂法的微網并網控制策略研究
適當放手能讓孩子更好地自我約束
用于微網逆變器并聯的控制策略
低壓微網中的單相電壓獨立下垂控制策略
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合