?

基于深度強化學習的有源配電網實時電壓控制策略

2024-01-22 11:43陳瀟瀟周云海張泰源鄭培城
三峽大學學報(自然科學版) 2024年1期
關鍵詞:控制策略配電網動作

陳瀟瀟 周云海 張泰源 鄭培城

(三峽大學 電氣與新能源學院, 湖北 宜昌 443002)

整縣(市、區)屋頂分布式光伏政策和雙碳戰略使得我國能源體系結構逐步改變[1].國家能源局最新發布的數據顯示,截至2023年上半年,全國光伏發電新增并網容量為78.423 GW,其中分布式光伏(distributed photovoltaic,DPV)新增并網容量為40.963 GW,同比增長108%[2].分布式光伏大規模接入配電網是發展趨勢,但其接入改變了傳統配電網潮流單向的模式[3],分布式光伏出力的隨機性和波動性,會導致系統產生潮流倒送、電壓波動及越限等電能質量問題,這嚴重影響配電網的安全穩定運行.

現有的配電網電壓控制策略可分兩類:無功控制和有功控制.無功電壓控制中,有載調壓器(on-line tap changer,OLTC)、投切電容器(switching capacitor,SC)等離散調節設備響應速度慢,且頻繁動作會影響其使用壽命[4].靜止無功補償器(static var compensator,SVC)、靜止無功發生器(static var generator,SVG)等連續調節設備響應速度快,但安裝成本較高[5-6].有功電壓控制中,削減光伏有功出力不利于新能源的消納,而儲能的運維費用較高[7].基于光伏逆變器的無功調節是一種關注最為廣泛的調壓方式[8],該方式能高效利用光伏逆變器的容量,響應速度快,且無需投資額外的設備.因此,本文選取光伏逆變器為電壓控制設備,利用深度強化學習算法對配電網中的各光伏逆變器進行協同控制,實現對系統電壓的實時控制.

下垂控制未考慮各逆變器的協同配合,難以實現全局優化控制;傳統基于優化的方法[9],由于配電網精確的線路參數和拓撲結構難以獲取,無法建立精確的數學模型,且存在求解速度慢、難以實時控制等問題[10].強化學習(reinforcement learning,RL)通過與環境的交互過程中學習最優策略,采用馬爾科夫決策過程(Markov decision process,MDP)進行建模.深度強化學習(deep reinforcement learning,DRL)進一步融合深度學習的特征表示能力[11],具有更優秀的決策能力.

DRL 作為一種數據驅動的技術,近年在配電網電壓控制領域得到廣泛應用.文獻[12]利用深度Q網絡(deep Q network,DQN)算法控制系統中的SC,但該算法只能用于離散動作.文獻[13]提出一種基于近端策略優化(proximal policy optimization,PPO)的配電網控制策略,該算法可用于連續動作,實驗表明PPO 相較于DQN 有更好的控制效果,但傳統策略梯度的算法數據利用率較低,為此有研究人員將動作-評論(actor-critic,AC)框架擴展到深度策略梯度的方法中,形成深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法.文獻[14]提出一種雙時間尺度配電網無功優化方法,采用DQN算法和DDPG 算法分別對SC、SVG 進行控制,但從控制架構來說依然屬于單智能體結構,仍是將多個調節設備視作單個智能體,依然無法實現各個調節設備之間的協同控制.為此,文獻[15]利用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法協同控制各調壓設備,取得良好效果.但DDPG 和MADDPG 算法都存在Q值過估計的問題,文獻[16]在DDPG 的基礎上提出雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient,TD3PG)算法,引入3 種技術手段,提升算法的訓練效果.文獻[17]采用TD3PG 算法進行配電網電壓控制,實驗證明在無精確模型的情況下,該方法相比于傳統基于優化的方法,控制效果更好、控制周期更短、魯棒性更強,但該文采用的算法依然是單智能體結構.因此本文提出一種基于多智能體雙延遲深度確定性策略梯度(multiagent twin delayed deep deterministic policy gradient,MATD3PG) 的有源配電網實時電壓控制策略,其可以賦予各光伏逆變器獨立決策的能力,提升系統的靈活性.首先,闡述MATD3PG 算法的框架及原理;其次,構建有源配電網實時電壓控制物理模型,并將該物理模型轉變為分散部分可觀測的馬爾科夫決策過程(decentralized partially observable Markov decision process,Dec-POMDP),通過MATD3PG 算法訓練各智能體;最后,通過改進的IEEE-33節點算例驗證本文所提控制策略的有效性,并證明MATD3PG 相較于下垂控制和MADDPG,在配電網電壓控制問題上更有優勢.

1 MATD3PG 算法的框架及原理

1.1 多智能體深度強化學習

RL 通過訓練智能體(agent)與環境(environment)交互,強化學習模型中最關鍵的3個部分為:狀態(state),動作(action),獎勵(reward).一個經典的RL過程可以視為:智能體觀察達到一個環境狀態s t,執行一個動作a t后,環境反饋給它一個獎勵r t與新的狀態s t+1,然后智能體根據這個狀態執行動作a t+1,獲得r t+1與新的狀態s t+2……以此類推,最終形成一個軌跡e t=(s t,a t,r t,s t+1),也稱為馬爾科夫鏈(Markov Chain)[18].DRL 在RL 的基礎上又融合了深度學習,具有更強的的特征表示能力、更好的高維度空間處理能力.

多智能體深度強化學習(multi-agent deep reinforcement learning,MADRL)是指在DRL 框架下,多個智能體同時學習和交互的方法[19],其算法框架如圖1所示.MADRL用于訓練多個智能體在環境中進行協作或競爭的任務,每個智能體都具有自主決策能力,智能體之間通過共享經驗、協同行動來提高整個系統的性能.

圖1 多智能體深度強化學習框架

目前,多智能體深度強化學習方法可分為4類:獨立學習、獎勵分配、學習交流和集中式訓練-分散式執行[20].本文的多智能體深度強化學習算法采用集中式訓練-分散式執行機制,該機制將actor網絡和critic網絡中的信息差異化,actor網絡僅有單個智能體的信息,而critic網絡包含全部智能體的信息.集中式訓練時,actor網絡和critic相互輔助學習,訓練得到集中式的critic網絡;分散式執行時,利用訓練好的critic網絡,智能體僅需根據自身的局部觀測信息就能完成決策.這種設計避免隨智能體數量增長而導致的維度災問題,保證每個智能體環境的平穩性,降低訓練過程中的復雜度,從而提升訓練效果.

1.2 雙延遲深度確定性策略梯度算法

TD3PG 和DDPG 都是采用AC 結構、用于連續動作空間的DRL算法,此類算法包含動作網絡actor和評論網絡critic,actor負責根據當前策略選擇動作,而critic則負責評估當前動作策略的價值,兩個網絡相互協作,通過正反饋過程進行更新,以優化動作策略和值函數.critic網絡參數更新的方法為minLθ,Lθ見式(1);actor網絡參數更新的方法為式(2),采用策略梯度更新.隨著critic通過值函數評估的Q值越來越逼近目標值,actor的動作策略也趨于最優.

式中:θ為critic網絡參數;φ為actor網絡參數;r t為t時刻的獎勵值;γ為折扣因子,通常為0.95~0.99;πφ(s t)為在狀態s t下actor采取的動作;Qθ為價值函數;r t+γQθ[s t+1,πφ(s t+1)]為t時刻的目標Q值;Qθ(s t,a t)為t時刻的估計Q值;E為期望收益;E s~pπ為pπ狀態分布下的期望收益.

TD3PG 是對DDPG 進行優化的算法,主要包括以下3個優化:

1)剪切雙Q 學習(Clipped Double Q-Learning)

原始的雙Q 學習,使用一對actor和critic,即(πφ1,πφ2)和(Qθ1,Qθ2),其 中πφ1利 用Qθ1進 行 優化,πφ2利用Qθ2進行優化.由于πφ1相對于Qθ1是最優的,因此在Qθ1的更新中使用獨立的估計Q值可以避免actor動作策略更新帶來的偏差.然而,由于它們在訓練過程中使用了相同的經驗池,critic并非完全獨立.因此,對于某些狀態s,會出現Qθ1[s,πφ(s)]>Qθ2[s,πφ(s)]的情況,因為Qθ1[s,πφ(s)]通常會高估真實值,并且在某些狀態下,這種高估會進一步加大.因此,TD3PG 算法采用同一狀態下Qθ1,Qθ2中較小的進行目標更新,其更新公式如下:

式中:y t為目標值函數;θ'n為目標critic網絡參數;Qθ'為目標價值函數.n

2)目標網絡及延遲策略更新(Target Networks and Delayed Policy Updates)

目標網絡的引入提升了智能體訓練過程中的穩定性,但當critic對Q值估計不精確時,actor會產生錯誤的動作,該動作會存放至經驗池,由于是從經驗池中隨機采取一批樣本用于critic網絡更新,導致critic可能又產生錯誤的Q值,形成惡性循環.為此,TD3PG 算法延遲了actor的更新,令actor在critic估值偏差較低時再進行更新,提高了訓練的穩定性.同時改進了目標critic網絡更新,引入了軟更新因子τ,因此也稱為軟更新,其更新公式如下:

3)目標策略平滑正則化(Target Policy Smoothing Regularization)

確定性策略的一個問題是,它們可能會過度擬合Q值估計中的峰值,在更新critic時,使用確定性策略的訓練目標極易受到函數近似誤差的影響,從而增加目標的方差.為此,TD3PG 算法通過在目標動作加入小批量高斯噪音求平均值來減少目標值的方差,即在式(3)基礎上加入噪音:

綜上,TD3PG 算法解決了DDPG 算法訓練過程中Q值過估計的問題,提高了訓練效率,提升了訓練穩定性,大大提升了DDPG 在連續動作空間進行控制的性能,TD3PG 算法訓練流程如圖2所示.本文所提的MATD3PG 算法是TD3PG 在多智能體深度強化學習框架下的擴展算法,相對于MADDPG 可以更有效地解決環境中多個智能體交互的問題.

圖2 TD3PG 算法訓練流程

2 基于MATD3PG 的有源配電網實時電壓控制

2.1 光伏逆變器無功調節原理

因為削減光伏有功出力,會影響新能源的消納,這與我國整縣(市、區)屋頂分布式光伏政策不相符,所以本文僅調節其無功出力,光伏有功仍以最大功率發電.光伏逆變器可調無功功率與光伏有功出力、光伏逆變器容量的關系為:

光伏逆變器額定容量通常為額定有功的1.0~1.1倍[21],這意味著當并網有功輸出達到額定值時,光伏逆變器仍然具有可調無功容量,并且其無功可調功率會隨著光伏有功出力動態變化.光伏逆變器有功-無功容量變化關系如圖3所示.

圖3 光伏逆變器有功-無功容量變化關系

A點為t1時刻逆變器有功功率輸出值,此時逆變器無功調節范圍為[-,];當逆變器有功功率輸出值減少至B點時,逆變器無功調節范圍增加至[-,];夜間光伏有功輸出為0,可調無功容量數值就等于逆變器容量數值,可見其無功調節能力極為可觀.

2.2 有源配電網實時電壓控制物理模型

有源配電網實時電壓控制通過協調控制各光伏逆變器,以抑制系統電壓波動并降低網損,達到改善電能質量的目的,目標函數如下:

式中:T為一日的控制周期數;C u為電壓偏差附加成本系數;Udev,t為第t個控制周期內系統平均節點電壓偏差量;Closs為網損附加成本系數;Ploss,t為第t個控制周期的系統網損;U i為節點i的電壓;Uref為基準電壓;n為配電網節點數.

約束條件如下:

2.3 分散部分可觀測的馬爾科夫決策過程建模

由于配電網的精確模型參數難以獲取,且光伏出力的快速波動性對控制的實時性提出了較高要求,傳統基于優化的方法已無法適用于當前控制場景.而MADRL能夠有效滿足上述要求,能做到無模型數據驅動和實時控制.由于現實配電網環境受通訊條件限制,智能體只能觀測到局部的環境狀態,不再適合采用MDP進行建模[22],因此本文將有源配電網電壓實時電壓控制問題建模為Dec-POMDP,將各光伏逆變器當作MADRL 中的智能體,智能體聯合動作的環境為現實配電網.

本文的Dec-POMDP 由元組{S,A,O,r,T,γ}組成,其中,S為狀態集,A為聯合動作集,O為聯合觀測集,r為獎勵函數,T為狀態轉移概率函數,γ為折扣因子.具體含義如下.

1)狀態集S

狀態集S為環境內所有智能體狀態的集合,S t∈T∈S,S t由各個智能體t時刻所處的狀態s n,t組成,本文中s n,t是指包括t時刻智能體n所在區域的所有節點特征量,如負荷的有功和無功出力、光伏有功出力以及(t-1)時刻光伏逆變器的無功功率、關聯節點電壓.

2)聯合動作集A

聯合動作集A為全部智能體動作的集合,A t∈T∈A,聯合動作A t由各智能體t時刻的個體動作a n,t組成,本文中a n,t為t時刻該光伏逆變器的無功出力.

3)聯合觀測集O

聯合觀測集O為所有智能體局部觀測的集合,O t∈T∈O,聯合觀測O t由各智能體t時刻的局部觀測o n,t組成,本文中o n,t為t時刻智能體n所在區域內的所有節點特征量.

4)獎勵函數r

本文中各智能體為完全合作關系,通過協同動作最小化系統電壓偏移和網損,每個智能體的學習目標是全局最優控制策略以獲得最大獎勵,因此采用全局獎勵,根據式(8)設定實時獎勵函數:

5)狀態轉移概率函數T

T(S t+1,S t,A t)表示在狀態S t下,多智能體采取聯合動作A t后,系統轉移到S t+1的概率.狀態轉移概率函數考慮了有源配電網環境中光伏出力的不確定性,通過了解狀態轉移的概率分布,可以更有效地評估不同動作對于下一狀態的影響,從而為智能體的決策提供指導,以尋找最優的動作策略.

基于MATD3PG 的有源配電網實時電壓控制策略示意圖如圖4所示.

圖4 基于MATD3PG 的有源配電網實時電壓控制策略

本文通過潮流環境模擬實際配電網的運行環境.離線訓練階段,各智能體在仿真環境學習集中式的critic網絡即最優控制策略;由于采用了集中式訓練-分散式執行機制,在線實時控制階段,各智能體僅需通過局部的觀測信息和已經訓練完成的critic網絡進行決策,并且此時critic網絡依然能接受配電網環境反饋的狀態和獎勵信息,可以在訓練好的critic網絡基礎上繼續實時更新.該控制策略既能使各智能體協同動作,提升系統的靈活性,又可以保證控制的魯棒性和全局最優,取得良好的控制效果.

3 算例分析

3.1 算例設置

本文算例仿真測試于硬件平臺Intel(R)Core(TM)i5-12500H CPU,Intel(R)Iris(R)Xe Graphics GPU;軟件系統為Win10;強化學習算法均基于Python 3.9.0的Pytorch 1.8.1神經網絡框架實現.算例基于IEEE-33 節點配電網系統進行改進,網絡參數來自于Matpower7.1數據庫[23],在節點13、18、22、25、29、33上安裝逆變器容量為1.5 MW 的分布

式光伏,改進后的系統拓撲結構如圖5所示.

圖5 改進后的IEEE-33節點系統拓撲結構

設置根節點電壓標幺值為1.00 p.u.,安全運行電壓為0.95~1.05 p.u.,配電網實時電壓控制間隔為3 min,控制周期數為480.光伏和負荷數據均來源于Elia集團(比利時電網運營商)公開歷史數據[24],數據集為2022年整年數據,原始數據的時間分辨率為15 min(96個點),將數據按與配電網實時電壓控制間隔(3 min)一致的時間分辨率(480個點)進行插值,其中每個季節選取7 d(共28 d)為測試集,其余則作為訓練集.

強化學習算法中,實時獎勵函數式(13)中電壓偏差附加成本系數C u設為10$/p.u.,網損附加成本系數Closs設為0.05$/MW;在目標動作加入的小批量高斯噪音式(6)的標準差σ為0.1,截斷區間參數c為1.強化學習環境中,將每個光伏逆變器都單獨作為智能體,智能體動作時間間隔與配電網實時電壓控制間隔一致,智能體訓練步長為240,即每次不重復截取240個點(半天)的數據進行訓練,240個點的數據訓練完成即為一個訓練回合,本文訓練回合數為400.為了模擬現實配電網的不確定性,在每個訓練回合開始時都會對系統初始化狀態進行隨機處理,其余算法參數設置見表1.

表1 強化學習算法參數設置

為了驗證本文所提MATD3PG 算法的進步性和有效性,將該算法與以下3種方案進行對比:

1)無控制,即系統內所有光伏逆變器的無功出力為0;

2)傳統Q(V)下垂控制策略[7];

3)MADRL中的經典算法MADDPG[15].

3.2 訓練結果分析

由于方案1和方案2不存在離線訓練過程,所以只進行方案3和本文所提MATD3PG 算法的對比分析.在相同的改進后IEEE-33 節點系統仿真環境下進行訓練,上述兩種算法訓練的平均累積獎勵如圖6所示,實線為平滑后的曲線,背影部分為原始的振蕩曲線.

圖6 MADDPG 和MATD3PG 算法的訓練結果

從圖6可以看出,在訓練初期,由于智能體采取隨機動作探索環境,其獎勵變化幅度較大,但隨著經驗的積累,各智能體逐漸學得最優策略,體現出的就是圖像開始收斂,后期獎勵值在小幅度變化,MADDPG 算法和MATD3PG 算法的最終獎勵值分別為-0.087 9、-0.079 7.本文提出的MATD3PG 算法訓練過程中的平均累積獎勵相比MADDPG 提升了9.33%,且波動性更小.這是由于MATD3PG 采用3種技術手段解決訓練過程中Q值過估計的問題,提升算法的訓練效率,取得了更好的訓練效果.

3.3 測試集結果分析

將上述訓練好的模型用于測試集進行對比分析,控制指標有電壓偏差、網損、平均求解時間.不同控制策略的性能參數見表2.

表2 測試集下不同控制策略的性能參數

由表2可知,相較于下垂控制、MADDPG,本文所提MATD3PG 算法具有最佳的穩壓降損性能.可以看到,無控制時的系統平均電壓偏差較大,經下垂控制、MADDPG、MATD3PG 控制后,電壓波動得到抑制,平均電壓偏差分別降低了58.22%、62.91%、65.26%,這證明僅利用光伏逆變器也能有效控制電壓波動;同時MATD3PG 算法的標準差最小,說明其能更穩定地抑制電壓.由于無控制時光伏逆變器無功出力為0,節點間的無功流動較少,導致網損較低,在光伏逆變器調節無功后,會增加系統的網損,但MATD3PG 算法可以在更為有效穩定電壓的同時,具備較低的網損,其網損平均值相比下垂控制和MADDPG,分別降低了15.55%、6.73%,其網損標準差也小于二者.由于下垂控制需要通過傳統物理模型求解,其求解時間較慢,而強化學習算法僅需通過訓練好的神經網絡就能完成決策,因此其求解時間較短,且MATD3PG 相比于MADDPG 平均求解時間更短,能夠滿足在線電壓控制的要求.

3.4 典型日結果分析

典型日系統PV 出力和負荷曲線如圖7所示,該典型日的光伏滲透率為240.68%,滲透率采用功率滲透率的計算方法[25](即給定區域內,所有分布式光伏發電功率與同一時刻該區域負荷之比的最大值),可以看出9:00~16:00為光伏出力的高峰期,該段的光伏出力明顯高于負荷需求,系統極易發生功率倒流、電壓越限.

圖7 典型日系統的PV 出力和負荷曲線

未經控制的典型日各節點電壓分布箱線圖如圖8所示,可以看出在高滲透率分布式光伏接入的配電網中,眾多節點都出現了電壓越限,這嚴重影響了配電網的安全穩定運行.MATD3PG 控制策略下的典型日各節點電壓分布箱線圖如圖9 所示.圖中表明MATD3PG 控制策略取得了良好的電壓控制效果,經此策略控制后全天各節點電壓均處于安全范圍內.

圖8 未經控制的典型日各節點電壓分布

圖9 MATD3PG 控制策略下的典型日各節點電壓分布

圖8表明,當日系統出現電壓越限最為嚴重的節點為節點18,因此選擇節點18作為典型節點進行本文所提方案與方案1~3的對比分析.典型日下不同控制策略下的節點18電壓分布如圖10所示,其中虛線表示基準電壓和安全運行電壓上下限.圖中表明節點18在10:00~15:00均處于電壓越上限狀態;在夜間均處于電壓越下限狀態,整體波動較大.雖然方案2和方案3也能將節點電壓控制在安全范圍內,但從控制效果來看,基于MATD3PG 的控制策略相較于方案2和方案3,能更為有效地抑制電壓波動,更好地改善電能質量.

圖10 典型日不同控制策略的節點18電壓分布

典型日不同控制策略的系統總網損如圖11 所示.圖中表明本文所提MATD3PG 相比于下垂控制和MADDPG,網損分別減少了20.10%、8.39%,本文所提方法網損最低.這是因為MATD3PG 能更高效地協調各光伏逆變器進行電壓控制,減少系統中的無功流動,從而最大限度降低了系統網損.

圖11 典型日不同控制策略的系統總網損

4 結 論

本文提出一種基于MATD3PG 的有源配電網實時電壓控制策略,能夠實現各光伏逆變器的協同控制,有效解決有源配電網的電壓越限問題,提升配電網運行的穩定性.主要結論如下:

1)相比傳統的優化算法,所提策略無需精確的配電網模型,僅采用光伏逆變器就能夠將電壓控制在安全范圍內,且不會影響光伏消納,具有較好的經濟性.

2)強化學習算法采用基于集中式訓練-分散式執行機制,解決傳統強化學習算法訓練過程中出現收斂困難的問題,降低訓練的復雜度,提升訓練效果,并顯著提高在線實時決策的效率.

3)將有源配電網實時電壓控制物理模型轉化為Dec-POMDP,將各光伏逆變器作為強化學習環境中的智能體,與環境交互的過程中學習最優控制策略,能更好地應對實際配電網中的不確定性,可以在系統不具備完善通信設備的條件下,根據系統最新狀態進行實時電壓控制,具有良好的控制時效性.

4)經改進的IEEE-33 節點算例驗證,相較于下垂控制和MADDPG,MATD3PG 能夠更有效地抑制電壓波動、降低系統網損.同時MATD3PG 算法的求解速度更快,具備良好的實時電壓控制性能.

猜你喜歡
控制策略配電網動作
工程造價控制策略
配電網自動化的應用與發展趨勢
現代企業會計的內部控制策略探討
動作描寫要具體
畫動作
基于IEC61850的配電網數據傳輸保護機制
容錯逆變器直接轉矩控制策略
基于Z源逆變器的STATCOM/BESS控制策略研究
配電網不止一步的跨越
非同一般的吃飯動作
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合