?

基于DDQN的燃料電池混動車輛能量管理策略研究①

2024-01-06 15:03葉國云張兆顯陳鳳祥仝光耀
關鍵詞:輸出功率燃料電池管理策略

葉國云, 張兆顯, 陳鳳祥, 仝光耀

(1.寧波如意股份有限公司,浙江 寧波 315000;2.同濟大學汽車學院,上海 201804)

0 引 言

在目前的研究和應用中,因為燃料電池技術限制,燃料電池汽車通常以多個能量源作為輸出,如何使多個能量源構成的混合動力系統高效、可靠、穩定工作是燃料電池汽車的關鍵技術,將直接影響到整車性能好壞[1]。鑒于此,針對燃料電池混合動力公交車的能量管理策略的研究具有很強的意義。目前國內外關于能量管理策略的研究主要集中于基于規則的策略和基于優化的策略兩類[2]?;谝巹t的策略往往是根據工程師經驗,針對不同的運行條件和工況來設計規則對功率進行分配,其優點是簡單易實現,因此在實際工程中得到了廣泛應用,但在面對復雜工況時適應性差,難以實現全局最優或近似最優的控制[3]?;趦灮牟呗钥梢栽诒WC功率合理分配的同時,實現目標的最優或近似最優控制,國內外學者對基于優化的能量管理策略進行了廣泛深入的研究。典型的基于優化的方法包括:動態規劃(DP)[4][5]、凸優化[6]、龐特里亞金極大值原理(PMP)[7][8]、等效燃料消耗最小策略(ECMS)[9][10]、模型預測控制(MPC)[11][12]等。目前基于規則與基于優化的策略研究已相對成熟,而強化學習的思想方法作為當下研究與應用的新方向和新熱點,仍有許多值得探索和優化的地方。

1 燃料電池混合動力公交車模型

所研究的某款燃料電池混合動力公交車的主要參數和構型如表1所示。

表1 某款燃料電池混合動力公交車參數

1.1 車輛動力學模型

根據參考文獻[13],在行駛過程中車輛受到的牽引力與滾動阻力Ftraction、坡度阻力Froll、空氣阻力Fgrade及加速阻力Finertia作用,其平衡方程式為式(1):

Ftraction=Froll+Fgrade+Fair+Finertia

(1)

式(1)中:

(2)

式(2)中,θ為行駛坡度角(rad);ρair為空氣密度,取1.2258kg/m3;δ為汽車旋轉質量換算系數。

1.2 燃料電池系統模型

針對能量管理問題,選擇基于實驗數據靜態模型建模方法,擬合燃料電池的輸出特性曲線,建立燃料電池系統模型,其輸出特性如圖1所示。

圖1 燃料電池系統極化曲線與功率曲線圖

1.3 動力電池系統模型

在電池放電過程(Prequest>0),如果需求功率在電池最大輸出功率范圍內,此時輸出功率等于需求功率,即PSUPPLY=PREQUEST,瞬時電流、瞬時電壓與充電過程(Prequest>0)計算方法相同,計算公式可以表示為式(3),式(4):

(3)

V=Voc-RintI

(4)

式(3),式(4)中,I表示瞬時電流;Voc表示開路電壓;Rint表示電源內阻;C表示庫倫效率;Prequest表示電池端需求功率。

另一方面,在電池放電過程當需求功率大于電池最大輸出功率,此時電池輸出功率無法滿足動力系統功率需求,即PSUPPLY

V=Voc-RintImax

(5)

基于以上計算結果,Rint模型的動力電池SOC計算可得到式(6):

(6)

式(6)中,Q0=SOC0·Cmax表示初始電池容量,由初始電池電荷狀態SOC0和最大電池容量Cmax決定。

1.4 驅動電機系統模型

基于電機效率MAP圖對驅動電機進行建模,以車速及車輛需求轉矩為輸入,輸出電機需求功率。根據輸入條件車速u,車輛需求轉矩Twheel,計算得到驅動電機轉速wmotor和需求轉矩Tmotor,計算公式如式(7):

(7)

式(7)中,itrans為主減速比;ηtrans為傳動系統傳動效率。主減速比根據電機轉速與車輛速度范圍進行參數匹配,傳動系統效率忽略外界條件引起的波動取其平均值。

根據電機轉矩Tmotor,電機轉速wmotor,查表得到電機該工作點的效率,即ηmotor=f(Tmotor,wmotor)。由公式(8)計算得到電機需求功率,其中當電機轉矩Tmotor小于0時,進行制動能量回收:

(8)

2 燃料電池混合動力公交車能耗分析

從整體能耗出發,結合車輛行駛的動能Edyn與制動過程回收能量Erec,總能量EH2滿足式(9):

EH2=Edyn-Erec+Eloss

(9)

式(9)中Eloss為能量傳遞過程的所有能量損失。對于能量管理問題,在整車各參數不變情況下,驅動能量Edyn與制動能量Ebrk僅視工況而定,因此,降低氫氣能耗完全依賴于對能量傳遞過程各效率的優化,關鍵影響因素包括燃料電池系統效率、動力電池系統效率、電機系統效率、傳動效率、再生制動效率等。

3 基于深度強化學習的燃料電池混合動力公交車能量管理策略

DDQN(Double Deep Q-Network)[14]方法是DQN(Deep Q-Network)算法的改進版,通過兩個神經網絡使目標Q值動作的選擇和目標Q值計算進行解耦,有效降低了算法過擬合問題,同時加快了訓練的收斂速度。結合強化學習訓練特性定義三個狀態維度作為神經網絡的輸入,其中包括電池SOC、電機需求功率Pmotor和當前車速u。另外,在輸入神經網絡前,各維度狀態變量都做了歸一化處理。在燃料經濟性目標基礎上同時考慮到對動力電池工作區間限制,控制變量如表2所示,同時強化學習獎罰函數定義為式(10):

(10)

表2 DDQN狀態變量與控制變量表

(11)

最小樣本集采樣來源兩部分,一部分與傳統方法相同,來自智能體與環境交互數據,另一部分來自專家經驗集,專家經驗由全局最優的動態規劃算法得到。該方法一方面融合了專家信息進行訓練,提高了智能體探索效率和學習速度,抑制了訓練結果陷入局部最優的趨勢,另一方面保證了智能體對環境的探索能力,防止對專家數據的過擬合,既提高了學習的收斂性,又保證了算法的探索需求,最終所提出的能量管理策略架構如圖2所示。

圖2 DDQN能量管理策略架構

4 仿真結果

基于對上述能量管理策略進行仿真試驗分析,參考GB/T 35178-2017,應用如圖3 所示“中國典型城市公交工況”進行深度學習訓練,累計獎勵曲線如圖4所示,訓練設置了500幕循環,濾波后的累計獎勵曲線可以看出最終累計獎勵最終收斂到最高點。

圖3 中國典型城市公交循環工況曲線

圖4 訓練過程每幕累計獎勵曲線

4.1 燃油經濟性分析

研究將基于DDQN與基于規則及動態規劃另外兩種常規能量管理策略下的燃料電池系統輸出功率和工作區間分布進行對比,從統計結果可以看出,DDQN主要工作區間集中在60kW以下高效率區間,其中60kW以下工作點占比99.24%。相比之下,動態規劃主要工作區間在60kW以下工作點占比98.9%,DDQN與動態規劃兩者怠速工況占比分別為50.65%及36.2%,遠低于基于規則的77.15%,具體如圖5和圖6所示。

圖5 三種能量管理策略下系統輸出功率曲線

圖6 三種能量管理策略下系統工作區間統計

圖7 三種能量管理策略下動力電池功率輸出曲線

圖8 三種能量管理策略下動力電池SOC曲線

圖7和圖8可以看出在一個工況循環下,SOC從60%下降到57.65%,動態規劃與基于規則的方法的SOC分別下降到55.36%和55.99%。比較三種方法等效燃料消耗可以發現,基于DDQN的等效耗氫量為313.16g,動態規劃與基于規則方法等效耗氫量分別為311.45g與330.37g,與動態規劃結果相比,深度強化學習方法達到了十分接近的結果,相差0.55%,相比基于規則的方法,訓練后的DDQN燃料經濟性提高了5.50%。

圖9 燃料電池系統輸出功率對比曲線

圖10 燃料電池系統工作區間統計

圖11 動力電池系統輸出功率曲線

圖12 電池SOC變化曲線

4.2 工況適應性分析

離線DDQN的基礎上,針對新的測試工況(CHTC-B),繼續進行訓練更新并在線應用,訓練后的經濟性表現上進一步提升,如圖9-圖12綠色線所示,燃料電池系統輸出更加傾向于在高效率區間工作,其中怠速功率以上到20kW高效區間從22.92%提升到32.85%,而40kW以上工作區間從5.65%下降到2.36%。更新后的DDQN策略燃料等效消耗為283.64g,相比離線DDQN提高了2.5%,更加接近動態規劃的近似全局最優控制效果。

5 結 語

以燃料電池公交車為研究對象,根據燃料經濟性為目標對能量管理策略展開基于DDQN的能量管理策略研究,提出了一種基于專家經驗引導的優化方法。通過仿真試驗,驗證了強化學習方法在能量管理策略上的適用性,其燃料經濟性表現接近動態規劃方法,相比于傳統方法,在訓練工況下實現了5.5%的優化,同時基于DDQN的能量管理策略具有良好的工況適應性。

猜你喜歡
輸出功率燃料電池管理策略
房建工程招標組織與合同管理策略
論減稅降費背景下的企業財務管理策略
建筑工程管理策略探討
建筑施工安全管理策略的應用探索
燃料電池題解法分析
試駕豐田氫燃料電池車“MIRAI未來”后的六個疑問?
燃料電池的維護與保養
適用于智能電網的任意波形輸出功率源
基于雙層BP神經網絡的光伏電站輸出功率預測
分布式發電系統并網逆變器輸出功率的自適應控制
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合