?

基于強化學習的中央空調系統溫度控制與節能

2021-11-17 06:09李曉彤崔承剛
計算機仿真 2021年4期
關鍵詞:冷水機組中央空調舒適度

李曉彤,崔承剛,楊 寧,陳 輝

(上海電力大學,上海 200082)

1 引言

為應對氣候變化實現可持續發展,建筑節能已成為建設資源節約型社會的關鍵所在。目前基本的建筑空調系統節能方法包括三個方面:降低冷/熱負荷、使用高效的設備和技術、系統設計優化與控制優化。其中系統的控制優化效果與建筑運行能耗緊密相關[1]。據統計,建筑的生命周期通常都是幾十年以上,運行階段能耗在全生命期內占比最高,此階段節能潛力巨大[2]。系統控制器的作用是針對室外不斷變化的天氣情況和室內負荷變化情況,動態調整系統中的設定值或者運行規則,從而在滿足被控區域內人員舒適度需求的前提下盡可能地降低空調系統能耗和運行費用。

中央空調系統的能效由于控制策略的不同而有顯著的不同影響??照{系統的溫度控制是樓宇自動管理系統的重要組成部分。

傳統的方法中,文獻[3]使用Fuzzy-PD控制建筑領域內的相關設備,但此方法收斂速度慢且穩定性差。文獻[4]描述物理特征為主的模型,基于詳細的物理特征,準確度高但參數多且比較復雜,難以建立精確模型。中央空調系統的復雜動態性是開發中央空調最優控制策略的主要困難之一。最常用的方法是模型預測控制(MPC),文獻[5]使用MPC方法需要低階系統動力學和目標函數,開發MPC的“模型”復雜。線性模型通常用于模擬建筑物溫度響應,需要仔細選擇控制變量,以確保中央空調能耗與狀態和控制變量之間的低階關系。文獻[6]使用基于規則的控制方法確定中央空調系統的監督級設定點,例如各種溫度/流速設定點?!耙巹t”通常是靜態的,并根據工程師和設施管理人員的經驗確定。需要大量的先驗知識以及系統模型。文獻[7]中第二天的室外溫度預測值,根據空調能耗與溫度變化關系構建空調能耗模型,通過模糊聚類機制產生多空調機組優化組合序列,用遺傳算法對空調在線節能控制模型進行求解,對系統模型仍然有較高的依賴性。文獻[8]用強化學習控制器來獲得燈光的最優控制策略,實現表明該方法與傳統控制方法相比效果更佳。驗證了強化學習應用的有效性。因此需要探索實用性更廣泛的強化學習方法。人工智能技術現在不斷發展,在復雜控制系統中也出現了越來越多的智能控制器,可以看出中央空調系統控制技術今后的發展趨勢。

本文的創新在于將無模型的強化學習算法應用在建筑空調領域中,對中央空調系統房間溫度進行控制。與上述方法相比,無需建立系統模型,適用性更加廣泛;自動尋優策略,獲得更好的優化效果。首先對冷水機組能耗進行建模,然后搭建基于強化學習的空調系統運行優化框架,最后在MLE+聯合仿真平臺上將強化學習算法與基準啟停策略和模型預測控制策略比較,實驗結果表明在滿足被控區域舒適度要求的前提下本文提出的基于強化學習方法能更多的降低能耗,驗證了該算法的有效性。

2 中央空調系統控制目標及被控對象建模

中央空調系統的運行優化是建筑節能的重要組成部分,建筑系統運行優化的基本目標是在滿足被控區域舒適度要求的前提下盡可能的降低能耗。制冷機組是中央空調系統的核心部件之一,評價空調系統是否節能,可以用制冷性能指數COP來衡量,其運行原理如圖1所示。

圖1 冷水機組運行原理示意圖

冷水機組的能耗主要受冷凍水系統及冷卻水系統影響。在冷凍水系統中,由于空調負荷是不可控的,認為其為一定值,故冷卻水溫度為影響系統能耗的主要因素。本文在空調房間舒適性和空調系統節能基礎上建立空調系統問題的數學描述,可以表示為

(1)

(2)

Q(t)=cmρΔt

(3)

式中,pch為系統運行總能耗,R為系統模型約束條件;冷水機組名義工況制冷性能系數(cop)是指在溫度條件下,機組以同一單位標準的制冷量除以總輸入電功率的比值,即單位能耗產生的冷量;Q(t)為制冷量,kW;c為水的比熱容,kJ/(kg·℃);m為冷凍水流量,m3/s;ρ為水的密度kg/m3;Δt為供回水溫差,℃;

在空調系統運行過程中,通過蒸發器和冷凝器的流量一般采用定值,所以冷水機組的能耗只要受冷凍水和冷卻水進口溫度的影響。將冷水機組的能耗擬合為冷凍水與冷卻水進口溫度的函數

(4)

中央空調系統中房間溫度控制系統的時滯、惰性以及非線性等特點[9],被控對象的數學模型是不斷變化的,中央空調系統的運行過程是熱量不斷傳遞并由室內向室外轉移的過程。針對中央空調系統運行優化問題,本文選擇強化學習控制器,使用Q-learning和SARSA策略,控制冷水機組的制冷量,目標是使得空調房間室內溫度保持一定,同時降低冷水機組能耗。

3 強化學習原理簡述

3.1 強化學習基本概念

本文對一個中央空調溫度控制系統進行強化學習控制,希望提出一種合適的學習架構,該架構利用了許多能夠隨時間學習最優或接近最優控制策略的學習方法。圖2為強化學習問題的一個簡單圖示。強化學習問題可以理解為智能體通過與環境交互,利用環境反饋回來的信息來達到具體的目標。智能體與環境的交互是指在每個環境狀態下智能體選擇一個動作,環境響應相應的狀態和獎賞[10]。在強化學習中,智能體Agent在狀態S下選擇并執行一個動作a,環境接受此動作后變成S′,并把獎勵信號r反饋給智能體,智能體再根據獎賞信號選擇后續動作。強化學習任務的目的是不斷提高智能體的決策能力,使得整個決策鏈路的累積獎賞最大化。

圖2 強化學習原理示意圖

在已知完整環境模型的特定情況下,該問題可以使用傳統動態規劃技術[11]來解決,例如值迭代。但是,在實際問題中,通常難以建立完整精確的模型。然而,對于完整的環境模型,獎勵或轉移概率的分布沒有先驗知識。因此,動態規劃的解決方案(值迭代或策略迭代)不能用于為這些問題生成最優策略π。作為動態規劃的替代方案,可以使用無模型強化學習方法(如Q-learning)在缺乏完整環境模型的情況下生成最優的控制策略。因此,將中央空調控制問題建模為馬爾科夫決策過程(Markov decision process,MDP),設計出能夠有效處理環境不確定性的解決方案。

3.2 馬爾科夫決策過程

強化學習的學習過程是動態的、不斷交互的過程,所需要的數據也是通過與環境不斷交互所產生,可以解決大部分強化學習問題的框架叫做馬爾科夫決策過程,將具體問題描述為馬爾科夫決策過程后,即具有強化學習模型所需要的馬爾科夫性。

st+1=P(st,at),?t∈{0,1,…,T-1}

(5)

式(5)代表了智能體通過動作與環境的一次交互,交互結束后智能體達到新的狀態st+1,同時環境會對智能體發送一次反饋信號。將這個反饋信號稱為獎勵函數rt,用下列等式表示

rt=ρ(st,at,st+1),?t∈{0,1,…,T-1}

(6)

(7)

在保證人體舒適度同時計算能耗的過程中,使用了兩個強化學習算法。

1)Q-Learning算法是一種可以求解具有不完全信息的馬爾科夫決策問題的強化學習方法。該算法的目標是獲取狀態-動作對所對應的值函數,用Q(s,a)表示。表格型Q-Learning是指算法將有限個狀態-動作對的Q值存儲在一張表格中。智能體通過探索環境建立一張Q值表,冷水機組通過不斷地跟房間和室外環境交互,得到環境反饋獎勵,從而在Q值中形成狀態-動作對對應的Q值,通過Q值更新規則不斷的迭代修改Q值中的值,會使選擇正獎賞的動作的概率不斷增加,使智能體的動作最終趨于最優動作集,收集(s,a,γ,s′)元組形式的樣本,使用式(8)對表格中的Q值進行更新。

(8)

式中,s′為執行動作a后到達的下一狀態;學習率α∈(0,1)為Q值的更新速度;r為獎賞值。時序差分項ΔQ(s,a)表示的是實際值與估計值Q(s,a)的差值。Q-learning算法通過不斷收集樣本更新Q值使估計值越來越接近真實值,即冷水機組的動作達到預先設置的目標。

2)SARSA算法的決策部分與Q-Learning一樣,使用Q表形式,選擇值較大的動作施加在環境中來換取獎懲,也是每執行一步更新一次Q值,而SARSA算法與Q-learning算法不同的之處如式(9)所示,時序差分項中的下一狀態的Q值中的動作采用實際發生的動作,而不是選擇Q值最大的動作。應用在建筑空調系統時,表現出了更大的靈活性。

ΔQ(s,a)=α(r+γQ(s′,a′)-Q(s,a))

(9)

具體獎賞及動作的設置在下節中闡述。

4 基于強化學習的空調溫度控制策略實現

4.1 強化學習控制方案設計

本文選擇強化學習控制器,將中央空調運行過程視為馬爾可夫決策過程,將空調系統房間溫度控制問題合理地描述為強化學習問題,進而利用強化學習算法改進空調房間溫度策略。

通過馬爾科夫決策過程定義強化學習問題,即應用無模型強化學習算法解決強化學習問題時,則僅需定義馬爾科夫決策過程中的狀態、動作與獎賞,因此僅需合理地確定空調系統運行優化問題中的狀態、動作和獎賞。

本文對于空調房間的溫度控制過程如下圖所示,建筑物中考慮了包括天氣信息以及人員占用信息等可測因素,控制器部分選用強化學習控制器,以實現自動尋優,達到在舒適度要求的范圍內使得能耗最低的目標。

圖3 基于強化學習的空調系統運行優化框架

4.2 中央空調溫度控制系統MDP元組描述

狀態和動作二者皆可以影響控制目標的實現情況,其中動作為影響因素中的可控變量,即為空調房間溫度控制中的被控對象。針對空調系統運行優化問題,動作通常為局部控制器的設定值,例如風量設定值,水流量設定值,溫度設定值等。

4.2.1 狀態空間

狀態是一組有限的狀態集,描述了任意時刻智能體在環境中所處的位置狀態,是馬爾科夫決策過程求解過程中至關重要的一個狀態量。因此狀態空間應該描述系統條件和允許決策所需的所有信息。但是,過大的狀態空間會導致過多的信息量,這會導致Q表存儲不足、遍歷訓練時間過長等問題。

因此本文設置3個狀態量,狀態S設置包括rt(室溫)、t(時間信息)和ot(室外溫度)三個部分。其中時間用于反映室內熱擾等與時間相關信息。室外天氣狀況選取當前時刻室外溫度,當前室外太陽輻射,以及未來一小時的溫度變化的預測值。被控區域溫度為室內空氣溫度。

4.2.2 動作空間

本文設定變量sp為目標溫度設置。按照GB50736-2012《民用建筑供暖通風與空氣調節設計規范》[13],夏季室內溫度應保持在24-28℃之間,故取溫度上限為28℃,下限為24℃。假設在正負2℃的設定點附近有一個閾值。因此,指定設定點溫度sp為26℃。本文的被控變量為水溫,設置控制時間步長為0.25h(15分鐘)。

根據房間實際溫度與設定溫度的差值Δt=trt-tsp,當Δt>0時,需要的空調系統制冷量ΔQ>0,此時需要加大空調制冷量,當Δt<0時,需要的空調制冷量ΔQ<0,此時需要減小空調制冷量,當Δt=0時,保持空調制冷量不變。

每個時間步長上,強化學習智能體將動作區間離散為3個水平{a1,a2,a3},即a∈[-1,0,1]。其中a=-1表示減小空調制冷量,a=0表示保持空調制冷量不變,a=1表示加大空調制冷量。

4.2.3 獎勵函數

獎賞為空調系統運行優化任務的短期目標,因此通常設定為空調系統能效或者當前控制步長的能耗或者運行費用與舒適度的加權等形式。

本文案例中將獎勵計算為系統能耗與每個被控區域室內溫度超出舒適度范圍時的懲罰項。

rt-1=-pch(st-1,at-1)+penalty(Tt)

(10)

(11)

式中,tsp為溫度設定值,假設在此溫度下用戶舒適度最高,由于室內溫度在用戶設定值范圍內波動不會影響舒適度,因此當室內溫度大于tsp+Δt時,室內溫度過高,用戶舒適度降低,當室內溫度小于tsp-Δt時,室內溫度過低,用戶舒適度降低。

4.2.4 目標函數

本文中目標是在保證室內溫度一定的同時使得能耗最低,在空調系統的溫度控制過程中本文對系統能耗進行了分析,接下來引入舒適度指標,以更直觀反應舒適度要求,夏季模式下時,該指標定義為

(12)

由此舒適度指標含義可知,Deg越小,用戶的舒適度越高。

故優化控制模型如下

(13)

(14)

trt min

(15)

0

(16)

trt mintrt max表示用戶能夠容忍的室內溫度的上下限值;qmax表示在一個步長內空調系統的最大容許電能消耗量,根據空調系統的銘牌數據確定。

5 仿真及實驗結果分析

5.1 實驗平臺

本文是在Energyplus-co-matlab平臺:MLE+上進行仿真驗證的。

Energyplus與matlab聯合仿真示意圖如圖4[14,15]所示。

圖4 Energyplus與matlab聯合仿真示意圖

5.2 基準控制策略

基準策略RBC選取原則:

根據美國能源部推薦的固定室內溫度運行策略,本文中設定室內溫度為26℃。選取基準策略為啟??刂?RBC)作為對比對象。當被控區域溫度低于24.5℃時,關閉冷水機組,當被控區域溫度高于27.5℃時,則,保持設定冷水機組按照最大制冷量運行。

(17)

模型預測控制MPC策略:

其目標函數和相應約束如下式所示

subjecttost+1=f(st,at,wt)

0≤Php≤Pmax

(18)

設置控制步長為15分鐘,時間窗設置大小為三個小時,對時間窗內的控制變量進行滾動優化。本文中假設的模型預測控制方法是假設房間模型中央空調系統模型完全已知,即模型預測與實際系統運行完全吻合,不存在任何偏差,因此模型預測控制計算得出的控制策略可以被視為最優控制策略。

因此,將本文提出的基于強化學習的控制方法與基準策略相比較,并用實驗驗證仿真結果。

5.3 控制效果對比分析

5.3.1 三種策略的舒適度比較

圖5描述了使用Q-learning方法、MPC方法以及基準策略RBC方法時的被控區域的舒適度曲線,即策略運行階段室內溫度變化情況,可以看出在使用強化學習策略后,室內溫度基本保持在在設定溫度26℃左右小幅波動,能夠滿足舒適度的需求,采用MPC控制策略時,被控區域溫度可保持在25至27℃之間,也可以取得較好的控制效果,采用RBC控制策略運行時,被控區域在大部分在24至28℃間波動,基本滿足舒適度的要求。因此執行強化學習策略時,可以取得最好的控制效果。

圖5 執行不同策略時舒適度曲線

5.3.2 強化學習控制能耗比較

在本文提出的兩個基準策略中,MPC表現出了更好的控制效果,因此本節選擇MPC控制器作為對比對象。在進行強化學習策略選擇時,選擇SARSA和Q-learning兩種控制策略。

圖6是15天內被控區域總能耗及非舒適時長百分比比較。與MPC控制策略對比,Q-learning策略在小幅提升室內舒適度水平的同時,將運行能耗降低超過37.2%,SARSA策略將運行能耗降低超過43.3%,因此可以看到SARSA策略可以取得最優的節能效果。

圖6 三種策略控制情況對比

6 結論

本文的創新是將中央空調系統溫度控制問題通過馬爾科夫決策過程建模成了強化學習問題,定義了狀態空間、動作空間和獎勵函數,并通過仿真實驗驗證了基于強化學習算法的空調系統運行優化方法的有效性。該方法不需要先驗知識也不需要建立系統模型,尤其適合中央空調系統這種建模復雜的對象。

本文的實驗結果可以表明:①在基于EnergyPlus和Matlab的協同仿真框架下,基于強化學習的空調房間溫度控制方法能夠很好地將室溫保持在設定的范圍內,保證用戶舒適度;②與MPC控制策略相比,Q-learning策略能降低37.2%的能耗,SARSA策略能降低43.3%的能耗;③該基于強化學習的運行優化方法收斂速度快,穩定性強,具有廣泛的應用性。

猜你喜歡
冷水機組中央空調舒適度
兩種舒適度指數在海南島氣候舒適度評價中的應用及對比分析
間斷吸唾技術對根管治療患者舒適度的影響
纖維砂場地的性能及舒適度影響研究
海信Ai家中央空調亮相中國家電及消費電子博覽會
心理護理在血液透析護理中對患者舒適度的影響
美的中央空調再度獲評萬科集團2019年度“A級供應商”
復工了,辦公室的中央空調能開嗎
冷水機組安裝方法分析
分析地源熱泵技術在中央空調系統中的節能應用
淺談冷水機組機械式水流開關常見故障及解決對策
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合