?

基于事件驅動深度強化學習的建筑熱舒適控制

2024-03-05 19:47李竹傅啟明丁正凱劉璐張穎陳建平
計算機應用研究 2024年2期
關鍵詞:住宅建筑暖通空調

李竹 傅啟明 丁正凱 劉璐 張穎 陳建平

收稿日期:2023-06-14;修回日期:2023-08-21? 基金項目:國家重點研發計劃資助項目(2020YFC2006602);國家自然科學基金資助項目(62102278,62172324,61876217,61876121);江蘇省高等學校自然科學研究項目(21KJA520005);江蘇省重點研發計劃資助項目(BE2020026);江蘇省自然科學基金資助項目(BK20190942);江蘇省研究生教育教學改革項目

作者簡介:李竹(1997—),女,江蘇南京人,碩士研究生,主要研究方向為建筑智能化、強化學習;傅啟明(1985—),男(通信作者),江蘇淮安人,副教授,碩導,博士,主要研究方向為強化學習、模式識別、建筑節能(fqm_1@126.com);丁正凱(1996—),男,江蘇鹽城人,碩士,主要研究方向為建筑智能化、強化學習;劉璐(1998—),女,江蘇泰州人,碩士研究生,主要研究方向為建筑智能化、強化學習;張穎(1998—),女,江蘇鎮江人,碩士研究生,主要研究方向為建筑智能化、強化學習;陳建平(1963—),男,江蘇南京人,教授,俄羅斯工程院外籍院士,碩導,主要研究方向為建筑節能、智能信息處理.

摘? 要:住宅暖通空調系統通常耗用大量能源,同時也極大地影響居住者的熱舒適性。目前,強化學習廣泛應用于優化暖通空調系統,然而這一方法需要投入大量時間和數據資源。為了解決該問題,提出了一個新的基于事件驅動的馬爾可夫決策過程(event-driven Markov decision process,ED-MDP)框架,并在此基礎上,提出了基于事件驅動的深度確定性策略梯度(event-driven deep deterministic policy gradient,ED-DDPG)方法,通過事件觸發優化控制,結合強化學習算法求解最優控制策略。實驗結果顯示,與基準方法相比,ED-DDPG在提升學習速度和減少決策頻率方面表現出色,并在節能和維持熱舒適方面取得了顯著成果。經過實驗驗證,該方法在優化住宅暖通空調控制方面展現出強大的魯棒性和適應性。

關鍵詞:強化學習; 事件驅動; 暖通空調; 住宅建筑; 熱舒適

中圖分類號:TP391??? 文獻標志碼:A

文章編號:1001-3695(2024)02-031-0527-06

doi:10.19734/j.issn.1001-3695.2023.06.0273

Event-driven reinforcement learning thermal comfort controlfor residential buildings

Li Zhu1a,1b, Fu Qiming1a,1b, Ding Zhengkai1a,1b, Liu Lu1a,1b, Zhang Ying1a,1b, Chen Jianping1b,1c,2

(1. a.School of Electronic & Information Engineering, b.Jiangsu Provincial Key Laboratory of Intelligent Energy Saving in Buildings, c.College of Architecture & Urban Planning, Suzhou University of Science & Technology, Suzhou Jiangsu 215009, China; 2.Chongqing Industrial Big Data Innovation Center Co.,Ltd., Chongqing 400707, China)

Abstract:Residential HVAC systems typically constitute a substantial portion of energy consumption and exert a significant influence on occupants thermal comfort. At present, reinforcement learning is widely employed to optimize HVAC systems; however, this approach necessitates a substantial investment of time and data resources. To address this issue, this paper proposed a novel framework based on an event-driven Markov decision process(ED-MDP) and further introduce an event-driven deep deterministic policy gradient(ED-DDPG) method. This approach amalgamated reinforcement learning algorithms to deduce optimal control policies through event-triggered optimization. The experimental results demonstrate that ED-DDPG excels in enhancing learning speed and reducing decision frequency compared to the benchmark method. Furthermore, it attains notable accomplishments in energy conservation and sustaining thermal comfort. Following comprehensive testing and validation, the method showcases robustness and adaptability in optimizing residential HVAC control.

Key words:reinforcement learning; event-driven; HVAC; residential buildings; thermal comfort

0? 引言

隨著全球氣候變化日益加劇,降低建筑能耗和提高熱舒適顯得尤為重要。據國際能源署報告稱,住宅建筑占建筑能耗的最大份額,僅2020年消耗了全球能耗的35%[1]。而在建筑系統中,暖通空調系統的能耗最高,占比超過50%[2]。因此,降低暖通空調系統能耗已成為優化建筑控制的研究重點之一。然而,在追求建筑節能的同時,不能以犧牲熱舒適為代價。尤其是在疫情期間,人們在室內停留時間更長[3],因此,研究人員和相關從業者越來越關注如何在保持住宅建筑熱舒適性的前提下最大限度地減少能耗。

目前,大多數暖通空調系統采用RBC(rule-based control)、PID(proportional integral derivative)[4]、拉格拉朗日松弛法[5]和MPC(model predictive control)[6]等方法。然而,RBC在實際應用中存在一些限制,其控制精度有限,難以適應復雜的實際環境;PID控制器依賴于固定的參數,當環境變化時可能無法提供最佳的性能;盡管MPC控制效果可能更好,但是在實踐中構建一個簡化的且足夠準確的建筑模型并不容易。室內環境受到多種因素影響,如建筑結構、建筑布局、建筑內部熱量和室外環境等。當模型無法準確描述建筑熱動力學,并存在較大偏差時,控制性能可能會偏離預期[7]。

強化學習為暖通空調系統的控制帶來了新的機遇[8]。Mozer[9]最早將強化學習應用于住宅建筑;隨后,Chen等人[10]提出了一種Q學習方法,旨在最大限度地減少能耗和熱不適。但是對于具有大的狀態和動作空間的問題,簡單強化學習方法可能不實用。為了應對這一挑戰,深度Q網絡(deep Q-network,DQN)方法由于其簡單性和高數據效率而成為暖通空調控制的常見選擇[11]。然而,DQN需要對動作空間進行離散化,而足夠精細的離散化會成倍地增加動作的數量,使得控制額外參數變得越來越難。為了處理連續的動作空間,Fu等人[12]提出了基于深度確定性策略梯度(deep deterministic policy gradients,DDPG)方法,避免了動作空間的離散化。盡管強化學習在暖通空調系統中展現了巨大的潛力,但是傳統的強化學習方法在固定的時間步上進行學習,而暖通空調系統的控制涉及連續的時間步,這導致了一些問題。首先,由于連續時間步之間具有相似性,強化學習方法可能會導致數據冗余和低效利用。因為在連續時間步之間,環境可能保持相似的狀態,但傳統方法仍然需要進行策略更新和數據收集,造成了資源的浪費。其次,時間間隔的選擇對控制性能有重要影響。較長的時間間隔會降低控制的精度,可能會錯過重要的狀態變化和事件。而較短的時間間隔會導致過多的動作調整,增加了計算負擔,并且可能會引起過度頻繁的策略更新,降低了控制的穩定性和效率。此外,暖通空調系統的控制問題通常涉及高維狀態空間,這進一步增加了傳統強化學習方法的復雜性。高維狀態空間意味著智能體需要處理大量的狀態信息,導致計算資源和時間的增加。這使得傳統方法在實際應用中可能面臨著計算效率和學習性能的折中。因此,在有限資源情況下,如何提升學習速度和節省資源,以保證節能和熱舒適是必要的,這也是促使開展本文研究的直接原因。

事件驅動的思想在暖通空調領域一直備受關注。與傳統的周期性控制方法不同,它僅在事件發生時觸發控制行為。Wang等人[13]提出了一種基于事件驅動和機器學習的方法以提高運行效率,該方法優于傳統的固定時間序列方法。為了進一步簡化計算過程,Jia等人[14]為暖通空調控制問題建立了局部和全局事件,并通過實驗證明了其良好的性能。然而在實際問題中,通常不存在任何封閉形式的函數來準確量化所選擇的事件與事件驅動類控制策略性能之間的關系。因此,事件的構建具有較高的復雜性,并且對先驗知識有較高的依賴性。此外,事件驅動的方法可能只關注短期調整,而未充分考慮暖通空調系統的長期性能。

綜合以上分析,本文針對傳統強化學習在復雜環境中學習效率低以及頻繁操作等問題,提出了一種基于事件驅動的深度強化學習(event-driven deep reinforcement learning,ED-DRL)方法。如圖1所示,該方法基于“間歇性”概念,在重要事件發生后才作出決策,提高了數據的利用率。此外,ED-DRL 通過學習動態非線性特征(室內溫度),可以捕捉和利用一些不經常出現的狀態。最后,ED-DRL 還可以結合先驗知識,在事件定義期間分配變量權重,從而可以靈活地適應看不見的環境[15]。本文通過實驗證實了所提方法在優化暖通空調控制上的有效性,有望成為改進傳統強化學習控制方法的一種有力手段。

1? 基礎知識

強化學習是一種機器學習方法,它通過智能體與環境的交互學習如何作出決策以獲得最大的獎賞。強化學習通常使用馬爾可夫決策過程(Markov decision process,MDP)建模智能體與環境的交互過程,其具體表述為一個五元組:Γ(S,A,P,R,γ),其中S是有限狀態集,表示系統可能處于的所有狀態的集合;A是有限動作集,表示智能體可以采取的所有動作的集合;P是狀態轉移概率函數,表示狀態st下采取動作at后進入下一個狀態st+1的概率,即p(st+1|st,at),其中t表示時間步;R是獎賞函數,表示在狀態st下采取動作得到的即時獎賞,即R(st,at,st+1);γ是折扣因子。

如圖2所示,智能體在每個時間步t觀察到環境的狀態st,根據當前策略π選擇一個動作at,同時獲取到一個即時獎賞rt+1。環境會根據當前狀態和動作向智能體返回一個新狀態st+1和下一時刻的即時獎賞rt+2,這個過程一直持續到終止狀態。在每個時間步t,智能體根據當前狀態和歷史經驗來更新策略和價值函數,使回報的期望最大化。其中,回報被定義為折扣獎賞的總和[16],如式(1)所示。

G(t)=∑TK=tγk-tr(t)(1)

價值函數用于評估在給定策略下狀態或動作的價值,可以分為狀態價值函數和狀態動作價值函數。前者表示給定狀態st下的期望累積獎賞,如式(2)所示。

Vπ(s)=Euclid Math TwoEApπ[G(t)|S(t)=st](2)

為了進一步考慮動作空間對目標獎賞的影響,在策略π下,目標獎賞可以用狀態動作價值Q函數表示:

Qπ(s,a)=Eπ[G(t)|S(t)=s,A(t)=a](3)

然而,傳統的強化學習算法是基于時間序列的,智能體需要與環境不斷交互以收集數據并更新策略。這種交互方式可能需要更多的計算資源和更復雜的模型,以處理大量的狀態和動作,這在實際應用中可能受到一定的限制。因此,為了應對這些問題,需要引入更加高效和靈活的方法,以提高算法的性能和效果,并降低對計算資源的需求。

2? ED-DRL方法

為了應對強化學習方法在連續的學習過程中需要大量的交互數據和計算資源的問題,本文提出一種ED-DRL方法,該方法由三部分組成。首先,針對傳統強化學習的低效率問題,設計了一種新型的ED-MDP模型。通過事件驅動的思想,不再每個時間步都與環境交互,而是根據事件的發生來選擇合適的決策時機,避免了不必要的交互和計算資源的浪費。其次,為了進一步優化控制,根據先驗知識選擇重要的狀態變化作為事件,并設置合理的觸發條件。這樣,智能體可以針對重要事件進行更加精細的策略更新。通過先驗知識的指導,智能體能判斷關鍵事件,以更加高效地學習和適應環境的變化。最后,基于DDPG算法提出了一種結合事件驅動的ED-DDPG算法。ED-DDPG能夠更好地利用事件信息,在連續動作加速學習過程并提高學習效果。智能體在學習策略時,能夠根據事件的觸發條件有選擇地更新策略,從而進一步提高學習效率和性能。

2.1? ED-MDP框架設計

本文以多區域住宅建筑為基礎,討論了優化暖通空調系統的能耗和熱舒適度控制問題。為了建立框架,采用了離散的時間表示,每個時間步為半小時,用t=0,1,2,…表示。然而,傳統的強化學習方法在周期性和離散性學習過程中可能是低效的,尤其是在學習環境穩定的情況下。為了解決這個問題,本文采用了事件驅動方法來確定是否更新智能體的策略。因此,傳統的MDP模型可以被重新定義為一個具有事件驅動的六元組:Ι(S,A,P,R,γ,e)。其中,e代表事件。當觸發函數大于閾值時,智能體被觸發并執行策略,同時發生狀態轉移,轉移函數為p(st+1|st,a,e)[17]。具體來說,將多區域住宅建筑視為環境,ED-DRL視為智能體。此外,系統的狀態、動作、獎賞的設計如下:

a)狀態。狀態由環境所決定。對于智能體來說,擁有全面的狀態信息可以幫助其學習到更優的策略。然而,狀態空間過大會導致探索變得困難,因此需要定義適量的變量以表示環境信息。在本文中,考慮了室內環境狀態(每個房間人員占用率和室內溫度)、室外環境狀態(室外溫度)、影響能耗狀態(電價和舒適溫度上限)。即

S(t)=[Occz(t),Tz,in(t),Tout(t),λretail(t),Thigh(t)]

其中:Occz(t)表示房間內是否有人,z表示房間號。值得注意的是,舒適溫度上限Thigh(t)會根據人員占用率的變化而進行調整。當房間沒人時,為了節省能耗,可以擴大舒適溫度范圍;而當有人時,為了保證熱舒適,就恢復正常閾值。

b)動作。動作可以定義為暖通空調中的控制變量。本文將暖通空調的溫度設定點定義為動作,即A(t)=[Spz(t)]。

c)對于平衡能耗和熱舒適的多目標問題,本文將權重因子α作為調節參數,如式(4)所示。

R(t)=α∑tRcomfort(t′)-∑tt′=t-1λretail(t′)EHVAC(t′)(4)

其中:λretail(t′)表示零售價格,EHVAC(t′)表示能耗,Rcomfort(t′)表示溫度在舒適范圍內的獎賞。給定舒適范圍TH(t)∈[Tlow,Thigh(t)],當執行動作偏離閾值時,會增加負獎賞。具體定義如式(5)所示。

Rcomfort(t′)=0.5??????? if Tlow<Tin(t′)<Thigh(t′)

Thigh(t′)-Tin(t′)if Tin(t′)>Thigh(t′)

Tin(t′)-Tlowif Tin(t′)<Tlow(5)

傳統強化學習學習過程中,智能體觀察環境狀態、執行動作,環境給予回報,周期性地完成每一個學習步,而ED-DRL框架如圖3所示,狀態與獎賞仍然是周期性的,但是動作轉換成了非周期性的。值得注意的是,非周期性的動作不是指不執行動作,而是不進行策略更新及策略搜索,直接沿用上一動作。

2.2? 觸發規則設計

傳統的強化學習方法通常采用周期性的策略更新,這種方式在某些情況下是有效的強化學習,但是從學習效率的角度看,周期性的方式并不總是合適的。如果暖通空調系統在沒有受到外部干擾或受到干擾較小時,一般能夠按照預期的要求平穩運行。這種情況下,周期性的策略更新可以認為是資源的浪費。事件驅動方法正是為了緩解周期性采樣的缺點而提出的[18]。預先設置了一些事件,并根據觸發條件來決定是否需要進行策略搜索。如圖4所示,假設暖通空調系統環境較為穩定,則觸發條件不滿足,智能體無須進行策略搜索,繼續執行當前的動作;否則,需要更新策略。

在ED-MDP模型中,事件驅動的關鍵在于觸發規則的設計。當智能體觀測結束后,可以根據上一刻觀測和當前觀測的變化率判斷是否需要觸發事件。例如,當室內溫度超過某個閾值時,可以觸發事件,系統會自動調整溫度以保持舒適。通過預先設計事件,系統可以更輕易地捕捉影響響應環境變化的先驗因素,從而提高學習效率。

本文設計了狀態轉換事件與組合事件兩種事件類型。如果需要可以很容易地將其他類型的事件添加到ED-MDP框架中。

a)狀態轉換事件。某些狀態的變化對系統的運行有很大的影響??紤]到零售價格λretail(t)對能耗的直接影響,將λretail(t)的變化列為事件1[19]。假設當前零售價格為λretail(t)與上一時刻λretail(t′)不同時,則觸發事件1。事件1定義如式(6)所示。

epz[[λretail(t′),λretail(t)]|λretail(t′),λretail(t)∈[λlow,λhigh]](6)

其中:λretail(t)與λretail(t′)都在價格范圍[λlow,λhigh]內,λlow表示最低零售價格,λhigh表示最高零售價格。

同樣地,事件2定義如式(7)所示。

eoz[[Occ(t′),Occ(t)]|Occ(t′),Occ(t)∈[-1,1]](7)

其中:Occ(t)與Occ(t′)在[-1,1]內,-1表示室內沒人,1表示室內有人。

b)組合事件。當不同狀態同時變化時,可以定義為組合事件[20]??紤]熱舒適是優化的目標之一,且舒適度范圍根據人員的變化而變化,則將TH(t′)與Occz(t′)的組合列為事件3。事件3定義如式(8)所示。

eTHz[[THoz(t′),THoz(t)]|Occz(t′)∈[-1,1],

THoz(t′)∈[Tlow,Tχ(t′)]](8)

其中:設置了一個舒適度范圍THoz(t)∈[Tlow,Tχ(t′)],不同于TH(t),Tχ(t′)≤Thigh(t′),當即將要超出閾值時觸發事件3,能更好地控制溫度保持在舒適的范圍內。

2.3? ED-DDPG算法設計

為了解決上述的ED-MDP問題,基于通用的DDPG算法,本文提出了一種ED-DDPG算法。在溫度控制問題中,溫度被視為一個連續的物理量,因此需要使用連續動作來提供更精細的控制操作。DQN算法則主要用于處理離散動作空間,可能無法提供足夠的靈活性和精確度。相比之下,DDPG作為一種代表性的DRL方法,能夠有效解決連續性控制問題,通過深度神經網絡生成Q值或動作概率,并輸出連續的動作。

多區域暖通空調系統的完整控制框架如圖5所示。就網絡結構來說,ED-DDPG運用了Actor和Critic兩種類型的網絡。同時還延續DQN使用固定目標網絡的思想,每種網絡都包含目標網絡和估計網絡。傳統policy gradient方法采用隨機策略,每一次獲取動作需要對當前最優策略的分布進行采樣,而ED-DDPG采取確定性策略,Actor網絡的輸入是當前狀態,輸出的是一個確定性的動作。Critic網絡用來擬合狀態動作價值函數,它的輸入由當前狀態和Actor網絡生成的動作組成,輸出是當前狀態動作對Q值。這個Q值將被進一步用于更新Actor網絡的參數。

ED-DDPG算法具體解釋如下:

首先,隨機初始化Actor網絡和Critic網絡,兩個網絡的參數分別用θμ和θQ表示,同時也初始化它們的目標網絡[21],如式(9)和(10)所示。

Actor:PolicyNetonline:μθ(s|θμ)target:μθ′(s|θμ′)(9)

Critic:QNetonline:Qθ(s|θQ)target:Qθ′(s|θQ′)(10)

對于每次迭代,需初始化狀態,然后判斷是否觸發事件。如果不觸發事件,則繼續執行這個動作;如果觸發事件,則根據當前Actor網絡選擇控制動作,即溫度設定點,同時將噪聲添加到所選擇的動作以促進對算法的探索。接下來,以t為控制間隔,執行所選動作,并觀察得到的獎賞和下一個狀態,將狀態轉移序列{S(t),Spz(t),R(t),S(t+1)}存放在經驗緩存池中,用于進一步訓練。當收集到足夠數量的狀態轉移序列時,隨機選擇一小批狀態轉移序列來更新Actor網絡和Critic網絡的參數,更新目標y(i)(t)如式(11)所示。

y(i)(t)=R(i)(t)+γQ′(S(i)(t+1),μ′(S(i)(t+1)|θμ′)|θQ′)(11)

其中:i表示當前序列號。Critic網絡的損失函數被定義為目標Q值和當前Q值之間的均方誤差,如式(12)所示。

L(θQ)=1M∑t[y(i)(t)-Q(S(i)(t),μ(S(i)(t)|θμ|θQ)]2(12)

設置學習率為ηQ,利用最小化損失函數更新參數θQ,如式(13)所示。

θQ=θQ-ηQθμL(θQ)(13)

Actor網絡根據確定性策略梯度進行更新參數θμ,如式(14)和(15)所示。

θμJ(θ)=1M∑t[aQ(S(i)(t),μ(S(i)(t)|θμ)|θQ) θμμ(S(i)(t)|θμ)](14)

θμ=θμ-ημJ(15)

同時, 為避免計算網絡梯度時的振蕩和發散問題,按照軟更新(soft update)方式更新兩個目標網絡參數,可以保證參數波動較小且易于收斂, 如式(16)所示。

θQ′←τθQ+(1-τ)θQ′

θμ′←τθμ+(1-τ)θμ′(16)

3? 實驗分析

3.1? 仿真設置

本文使用了一個有五個房間的三人住宅模型[22],其中臥室(房間1和2)和客廳(房間3)為訓練和測試暖通空調的功能房間。而廁所和廚房只在特定情況下占用,因此不在考慮之列。住宅的占用率根據一周中的時間而變化。圖6展示了人員活動規律,人員根據工作日和周末產生了不同的行動軌跡。

天氣數據來自氣象局[23],如圖7所示,橫軸表示訓練或測試的時間步,縱軸表示相應的室外溫度。因為研究的重點是制冷,所以選擇較為炎熱的7月和8月的天氣數據。其中7月用于訓練,8月用于測試。此外,還創建了一個模擬電價序列,其中λlow=0.5,λhigh=1.5, 電價每四小時在高低值之間交替。另外,本文定義有人時Tlow=24,Thigh(t)=26,沒人時Tlow=24,Thigh(t)=28。

3.2? 網絡參數設置

實驗實現方法基于Python以及PyTorch框架,表1列出了ED-DDPG中使用的參數。在Actor網絡的輸出層,使用的激活函數是tanh,確保輸出值在[-1,1]。表2給出了DQN中使用的參數,動作空間從23~28 ℃,以0.5℃為步長離散化,從而導致每個房間11個可能的動作,3個房間暖通空調總共1 331個動作組合。

3.3? 參數影響分析

為了深入研究ED-DDPG算法在不同情況下對模型參數的敏感性,進行了詳細的實驗分析,重點關注神經網絡參數、獎賞權重參數和事件觸發閾值。通過觀察這些參數對ED-DDPG算法學習性能的影響,選擇最合適的參數組合,以實現最優的算法性能。

在圖8中,橫軸表示回合數,縱軸表示該方法獲得的平均獎賞。圖8(a)展示了不同折扣因子下ED-DDPG的收斂速度。折扣因子決定了智能體對未來獎勵的重視程度。觀察圖8(a)可以發現,當折扣因子為0.9時,算法收斂得最快,同時在50回合后獲得了最高的獎賞。但是,當折扣因子為0.99時,算法可能會過度探索,無法及時響應當前的獎賞信號,因此50回合后的獎賞明顯下降。圖8(b)展示了不同批量下ED-DDPG的收斂速度,批量指每次輸入神經網絡的樣本數量??梢钥吹?,當批量為128時,獎賞明顯高于其他參數,因為較大的批量可以減少數據讀取和內存訪問的次數。圖8(c)展示了不同學習率下ED-DDPG的收斂速度。當學習率為0.001時,該算法可以收斂到最佳性能。但是,當學習率過大(0.01)或過?。?.000 1)時,算法無法收斂到最佳性能。圖8(d)展示了不同衰減率下ED-DDPG的收斂速度,衰減率用于控制學習率的變化速度。當衰減率為0.005時,算法收斂得最快。然而,當衰減率過大(0.05)或過?。?.000 5)時,收斂速度和獎賞大小都不如0.005。

獎賞權重參數在很大程度上影響能耗和熱舒適性之間的權衡。為了更好地平衡這兩個因素,在其他參數保持相同的情況下,本文對參數α進行了研究,范圍為0.1~1。在圖9中,橫軸表示采用不同權重設置時的熱舒適違反情況,縱軸表示相應的能耗。這里熱舒適違反指所有時間步中超出熱舒適區域的比率。當α=0.9時,產生的能耗最高,約為15.82;當α=0.6時,熱舒適違反最高,約為9.834%;而當α=1時,能耗約為15.04,熱舒適違反約為2.845%,獎賞權重對于能耗和熱舒適性的平衡達到了最佳狀態。

在觸發規則設計中,本文定義了三個事件。事件1和2是相對簡單的觸發條件,分別根據價格和房間占用率的變化來觸發。而在事件3中,智能體根據三個房間的占用率與熱舒適閾值的變化來觸發。具體來說,當有人出現在房間內時,智能體會根據相應房間的熱舒適閾值來判斷是否觸發事件。不同的觸發閾值選擇會導致不同的熱舒適效果。為了選擇合適的觸發閾值,進行了五組實驗,并在表3中列出了不同情況下的設置。

在圖10(a)(b)中,橫軸對應了五個例子,縱軸分別表示相應的熱舒適違反和能耗。從圖10中可以觀察到,無論是在熱舒適性還是節能方面,c3都保持在較高水平。這可能是因為觸發閾值恰好等于熱舒適閾值,智能體能夠更好地判斷環境的舒適程度。從c4和c5的結果可以看出,如果觸發閾值范圍較小,可能會導致頻繁的變動,使智能體無法學習到關鍵的信息,從而無法有效地平衡熱舒適性和能耗,尤其是在c5中,能耗最高。而c1和c2的結果顯示,即使room1或room3與c3的設置相同,也不能很好地權衡兩個目標。尤其是在c1中,room1的熱舒適違反最高??傮w而言,如果選擇了合理的參數配置,就可以保證ED-DDPG逐漸收斂至一個較好的性能。

3.4? 實驗結果分析

3.4.1? 收斂性分析

本文對比了實現暖通空調優化控制的不同方法,包括ED-DDPG、DDPG、DQN和TD3(twin delayed deep deterministic policy gradient)。DQN、DDPG和TD3都是深度強化學習算法,針對不同類型的問題和動作空間進行了設計和改進,在建筑領域受到廣泛關注,特別是DDPG在該領域更為流行。DQN適用于解決離散動作空間問題,通過Q值函數輸出每個動作的Q值,并使用貪婪策略選擇動作。而DDPG和TD3適用于連續動作空間問題,通過策略函數輸出連續動作。TD3是在DDPG的基礎上引入了雙Q網絡和目標策略延遲更新等改進,以提高訓練穩定性和性能。盡管TD3在某些場景下可能表現更優,但是相對于TD3,DDPG算法更容易實現和調整,并且在多個領域已經證明了其有效性。因此,本文選擇采用DDPG作為主要的深度強化學習算法,并且大部分實驗都以DDPG作為比較基準。

圖11展示了這些方法的收斂性,每種方法訓練了三次,用相同顏色但不同線條表示。通過圖11可以觀察到,ED-DDPG在大約40回合時就趨于收斂,比其他方法收斂速度更快。這是因為ED-DDPG利用了事件驅動的優化控制,智能體在重要事件發生時選擇更新策略,避免了在連續時間步上進行不必要的策略更新和數據收集,從而加快了學習過程。 此外,雖然TD3與DDPG在后期趨近于ED-DDPG,ED-DDPG相對于其他方法獲得了相對更高的平均獎賞。因為ED-DDPG能夠靈活地適應不同的環境和情況,并在重要事件發生時選擇最佳的策略更新時機。這使得ED-DDPG能夠更好地學習到環境的動態變化,并根據事件判斷哪些因素能耗和熱舒適性的影響最為關鍵,證明了ED-DDPG在優化暖通空調控制上達到了更好的性能。

3.4.2? 熱舒適與能耗分析

為了進一步驗證ED-DDPG方法的優越性,本文不僅與強化學習方法進行了對比,還選擇了RBC方法作為對照。在RBC方法中,制定了一組規則,即在有人時將溫度設定為24℃,在無人時將溫度設定為28℃。表4對比了ED-DDPG與其他基準方法在能耗和熱舒適性方面的效果??梢杂^察到,在所有方法中,雖然TD3和RBC在熱舒適性方面表現較好,但是ED-DDPG方法在實現最低能耗的同時,保持了較高的熱舒適性。具體來說,相比于TD3方法,ED-DDPG的能耗略低約0.3單位,而與RBC方法相比,其能耗較低約0.8單位。從熱舒適與能耗平衡的角度來看,ED-DDPG是最優的選擇。此外,圖12展示了7月31日三個房間的室內溫度在不同方法下的對比,橫軸表示一天中的時間,縱軸表示各房間的室內溫度。相比于DDPG,可以看出ED-DDPG更為平緩,只有環境突然變化時才會波動。這是因為ED-DDPG方法無須固定時間步內更新策略,而是根據事件自主調整時間間隔,所以不僅不會錯過重要的環境變化,而且還提高了學習的穩定性。盡管ED-DDPG、TD3和RBC方法都能夠在三個房間中良好地維持熱舒適性,然而從節能效果的角度來看,ED-DDPG方法更為優越。

傳統強化學習方法在每個時間步都需要與環境進行交互,以收集數據并進行策略更新,這導致學習過程變得低效。而ED-DDPG方法在重要事件發生后才作出決策,通過減少決策頻率,避免了在連續時間步上頻繁進行策略更新,從而節省了計算資源并延長設備的使用壽命。表5列出了ED-DDPG與DDPG方法在決策數量上的對比??梢郧宄乜吹?,ED-DDPG在三個房間中的決策數量明顯少于DDPG。

3.4.3? 測試

為了驗證ED-DDPG方法的魯棒性和擴展性,基于之前訓練數據,又進行了測試實驗。根據表6可以看出,ED-DDPG方法在維持熱舒適與能耗之間達到了最佳平衡。盡管RBC方法在熱舒適方面違反最低,但卻導致了較高的能耗。另一方面,雖然其他強化學習方法的能耗略低于ED-DDPG,但卻存在很高的熱舒適違反率,這意味著它們在實際應用中可能無法滿足用戶對熱舒適的需求。相比之下,ED-DDPG在能耗和熱舒適平衡方面表現更為出色,是未來更具實踐潛力的選擇。此外,從表7可以看出,ED-DDPG的決策率較DDPG明顯降低,意味著通過減少決策次數能夠節省計算資源的消耗。因此,可以得出結論,ED-DDPG在節省計算資源消耗、能耗與熱舒適方面都具有明顯的優越性。

4? 結束語

本文將事件驅動引入經典的MDP框架,提出一種新的結合事件驅動的ED-MDP框架,以應對環境中規律性的變化。通過定義和識別不同的事件,智能體無須每個時間步都進行策略更新,提高了資源利用率。在此基礎上,提出一種新的ED-DDPG方法,并用于優化暖通空調的控制。實驗結果表明,相比于DDPG、DQN和RBC方法,ED-DDPG能夠更好地平衡能耗和熱舒適之間的關系,在減少決策率的同時提升了學習速度,證明了ED-DDPG方法在暖通空調優化控制方面的優越性。在未來的研究中,值得探索一種更為有效的事件驅動和數據驅動的交互模式,使這兩種優化方式從相互獨立變為相互合作。通過這種方式可以持續優化事件觸發的準確性,并提高數據處理和分析的效率,為解決優化問題提供創新的解決方案。

參考文獻:

[1]Hamilton I, Rapf O, Kockat D J, et al. Global status report for buil-dings and construction[R]. Nairobi, Kenya: United Nations Environmental Programme, 2020.

[2]Li Wenqiang, Gong Guangcai, Fan Houhua, et al. A clustering-based approach for“cross-scale”load prediction on building level in HVAC systems[J]. Applied Energy, 2021,282: 116223.[3]Qi Hongchao, Xiao Shuang, Shi Runye, et al. COVID-19 transmission in Mainland China is associated with temperature and humidity: a time-series analysis[J]. Science of the Total Environment, 2020,728: 138778.

[4]Wemhoff A P. Calibration of HVAC equipment PID coefficients for energy conservation[J]. Energy and Buildings, 2012,45: 60-66.

[5]Xu Zhanbo, Liu Shuo, Hu Guoqiang, et al. Optimal coordination of air conditioning system and personal fans for building energy efficiency improvement[J]. Energy and Buildings, 2017,141: 308-320.

[6]Eini R, Abdelwahed S. A neural network-based model predictive control approach for buildings comfort management[C]//Proc of IEEE International Smart Cities Conference. Piscataway, NJ: IEEE Press, 2020.

[7]Fu Qiming, Chen Xiyao, Ma Shuai, et al. Optimal control method of HVAC based on multi-agent deep reinforcement learning[J]. Energy and Buildings, 2022, 270: 112284.

[8]Fu Qiming, Han Zhicong, Chen Jianping, et al. Applications of reinforcement learning for building energy efficiency control: a review[J]. Journal of Building Engineering, 2022,50: 104165.

[9]Mozer M C. The neural network house: an environment that adapts to its inhabitants[C]//Proc of AAAI Spring Symposium. Palo Alto,CA: AAAI Press, 1998.

[10]Chen Yujiao, Norford L K, Samuelson H W, et al. Optimal control of HVAC and window systems for natural ventilation through reinforcement learning[J]. Energy and Buildings, 2018,169: 195-205.

[11]李可, 傅啟明, 陳建平, 等. 基于分類 DQN 的建筑能耗預測[J]. 計算機系統應用, 2022,31(10): 156-165. (Li Ke, Fu Qiming, Chen Jianping, et al. Building energy consumption prediction based on classification DQN[J]. Computer Systems Applications, 2022, 31(10): 156-165.)

[12]Fu Qiming, Liu Lu, Zhao Lifan, et al. Predictive control of power demand peak regulation based on deep reinforcement learning[J]. Journal of Building Engineering, 2023,75: 106992.

[13]Wang Junqi,Liu Rundong,Zhang Linfeng,et al. Triggering optimal control of air conditioning systems by event-driven mechanism: comparing direct and indirect approaches[J].Energies,2019,12(20):3863.

[14]Jia Qingshan, Wu Junjie, Wu Zijian, et al. Event-based HVAC control-a complexity-based approach[J]. IEEE Trans on Automation Science and Engineering, 2018,15(4): 1909-1919.

[15]Ran Yongyi, Zhou Xin, Hu Han, et al. Optimizing data center energy efficiency via event-driven deep reinforcement learning[J]. IEEE Trans on Services Computing, 2022,16(2): 1296-1309.

[16]Sutton R S, Barto A G. Reinforcement learning: an introduction[M]. Cambridge,MA: MIT Press, 2018.

[17]張文旭, 馬磊, 王曉東. 基于事件驅動的多智能體強化學習研究[J]. 智能系統學報, 2017,12(1): 82-87. (Zhang Wenxu, Ma Lei, Wang Xiaodong. Reinforcement learning for event-triggered multi-agent systems[J]. CAAI Trans on Intelligent Systems, 2017,12(1): 82-87.)

[18]徐鵬, 謝廣明, 文家燕, 等. 事件驅動的強化學習多智能體編隊控制[J]. 智能系統學報, 2019,14(1): 93-98. (Xu Peng, Xie Guangming, Wen Jiayan, et al. Event-driven reinforcement learning for multi-intelligent body formation control[J]. Journal of Intelligent Systems, 2019,14(1): 93-98.)

[19]Xu Zhanbo, Hu Guoqiang, Spanos C J, et al. PMV-based event-triggered mechanism for building energy management under uncertainties[J]. Energy and Buildings, 2017,152: 73-85.

[20]Wu Zijian, Jia Qingshan, Guan Xiaohong. Optimal control of multiroom HVAC system: an event-based approach[J]. IEEE Trans on Control Systems Technology, 2015,24(2):662-669.

[21]李永福, 周發濤, 黃龍旺, 等. 基于深度強化學習的網聯車輛隊列縱向控制[J/OL]. 控制與決策.(2023-03-20).https://doi.org/10.13195/j.kzyjc.2022.2094. (Li Yongfu, Zhou Fatao, Huang Longwang, et al. Deep reinforcement learning-based longitudinal control of networked vehicle queues[J/OL]. Control and Decision(2023-03-20).https://doi.org/10.13195/j.kzyjc.2022.2094.)

[22]Deng Jie, Yao Runming, Yu Wei, et al. Effectiveness of the thermal mass of external walls on residential buildings for part-time part-space heating and cooling using the state-space method[J]. Energy and Buildings, 2019, 190: 155-171.

[23]China Meteorological Bureau, Tsinghua University. China standard weather data for analyzing building thermal conditions[S]. Beijing: China Architecture and Building Press, 2005.

猜你喜歡
住宅建筑暖通空調
淺析現代住宅建筑設計中存在的問題
住宅建筑節能設計初探
某高層住宅建筑設計構思及相關要素分析
暖通空調節能設計在工程中應用及效果分析
住宅建筑交通核設計探析
暖通空調的恒溫恒濕設計
綠色建筑暖通空調設計的技術分析
簡論鋼管砼柱特點及其在住宅建筑中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合