基于分類DQN的建筑能耗預測①

2022-11-07 09:07傅啟明陳建平王蘊哲吳宏杰

計算機系統應用 2022年10期

關鍵詞：類別能耗精度

李可,傅啟明,陳建平,陸悠,王蘊哲,吳宏杰

1(蘇州科技大學電子與信息工程學院,蘇州 215009)

2(蘇州科技大學江蘇省建筑智慧節能重點實驗室,蘇州 215009)

3(蘇州科技大學建筑與城市規劃學院,蘇州 215009)

4(重慶工業大數據創新中心有限公司,重慶 400707)

近年來,建筑已逐漸成為全球能耗占比最高的領域[1],建筑能耗的增加不僅提升了二氧化碳的排放量,還加劇了能源危機及溫室效應.因此,提升建筑能效、實現節能減排,進一步實現建筑碳中和是社會發展的重要任務.建筑能耗預測作為提升建筑能效的重要組成部分,在提高電網效率[2],改善需求響應[3],評估建筑設計方案及建筑運營策略等方面發揮著重要作用[4].

建筑能耗預測的解決方法可大致分為兩類: 一類是工程方法,另一類是數據驅動方法.其中,工程方法也稱白盒方法,其利用建筑傳熱原理和物理學方程對建筑系統進行分析建模,從而計算建筑的能源消耗[5].然而,這種方法需要詳細的建筑結構信息和環境參數.一旦仿真設備參數不夠準確,將會導致較高的預測誤差[6].相比之下,數據驅動方法無需了解建筑內部信息,可在使用歷史數據的情況下進行能耗預測.不僅如此,先前的研究已經表明,數據驅動方法可借助其解決非線性問題的能力獲得優于工程方法的預測精度[7].

一般而言,數據驅動方法可分為機器學習,深度學習兩類.在機器學習領域,Li 等人[8]采用支持向量機(support vector machine,SVM)構建了辦公建筑冷負荷能耗預測模型,其預測結果的均方根誤差和平均相對誤差約為BP 神經網絡(back propagation neural network,BPNN)的50%,驗證了SVM 算法在能耗預測領域的優越性.Wang 等人[9]使用集成模型隨機森林(random forest,RF)進行每小時的建筑能耗預測,并將其與傳統的機器學習算法回歸樹(regression tree,RT)及支持向量回歸(support vector regression,SVR)進行比較.實驗結果表明,RF 可以取得更高的預測精度,具有更強的預測能力.文獻[10]提出了一種基于決策樹(decision tree,DT)的能耗預測模型,該方法可以準確分類并預測建筑能耗水平,同時自動排序影響建筑能耗的關鍵因素.與其他機器學習方法相比,該方法的競爭優勢在于預測結果具備較強的可解釋性.

然而,與深度學習相比,傳統機器學習的特征提取能力稍顯欠缺,其僅能挖掘出輸入數據的淺層特征.而深度學習具有多個處理層,可將輸入數據進行多次轉換,獲取數據內部潛藏的深層特征[11].因此,深度學習在建筑能耗預測領域受到了廣泛關注.Fan 等人[12]將無監督學習提取的特征作為網絡輸入,而后利用深度神經網絡 (deep neural networks,DNN)預測建筑冷負荷,發現可以顯著提高預測精度.文獻[13]則提出了一種深度遞歸神經網絡 (recursive neural network,RNN)預測模型,以小時為單位預測辦公建筑的能耗,與傳統的多層感知器 (multilayer perceptron,MLP)相比,其預測的相對誤差較低.

深度強化學習作為深度學習的一個重要分支,其將深度學習的感知能力與強化學習的決策能力相結合,近年來在機器人,自動駕駛等方向都獲得了快速發展[14,15].而在建筑領域,深度強化學習常被用做優化控制,例如Zhang 等人[16]將深度強化學習算法用于HVAC系統控制,實現15%的供熱節能.Kazmi 等人[17]則利用深度強化學習控制建筑的空間加熱,并通過實驗結果證明其性能優于基于規則的控制方法.但深度強化學習的能力遠不止于此,它可將能耗預測建模為高維連續狀態空間中的優化問題進行求解,這吸引了眾多研究者的關注.Liu 等人[18]探究了深度確定性策略梯度 (deep deterministic policy gradient,DDPG)算法與異步優勢行動者評論家算法(asynchronous advantage actor-critic,A3C),并將其與BPNN,RF 等算法進行比較,發現DDPG 算法建筑能耗預測精度最高.Zhang等人[19]則在DDPG 的基礎上,添加了自適應早期預測方法及獎賞激勵機制,進一步提高預測精度并確保算法的收斂性.但現有的研究多關注于DDPG 算法,而忽視了經典的DQN.一個可能的原因是DQN 算法只能處理離散動作空間問題.但和DDPG 相比,其優勢在于可以花費更少的訓練時間.

為在少于DQN 算法訓練時間的情況下,取得優于DDPG 算法的預測精度,本文提出一種K-DQN 算法框架.其將深度Q 網絡 (deep Q-network,DQN)算法與K 近鄰 (K-nearest neighbor,KNN)分類器相結合,構建縮減動作空間進行能耗預測.具體而言,K-DQN算法將預測下一時刻的能耗轉換為動作選擇的形式,并針對動作空間大而導致的算法收斂慢及精度低的問題,將原始動作空間平分為多個子動作空間,并將每個子動作空間對應的狀態全部劃分為一類,以此訓練KNN 分類器.而后在借助KNN 分類器的基礎上,對不同類別相同次序的動作進行統一表示,從而將原始動作空間映射至單一子動作空間,實現對原始動作空間的縮減,使算法更易尋找最優值.此外,考慮到縮減的動作空間內每個動作具有多重含義,故將原始狀態及其對應的類別概率相結合,構建出新狀態作為網絡輸入,幫助確定動作含義并提高算法的收斂速率及預測精度.實驗結果表明,K-DQN 算法在建筑能耗預測方面優于DQN、DDPG 算法,且花費更少的訓練時間.

1 理論基礎

1.1 深度強化學習

1.1.1 強化學習

強化學習是機器學習領域的一個重要分支,它與監督學習,無監督學習不同,其目標是最大化Agent 獲得的累積折扣獎賞的期望[20].通常,強化學習問題可以被建模為馬爾科夫決策過程進行求解.一個馬爾科夫決策過程可以表示為一個五元組 (S,A,P,R,γ),其中S表示狀態集合,A表示動作集合,P為轉移函數,R為獎賞函數,γ為折扣因子.五元組可看作是Agent 與環境進行交互產生的結果.在一次交互過程中,Agent 觀察到狀態st,根據策略 π選擇動作at,并通過轉移函數P(st+1|st,at)轉移到狀態st+1,獲得立即獎賞rt+1.此處,策略 π的具體含義為狀態空間S到動作空間A的映射,P(st+1|st,at)則表示 Agent 在狀態st下執行動作at,轉移到下一狀態st+1的概率.

Agent 的最終目標是最大化累積折扣獎賞的期望,而這一目標可通過找尋最優策略實現.策略 π可利用動作價值函數與最優動作價值函數進行評估與改進,從而產生最優策略 π*,實現最終目標.其中,動作價值函數Q表示在狀態s下執行動作a的累計折扣獎賞的期望:

最優動作價值函數則表示在狀態s下執行最優動作時的累計折扣獎賞的期望為:

1.1.2 深度Q 網絡

傳統的強化學習算法,例如Q-learning,SARSA[21,22],只能解決狀態空間較小或離散的相關問題.雖然采用函數逼近等方式可以打破這一限制,但這些方法通常不夠穩定,不易收斂[23].而深度Q 網絡利用經驗回放機制和目標網絡解決了這一問題.

經驗回放機制,即將Agent 與環境交互的數據樣本存入經驗池中,而后從經驗池隨機采樣訓練神經網絡.這種方式破壞了輸入數據之間的相關性,使神經網絡更易收斂.其次,DQN 新構建目標Q網絡用于Q網絡的更新.具體而言,在網絡第i次迭代時,Q網絡的loss函數為:

其中,(s,a,r,s′)為一個經驗池樣本,目標Q網絡的輸出值為Q網絡輸出值為Q(s,a|θi).目標Q網絡的引進一定程度上降低了Q值和目標Q值的相關性,提升了DQN 算法的穩定性.此外,目標Q網絡的更新依賴于Q網絡參數.每過J步,Q網絡的所有參數將復制到目標Q網絡中,完成目標Q網絡的更新.

1.2 K 近鄰算法

KNN 是一種基本的機器學習方法,該算法用作分類時,以樣本的特征向量為輸入,輸出樣本的類別.其基本原理如下: 對于給定的新樣本,計算其與所有訓練樣本的距離,而后找出距離最近的K個點投票得出分類結果.K值不同,其分類的最終結果也不同.

K值選擇的問題本質是一個超參數問題.選擇較小K值時,算法的近似誤差會降低,但估計誤差會增大.同時,算法結果對近鄰的樣本點會非常敏感[24].一旦近鄰樣本為噪聲,分類結果就會出錯.而選擇較大K值時,算法的估計誤差會減少,但近似誤差會增大.與樣本點相關性較弱的其他樣本可能也會參與投票,降低分類結果的正確性.故在實際應用中,常采用交叉驗證法選擇最優K值.

2 基于K-DQN 算法的能耗預測模型

2.1 K-DQN 算法的能耗預測模型

圖1 展示了K-DQN 算法進行建筑能耗預測的模型框架.在數據預處理階段,能耗數據按日期劃分為訓練集和測試集,并采用異常值檢測方法對訓練集數據進行異常值檢測.同時,在考慮能耗數據日期屬性及所屬時刻兩種因素的前提下,采用均值法對異常能耗數據進行替換.特征提取是選取一定數量的歷史能耗數據作為特征的過程.可將待預測時刻的能耗當作標簽,待預測時刻前的一定數量的歷史能耗當作特征,對替換異常值后訓練集數據進行重構,生成新的樣本及標簽.

圖1 K-DQN 算法能耗預測模型框架

在訓練過程中,歸一化后的新樣本首先傳入KDQN 模塊中的KNN 分類器對其進行訓練.待KNN 分類器訓練完成后,該樣本重新輸入至分類器獲取分類概率.此時,再將分類概率與歸一化后的新樣本進行合并,構建出t時刻的狀態st.Q網絡將st看作輸入,計算動作空間下所有動作的Q值.同理,利用分類概率和歸一化樣本構建狀態st+1傳入目標Q網絡,計算所有動作的目標Q值.利用目標Q值與Q值構建損失函數進行Q網絡的更新.

在測試過程中,歸一化后的新樣本首先傳入訓練完成的KNN 分類器獲取分類概率,而后與分類概率組成新狀態傳入Q網絡.Q網絡計算出動作空間下的所有動作的Q值,選取最優動作作為預測的能耗.

2.2 數據預處理

研究采用上海某一辦公建筑能耗數據,數據采集范圍為2015.1.1 至2016.12.31,采集頻率為1 h/次.此外,由于2016.2.29 全天數據缺失,故總數據個數為17 520.

由于建筑內部可能存在電表混用或空調末端接入插座的現象,故需采用局部異常因子 (local outlier factor,LOF)算法和均值法對能耗數據分別進行異常值的檢測和替換,以提高能耗預測的準確性.LOF是基于密度的高精度離群點檢測算法[25],其計算每個樣本對其鄰域的局部密度偏差 (即LOF值),以發現可能的異常值.LOF值計算公式如式(4):

其中,ρk(P)表示點P的局部可達密度,即點P第k鄰域內的所有點到P點的平均可達距離.Nk(P)表示點P的第k距離鄰域.

直接丟棄異常數據會破壞能耗數據的時序周期性,故采用均值法進行異常值的替換.異常值的替換考慮日期和時刻兩種因素.具體而言,若工作日的能耗數據存在異常,則需將前一個工作日相同時刻的正常能耗和后一個工作日相同時刻的正常能耗求和取平均,替換異常數據.若節假日的能耗數據存在異常,則利用節假日相同時刻的正常能耗進行替換.此外,研究設定訓練集數據的日期范圍為2015.1.1 至2016.10.31,即異常值的檢測和替換操作的數據均在此日期范圍,不使用測試集的任何信息.

替換異常值后的訓練集數據需進行特征提取構建新樣本和標簽,方能傳入K-DQN 模塊.例如,若預測t時刻能耗,則選擇t-h至t-1時刻h個歷史能耗數據作為特征.此時(E～t-h,E～t-h-1,···,E～t-1)看作樣本,Et看作其對應的標簽.在訓練集數據總數為M時,可將訓練集重構為M-h個新樣本和標簽.同時,為了降低不同特征間的影響,提高能耗預測精度,對新樣本按特征進行歸一化操作:

其中,和分別表示第i樣本j特征的原始值和歸一化值,μ(j)和σ(j)分別表示j特征的均值和方差.

2.3 MDP 建模

使用K-DQN 進行能耗預測時,需將能耗預測問題轉化為MDP 過程進行求解,并對狀態,動作,獎賞等進行設置.

K-DQN 算法的MDP 建模本質上是DQN 算法建模的一種改進.在使用DQN 進行能耗預測時,狀態由一定數量的歷史能耗數據組成,動作則根據訓練集能耗數據范圍進行設置.最低的能耗值可看作第一個動作,而最高的能耗值為最后一個動作.具體而言,假設歷史能耗數據范圍為[x,z],在步長為g的情況下,其動作空間大小為{x,x+g,x+2g,···,z},動作總個數為(zx)/g+1.

而DQN 算法的MDP 建模缺陷在于,一旦動作空間增大,動作總個數則隨之增長.Q網絡需計算更多動作的Q值,從而影響該算法進行能耗預測的精度和收斂速度.相比之下,K-DQN 算法采用縮減動作空間的方式進行MDP 建模,通過減少原有動作空間大小及動作總個數,提升能耗預測的精度及收斂速度.現以能耗數據范圍[10,59],步長為1 為例進行說明.如圖2 所示,原始動作空間X共包含50 個動作,且其內部動作值等同于Agent 預測的能耗值.實際上,原始動作空間X的動作值均可寫作在某一動作值基礎上進行增加的形式.轉換結果如圖2 中間部分,此時動作空間X轉換為動作空間Y,且動作空間大小未發生改變.

圖2 縮減動作空間示例

對動作空間Y而言,每行可看作一個子動作空間.若將每一子動作空間對應的狀態劃分為一類,則動作空間Y對應的所有狀態被劃分為5 類,即C0,C1,C2,C3,C4.此時,不同類別相同次序的動作可表示為:

其中,N表示狀態類別總個數,i表示第i類狀態,j表示第j個動作,x,z為能耗數據范圍的最低值10 和最高值59.由此動作空間Y可被動作空間Z替代,總動作個數由50 減少至10.更進一步考慮步長為g時的情況,此時不同類別相同次序的動作可表示為:

最終,N×n個總動作可減少至n,實現原始動作空間的縮減.

此外,由于縮減后的動作空間是由不同類別相同次序的動作組合而成,因此每個動作具有多重含義.例如,縮減后的動作空間第一個動作可表示每一個子動作空間的第一個動作.映射至神經網絡中,則意味著一個神經元具備多種含義,這影響了Q網絡的收斂速率及算法的預測精度.

為解決上述問題,我們將類別概率與歸一化后的新樣本進行組合,構造出狀態st傳入至Q網絡中.在訓練過程中,狀態類別概率可以確定當前狀態類別,從而將縮減后的動作空間映射至唯一確定的子動作空間.如圖3 所示,當狀態類別為C0時,縮減后的動作空間可看作是第一個子動作空間,從而確定每一動作的具體含義,提高Q網絡的收斂速率及算法預測精度.

圖3 縮減動作空間與原始動作空間的映射

K-DQN 算法利用縮減的動作空間進行能耗預測時,狀態st由歸一化樣本及其對應的各類別的概率組成,表示為其中,表示歸一化處理后的歷史能耗數據樣本,Pi表示該樣本被判斷為i類的概率.動作at表示Agent 在t時刻的預測能耗值,rt為t時刻Agent 獲得的立即獎賞,具體表示為:

其中,Et表示t時刻的真實能耗.由式(8)可知,獎賞越接近0,Agent 預測能耗的誤差越低.

2.4 K-DQN 算法流程

將能耗預測問題建模為MDP 模型后,便可利用K-DQN 算法進行建筑能耗的預測.具體來說,首先按照日期將數據集劃分為訓練集和測試集,并對其進行異常值的檢測和替換.而后根據訓練集能耗范圍及設定的狀態類別總數N,將原始動作空間的動作總個數縮減N倍,構建縮減的動作空間.其次,對訓練集數據進行特征提取及歸一化,生成新樣本及標簽訓練KNN 分類器.

K-DQN 算法在訓練時,每回合從經驗池中隨機選擇樣本作為原始狀態,同時利用KNN 分類器獲取該樣本的各類別概率,并將二者結合構建新狀態st傳入Q網絡.同理,構建新狀態st+1傳入目標Q網絡.而后利用兩個網絡各自輸出的結果,構建損失函數(yj-Q(sj,aj;θ))2更新Q網絡,直至其收斂.算法1 詳細描述了此訓練過程.

算法1.K-DQN 算法進行能耗預測1)初始化狀態類別總數D N 2)初始化經驗池Q Qθθ-=θ 3)初始化網絡和目標網絡參數,4)按日期劃分數據集5)對訓練集數據進行異常值檢測和替換6)構建縮減的動作空間7)特征提取及歸一化8)訓練KNN 分類器9)每一回合:10)隨機選擇樣本11)使用KNN 分類器獲取當前樣本的各類別概率st 12)構建新狀態13)每一步:14)在縮減的動作空間中,概率選擇隨機動作,概率選擇1-ε max(st,a;θ)ε 15)執行所選動作獲取立即獎賞st+1 rt 16)構建新狀態(st,at,rt,st+1)D 17)將存入經驗池(sj,a j,rj,sj+1)18)從經驗池中采樣19)計算y j=■■■■■■■■■rj,j+1步結束r j+γmax a′images/BZ_163_584_2354_605_2385.pngimages/BZ_163_605_2331_627_2361.pngQ(sj+1,a′|θ-),否則(y j-Q(sj,a j;θ))2Q 20)利用更新網絡J?Q=Q 21)每步設置22)23)Until 最終狀態 or 最大步數24)Until 最大回合數st←st+1

3 實驗仿真

在本節中,我們將采用DQN,K-DQN,DDPG 算法進行建筑能耗預測的分析與比較.第4.1 節描述了3 種算法的基本實驗設置.第4.2 節選取了3 種評價指標比較不同算法的預測結果.第4.3 節從預測精度,收斂速率,訓練時間3 個角度分析3 種算法的優劣.

3.1 基本實驗設置

在特征提取階段,實驗采用前24 個時刻歷史能耗數據作為特征,預測下一時刻的能耗.由此3 種算法的超參數設置如下: DQN,DDPG 算法輸入層神經元個數為24,K-DQN 輸入層神經元個數為 24+N(N為狀態類別總數).此外,由于訓練集能耗數據范圍為 [24,2703],故DQN,K-DQN 算法采用步長為1 的方式,將連續動作空間轉換為離散動作空間進行能耗的預測.同時,為保證算法比較的公平性,3 種算法均使用相同學習率及相同網絡架構.對輸出層而言,DQN,K-DQN 算法的輸出層神經元個數取決于動作總個數,而DDPG 算法由于自身處理連續問題的性質,需將其設置為1.表1詳細列舉了3 種算法所使用的超參數.

表1 超參數設置

此外,由于K-DQN 算法內部使用KNN 分類器,且K值選擇問題是超參數問題,故實驗采用6 折交叉驗證選取最優K值.

3.2 評價指標

為比較3 種算法的預測精度,選取平均絕對誤差(mean absolute error,MAE),均方根誤差 (root mean square error,RMSE),決定系數(coefficient of determination),作為評價指標.其計算公式分別為:

其中,m表示樣本總個數,yi和y′i表示第i樣本的真實值及預測值,為整體樣本的均值.

3.3 結果與分析

研究使用的實驗結果均建立在表1 超參數設置的基礎上,且為降低訓練過程中其他隨機因素的影響,每一實驗結果都取自10 次實驗結果的平均值.

圖4 展示了DQN,DDPG 以及不同類別總數情況下K-DQN 算法的整體預測情況.其中,橫軸表示算法的預測能耗值,縱軸表示真實能耗.藍色實線為經過原點的斜率為1 的直線,代表預測值和真實能耗值相同.故圖像中的散點越靠近該直線,則說明算法的預測精度越高.此外,藍色虛線是20%的誤差線,靠近縱軸的藍色虛線意味著預測能耗值是真實能耗值80%,靠近橫軸的藍色虛線則表示預測能耗值是真實能耗的120%.二者組成的陰影部分為預測值和真實值相差20% 的誤差帶.從這個角度看,DQN 算法在真實能耗值低于500 時有較多的預測點處于誤差帶之外,說明預測精度較差.相比之下,DDPG 算法的預測結果整體偏向于左上方,說明該算法的整體預測值均偏小.對KDQN 算法而言,由于其算法內部使用KNN 分類器對狀態進行了劃分,故預測出的能耗點呈現出一定的分類趨勢.例如狀態類別總數為6 和8 的K-DQN 中,有較為明顯的簇.

圖4 3 種算法預測結果 (其中,橫坐標表示算法的預測能耗值 (kWh),縱坐標表示真實能耗 (kWh))

表1 和表2 描述了3 種算法的具體預測精度.從MAE角度看,DQN 算法預測精度最低,為51.566,而狀態類別總數為7 的K-DQN 算法預測精度最高,其MAE值為39.852.DDPG 與狀態類別總數為14 的KDQN 算法預測精度相近,其預測結果的MAE值均為44 以上.在比較RMSE指標的情況下,不同類別總數的K-DQN 預測精度均高于DQN,DDPG 算法,其整體RMSE值處于70 以下.類別總數為3 時的K-DQN是個特例,其原因可能是測試過程中KNN 分類器對新樣本分類錯誤導致.R2指標反映了算法模型的擬合精度,越靠近1 則說明算法的預測精度越高.由表1、表2 可知,K-DQN 算法的預測精度均高于DQN、DDPG 算法,且類別數為6、7 的K-DQN 算法預測精度最高.

此外,對K-DQN 算法而言,類別數越多,動作空間總動作個數越低,算法的預測精度越高.但由于其內部分類器的分類準確率會隨類別數的增加而逐漸降低,從而影響算法預測精度,故表3 中K-DQN 的預測精度整體呈先上升后下降的趨勢.綜合來看,類別總數為7 的K-DQN 模型效果最優,預測精度最高.

圖5 展現了3 種算法訓練過程中的MAE變化趨勢.其中,DQN 算法的收斂速度最次,且收斂后的MAE值高于DDPG 及K-DQN 算法.此外,由于DQN及N=2 時的K-DQN 算法起始MAE值較高,以致圖5不易比較分析DDPG 及其他分類總數下的K-DQN 算法.故將二者去除,生成圖6.圖6 由第3 回合開始進行展示,可以看出DDPG 算法與類別總數為8 的K-DQN算法收斂趨勢相近,但收斂后的MAE值略高.對KDQN 算法而言,KNN 分類使得K-DQN 具有較低的MAE初始值,且狀態類別數越多,K-DQN 算法收斂速率越快,收斂后的MAE值越低.故該實驗中,類別總數為14 的K-DQN 算法收斂速率最快.

圖5 3 種算法的MAE 變化趨勢

圖6 3 種算法的MAE 變化趨勢 (從第3 回合開始)

表2 和表3 同時展示了3 種算法的訓練時間.其中,DDPG 算法的訓練時間最長,為1 353.058 s.DQN算法訓練時間其次,為1 190.733 s.而K-DQN 算法的訓練時間則取決于狀態類別總數.一般而言,狀態類別總數越多,動作空間越小,網絡訓練所需的參數越少,訓練時間越低,故K-DQN 算法的訓練時間隨類別數增加整體呈下降趨勢.但由于實驗過程中隨機因素無法完全消除,以致于出現個別偏差值,例如類別數為10 時的K-DQN 算法情況.

表2 DQN 和DDPG 算法的預測精度及訓練時間

表3 K-DQN 算法的預測精度及訓練時間

4 結論與展望

K-DQN 是一種將KNN 分類器與DQN 相融合的算法框架,可在減少網絡訓練時間的情況下,獲得優于DQN、DDPG 算法的建筑能耗預測精度.該算法首先對原始動作空間進行平均劃分,產生多個子動作空間,而后將每個子動作空間視作一類訓練KNN 分類器.并在此基礎上,對不同類別相同次序的動作進行統一表示,從而將原始動作空間映射至單一子動作空間中,實現原始動作空間的縮減.縮減后的動作空間與原始動作空間相比,動作個數更少,算法更易尋找最優值,進而提升建筑能耗預測的精度.此外,K-DQN 算法將歷史能耗數據及其對應的分類概率組合構建為 Q 網絡的輸入,確定了單一動作在網絡中的具體含義,提高了算法的收斂速率及預測精度.最終的實驗結果證明,與DQN,DDPG 算法相比,類別為7 的K-DQN 算法在預測精度,收斂速率,訓練時間方面均取得更優結果,驗

證了K-DQN 算法的有效性.此外,由于K-DQN 算法的本質是縮減動作空間,故在建筑能耗范圍較大時,算法特性會發揮得更加明顯.在后續工作中將對這一特性進行討論說明,提升K-DQN 算法框架的通用性.