?

面向安全的高校宿舍空調用電預測方法研究

2023-12-13 13:17張云雷李子昂馬驤堯李冬艷
華北科技學院學報 2023年6期
關鍵詞:用電量宿舍用電

張云雷,李子昂,馬驤堯,李冬艷

(1.華北科技學院 計算機學院,北京 東燕郊 065201 2.河北省物聯網監控技術創新中心,北京 東燕郊 065201)

0 引言

由于高校宿舍的特殊性,其用電安全是高校安全管理工作的關鍵部分。而空調用電在高校宿舍用電占比較大。因此,準確預測空調用電量對于用電安全防范、預防電路過載導致安全隱患變得尤為重要。對于高校宿舍而言,如何短期預測空調用電并合理規劃用電計劃,避免用電安全隱患,具有極為重要的經濟價值。在實際運行中,預測準確度和穩定性往往是決定預測方法好壞的重要因素。

隨著深度學習的發展,循環神經網絡(Recurrent Neural Networks,RNN)[1]在時間序列數據預測方面已經展現出卓越的性能。RNN是一類以序列數據為輸入,在序列的演進方向進行遞歸且所有節點(循環單元)按鏈式連接的神經網絡,其在時間維度上進行展開,處理的是序列結構信息。RNN處理時序信息,若信息之間的依賴關系時間跨度過長,則造成學習能力下降,從而造成梯度消失或梯度爆炸[2]問題。

為了解決由于信息之間的依賴關系時間跨度過長造成的梯度消失或梯度爆炸問題,長短時記憶網絡(Long Short-Term Memory,LSTM)[3]對循環神經網絡的隱藏層做了改進,使其能處理長期依賴關系信息,LSTM在序列預測任務中表現出優異的效果[4]。該網絡通過使用門結構控制記憶單元的讀寫操作,可以有效地捕捉時間序列數據中的長程依賴關系,具有良好的建模能力。然而,由于LSTM網絡結構本身的限制,傳統的單向LSTM網絡在處理時間序列數據時,只能考慮到歷史信息或者未來的信息。因此,單向LSTM網絡可能會遇到一些問題,例如在預測時只能考慮到已知歷史數據,不能很好地預測未來的數據。為了解決上述問題,提出了雙向LSTM網絡(Bi-directional LSTM,Bi-LSTM)[5]。Bi-LSTM網絡由兩個單向LSTM網絡組成,分別從正向和反向處理輸入序列。這樣可以在每個時間步驟上同時考慮歷史和未來的信息,從而提高模型對時間序列數據的建模能力。在預測時,Bi-LSTM網絡能夠綜合利用歷史和未來信息,使得模型在進行特征提取和擬合時具有更強的魯棒性和可解釋性,提高了模型的預測精度和穩定性。該方法能夠有效幫助高校宿舍等公共場所管理部門更準確地預測空調用電量,提高用電計劃的制定效率。同時,該方法還有助于優化能源使用結構,提高用電安全防范,預防電路過載導致安全隱患。本文的研究成果對于推動能源智能化和建設智慧高校具有重要的意義。

本文的主要貢獻在于通過采集高校宿舍空調用電數據,建立了一個用于短期用電預測的數據集并使用Bi-LSTM網絡提取用電量樣本中的時序信息,并在模型中加入正則化避免出現網絡退化問題。在此基礎上利用該模型對未來一天的用電量進行預測,提高了模型的預測準確度和穩定性,同時為短期用電預測提供了一種新的思路和方法。在實際運用中,可以根據具體場景進行模型的參數調整和結構優化,以進一步提高模型的性能表現。

1 數據預處理

本文收集了高校宿舍空調用電數據,同時涵蓋了室外環境因素的測量數據。這些測量數據包括房間標識、當日空調用電量、最高氣溫、最低氣溫、濕度和降水量等,總共收集了24萬條原始數據。所有數據都是通過空調用電監測傳感器和天氣網接口獲取,記錄頻率為1天。但由于實際采集數據中存在噪聲和異常值(見圖1),因此需要進行數據預處理和特征提取。本文首先對數據進行了負值的剔除,并對數據分布進行了判斷,清除了存在異常值的數據。接著使用聚類算法對宿舍進行分類,并為了將數據規范化到相同的范圍內,對數據進行了歸一化處理。

圖1 所有宿舍的每日用電量

圖2 負數剔除后的用電量數據

1.1 剔除負值

在圖1中可以看到,電量數據集中存在負值。在實際數據處理中,這些負值可能會導致不便或產生錯誤的結果。因此,一種常見的預處理方法是剔除負值并使用0進行填充,只考慮數據集中的非負部分。這種方法可以使數據處理更加便捷,同時避免錯誤結果的產生。在本數據集中,負數代表空調電費充值,由于充值行為由用戶隨機發起,且充值電量遠遠大于用電量,這些異常值會影響預測效果。因此,需要忽略這些數據,只關注實際消耗的電量,而不考慮損耗和電費充值。這種處理方法可以提高模型的穩定性和可靠性。

1.2 用電量數據的分布

宿舍每日用電量情況如圖3所示。通過觀察該圖,可以發現每日用電量在2度以內宿舍數量最多。進一步觀察每日用電量0度至0.5度范圍內的宿舍數量分布直方圖,如圖4所示,可以看到每日用電量小于0.05度宿舍數量極高,這是由于傳感器計量誤差所導致的。因此,為消除誤差,本文將0.05度內的電量視為0度。此外,注意到圖3中每日用電量大于24度的數據點分布過于稀疏,本文將其視為異常值,使用0值將其覆蓋。

圖3 宿舍用電量分布直方圖

圖4 宿舍用電量在0度至0.5度的分布直方圖

1.3 用電行為習慣聚類

即使在相同的氣象條件下,由于不同的課程安排、寢室位置和寢室成員用電行為習慣的不同,導致不同宿舍的用電量也會有很大的差異。僅當模型學習到不同寢室的用電行為習慣時,才能做出較為準確的預測。如果直接把宿舍編號輸入模型,模型會難以學習寢室號與具體用電行為習慣的對應關系。因此,本文首先使用聚類算法提取用電行為習慣,再以one-hot編碼的形式添加到數據集中。

聚類算法對無標簽的樣本數據根據數據及其信息關系,對數據對象進行分組[6]。聚類的最終目的是使組內的對象之間相似,不同組中的對象之間有區別[7]。由于不同寢室的用電習慣各不相同,本文通過將宿舍109天內的用電量數據視為其用電習慣高維表示,并利用PCA[8-9]與t-SNE[10]將其從109維降至2維,之后使用KMeans將它們分為8個簇,如圖5所示。

圖5 用電行為習慣聚類

1.4 Z-Score標準化

數據標準化處理是指將數據按照一定的比例縮放到某個特定區間內,使得不同量級的數據能夠具備可比性。這一過程在數據處理和機器學習領域中被廣泛應用,原因在于數據的量綱和范圍差異大會影響到算法的性能,而數據標準化可以消除這些影響。

首先,不同特征之間的取值范圍不同會對機器學習算法的訓練產生負面影響。如果特征之間的取值范圍不同,則不同特征對距離計算的貢獻大小也不同,這會導致算法對某些特征過度依賴,從而影響其分類或回歸的準確性。通過將不同特征的數據進行標準化,可以使得不同特征對算法的影響程度相等,使得算法能夠更好地利用所有特征信息進行訓練。

其次,數據標準化還有助于提高模型的收斂速度和穩定性。在模型的訓練過程中,模型需要通過梯度下降等優化算法不斷更新模型參數,如果特征之間的取值范圍不同,優化算法就可能需要進行更多的迭代才能找到最優解。如果數據集中存在異常值或者極端值,這些值可能會對優化算法產生過大的影響,從而導致模型不穩定。通過將數據進行標準化,可以使得優化算法更快速地找到最優解,并且減少極端值對模型的影響,從而提高模型的收斂速度和穩定性。

由于數據集中的特定數據,如聚類后的類別數據,標準化會破壞掉原始信息的語義。因此,本文對聚類信息使用One-Hot編碼,并且只對特定數據,如天氣數據以及用電量數據進行標準化。標準化后的數據為:

(1)

式中,μ和σ分別是數據集的均值和標準差。

1.5 數據集以及時間序列構建

為了構建可用于短期用電預測的訓練數據集,我們首先將單條數據所對應的各項特征拼接成一個向量,再將多條數據組成一個時間序列。本文采用時間步長為7的窗口進行訓練。由于不同寢室的數據會相互干擾,因此需要確保在同一時間窗口中只包含同一寢室的數據。在每個窗口中,將第7個時間步中的用電量使用0進行遮蓋,并將真實值放入訓練標簽中。此外,本文會檢測在前6天中填充標記的數量,如果數量大于2,則該窗口被判定為有效信息含量過低,會被剔除出訓練數據。

經過上述的負值剔除、異常值剔除、聚類以及剔除信息含量較低窗口這些數據預處理步驟后,我們得到了一個包含33551條數據的數據集。這些數據將用于訓練和測試后續模型的效果。為了驗證不同形式的數據集對訓練效果的影響,我們在原始數據集基礎上準備了四種變體,分別命名為數據集1、數據集2、數據集3和數據集4(詳情見表1),并使用Bi-LSTM模型進行對比試驗。

表1 四種數據集的結構

本文將每個數據集根據寢室進行劃分,其中90%的數據用作訓練集,剩余10%的數據則用作測試集。在訓練過程中,采用時間滑動窗口進行訓練,每個批次使用128個樣本數據。

2 模型構建與訓練

本文首先構建了Bi-LSTM模型并進行訓練,使用Adam優化器和均方誤差損失函數(MSE)對每個模型進行了80個輪次的訓練。隨后使用基于平均絕對誤差(MAE)和MSE以及均方根誤差(RMSE)的評估指標,評估了模型在測試集上的性能,并與其他模型進行了比較。計算式如下:

(2)

(3)

(4)

2.1 LSTM循環神經網絡

在圖6中,xt為當前時刻t的輸入,xt-1為前一個時刻的輸入,ht和Ct都為隱藏層狀態,其中Ct一般被稱為細胞狀態。LSTM隱藏層的三種門控結構可以幫助LSTM模型解決梯度消失問題,即遺忘門、輸入門、輸出門[11]。

圖6 LSTM模型結構

(1) 遺忘門

遺忘門以一定的概率選擇是否將先前的細胞狀態遺忘,圖6中遺忘門的輸入為時刻t-1的隱藏狀態ht-1和時刻t的輸入xt,輸出ft為遺忘上一個時刻細胞狀態的概率。公式表示見式(5)。

ft=σ(Wf·[ht-1,xt]+bf)

(5)

(2) 輸入門

it=σ(Wi·[ht-1,xt]+bi)

(6)

(7)

(8)

(3)輸出門

輸出門確定時刻t需要輸出的值,圖6中Ot可選擇細胞狀態的輸出信息,ht則為輸出門的輸出。其公式表示見式(9)、式(10)。

Ot=σ(Wt·[ht-1,xt]+b0)

(9)

ht=Ot·tanh(ct)

(10)

2.2 Bi-LSTM

Bi-LSTM模型不僅關注數據的正向特性,還考慮了數據的反向特性,因為用電數據具有非常明顯的周期性和季節性。該模型由正向LSTM和反向LSTM組成,如圖7所示。

圖7 Bi-LSTM模型結構

Bi-LSTM的預測結果由兩個LSTM的預測結果共同決定,正向LSTM從t時刻到t+n時刻正向計算一遍,并保存正向LSTM每個隱藏層的輸出,反向LSTM從t+n時刻到t時刻反向計算一遍,并保存反向LSTM每個隱藏層的輸出,Bi-LSTM模型的輸出結合正向LSTM和反向LSTM相應時刻的輸出得到最終的輸出結果。

2.3 使用ReLU激活函數

在進行用電量預測時,數據之間可能存在非線性關系,同時預測結果需要保證為正值??紤]這兩個限制條件,本文使用ReLU(Rectified Linear Unit)作為最后一層的激活函數,參見式(11)。

ReLU激活函數的優點在于它簡單高效。相較于Sigmoid和Tanh等其他激活函數,ReLU能夠更快地計算和收斂,從而更好地擬合非線性數據,提高預測的準確性。在電力需求預測任務中,ReLU截取輸入信號的負值記為零,只保留正值,符合預測結果必須為正的要求。

(11)

2.4 尋找最佳數據集和最優Bi-LSTM模型

為了找到最佳的數據集和相應的最優Bi-LSTM模型,本文預先定義了模型超參數的搜索空間,見表2。為了確保模型的表示能力逐層遞增,本文規定每一層的隱藏單元數量不得少于下一層的隱藏單元數。這樣做能夠避免網絡中信息流動時產生較大噪聲,同時使搜索空間更加合理,并減少不必要的模型超參數組合的數量,從而避免了不必要的超參數搜索。

表2 Bi-LSTM模型的超參數搜索空間

超參數搜索空間各自組合成唯一的模型架構,模型的其他參數見表3。

表3 模型其他參數/環境

在數據集1、2、3和4上,對上述模型分別訓練80輪次,并測量每一種模型的測試最小MSE、最小MAE和最小RMSE。圖8、圖9和圖10展示了不同數據集對于不同模型的測試最小MSE、最小MAE和最小RMSE的變化趨勢。

圖8 四種數據集在不同模型上的最小MSE變化趨勢圖

圖9 四種數據集在不同模型上的最小MAE變化趨勢圖

可以觀察到,在所研究的四個數據集中,數據集2和數據集4與數據集1和數據集3之間差異明顯,表明當日用電量為零時將當日天氣因素全部置零可以使模型抽取到更多的信息,從而降低模型損失。而數據集2與數據集4之間差異顯著,這表明當日用電量為零時增加填充可以使模型學習到更多的信息。

數據集1與數據集3之間的差別較小,但數據集3相較于數據集1表現出更低的最小MSE、最小MAE和最小RMSE指標。這表明模型在當日用電量為零時將當日天氣因素全部置零并增加填充標志的數據集3上整體具有更好的預測性能。

在數據集3中,表4所示模型在最小MSE、最小MAE和最小RMSE方面表現最優。該Bi-LSTM模型共包含3層網絡,其中包括2層Bi-LSTM和1層Dense,Bi-LSTM分別包含了128個和64個Cell單元。樣本從輸入層進入網絡后,通過2層Bi-LSTM和1層Dense后得到樣本的回歸值。為了防止過擬合,在每個Bi-LSTM中都設計了Dropout層,并以0.2的概率隨機對權值進行丟棄。

表4 最優Bi-LSTM模型架構

尋找到合適的數據集以及模型后,接下來將使用最佳數據集3和最優模型(表4)進行模型訓練、消融實驗以及多模型對比。

2.5 模型訓練

使用最優模型對最佳數據集3進行80個輪次的迭代訓練后,圖11展示了訓練損失和測試損失的結果。在50個輪次的訓練之后,測試集上的平均平方誤差MSE下降至2.14,平均絕對值誤差MAE下降至0.79,均方根誤差RMSE下降至1.46。與此相比,本文通過使用前一日結果作為預測值的基準線得到的MSE為16.5,MAE為2.22,RMSE為4.06。

圖11 使用最優Bi-LSTM模型在數據集3上各損失曲線

經過測試,發現該模型相比基準值,MSE下降了87%,MAE下降了64.4%,RMSE下降了64%。這表明該模型具有較強的泛化能力,能夠有效地預測宿舍的能耗情況。

2.6 消融實驗

消融實驗目的是通過針對某個研究變量或因素進行系統性排除或削減,從而驗證其對實驗結果的貢獻或作用。為此,本文采用與表4所示架構相同的Bi-LSTM模型進行訓練。

本文準備三組消融實驗:①組1將使用去除天氣因素(最高溫、最低溫、降水、濕度)后的數據集進行訓練;②組2將使用去除聚類類別數據后的數據集進行訓練;③組3將使用1.4節的數據標準化流程來處理數據集進行訓練。并將三組消融實驗的模型與使用正常數據集進行訓練的模型進行對比。其中MSE、MAE與RMSE如圖12、圖13、圖14所示。

圖12 消融實驗測試MSE對比

圖13 消融實驗測試MAE對比

圖14 消融實驗測試RMSE對比

結果顯示,在對數據進行標準化之后最小損失相對正常數據集變化較小,且仍不如正常數據集。這是因為該數據集并非正態分布,使用Z-Score后并沒有帶來更好的效果。去除天氣因素和聚類類別因素后,效果變差的程度比較明顯。這表明天氣因素和類別因素在該研究中對實驗結果有顯著的影響,而聚類因素對實驗結果的影響更大,比天氣因素更加顯著。

消除天氣因素后,實驗結果變差可能是由于天氣對空調電量的影響很大。人們會根據氣溫變化使用空調,這會對實驗結果產生重要的解釋作用,因此不能忽略它的影響。同時,去除聚類類別因素后,實驗結果變差也許是由于該因素對實驗結果有明顯的影響,去除后可能會導致實驗結果誤差增加。因此,在數據預處理中加入天氣因素并進行用電聚類,會大大保證預測結果的準確性和可靠性。

2.7 多模型對比

除此之外本文還訓練了決策樹回歸預測模型[13]、XGBoost樹模型[14]、GRU模型[15]、SimpleRNN[16]模型、單向LSTM模型、全連接網絡模型以及Transformer模型[17]。其中,GRU模型、SimpleRNN模型、單向LSTM模型以及全連接網絡模型,都采用了與上文中尋找最優Bi-LSTM模型相同的方法和搜索空間分別進行最優架構搜索。Transformer模型則是使用逐參數搜索來尋找最優架構,并根據訓練經驗確定搜索空間,以模型的訓練代價為準則確定超參數搜索順序,具體搜索空間見表5。

表5 Transformer模型的超參數搜索空間

所有模型對比效果如圖15所示。圖15中Bi-LSTM即本文選用的和表4架構相同的模型。觀察結果表明,通過Bi-LSTM模型進行預測所得到的損失值最低,且該模型的泛化能力最強。圖16 展示了使用最優模型——Bi-LSTM進行的一次宿舍電量預測。從圖中可以看到,模型的預測和真實用電趨勢基本相同,兩者的精度相差不大。因此,該模型表現良好。

圖15 多種模型對比

圖16 用電量預測示意圖

3 結論

(1) 通過對高??照{用電的數據進行預處理和特征提取,進一步使用Bi-LSTM循環神經網絡進行訓練和預測,該方法在預測準確度和穩定性方面都表現出顯著的提升。在實際應用中,該方法可以幫助高校宿舍管理部門更精確地預測未來一天的空調用電量,進而有效管理用電計劃和設備狀態,實現安全管理和優化設備使用效率的目標。

(2) 本文提出的數據預處理方法和模型在預測高校宿舍能源消耗方面具有強大的能力,即使在數據較為有限的前提下也表現出了良好的效果,充分證明了該方法在實際應用中可行可靠,并具有廣泛的應用前景。未來將進一步研究:如何將該模型方法應用于更廣泛的場景,并結合其他方法進行更準確的電力預測;擴大數據集規模并優化模型參數和結構,以提高模型的預測能力和性能。

猜你喜歡
用電量宿舍用電
用電安全
02 國家能源局:1~7月全社會用電量同比增長3.4%
01 國家能源局:3月份全社會用電量同比增長3.5%
熱得快炸了
用煤用電用氣保障工作的通知
安全用電知識多
用電安全要注意
學校到底是誰的
作品四
1~10月全社會用電量累計56552億千瓦時同比增長8.7%
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合