?

基于EABC算法優化RFR模型的電力行業碳排放量預測

2024-02-01 07:26趙中華張緒輝張利孟
山東電力技術 2024年1期
關鍵詞:蜜源電力行業決策樹

趙中華,張緒輝,王 太,劉 科,張利孟

(1.國網山東省電力公司電力科學研究院,山東 濟南 250003;2.華北電力大學能源動力與機械工程學院,河北 保定 071003)

0 引言

近些年,隨著全球工業化水平以及經濟貿易的飛速發展,以二氧化碳為主的溫室氣體大量排放所引發的一系列連鎖性惡劣影響逐漸受到關注。二十大報告中明確我國將積極穩妥推進碳達峰碳中和,協調推進降碳、減污,進一步完善碳排放總量和強度“雙控”制度。結合我國“十四五”階段碳排放強度規劃與宏觀發展戰略,各級政府紛紛將“雙碳”目標列為經濟發展環節的重要任務,相繼頒布一系列政策措施。在節能減排的大背景下,通過理論方法實現碳排放量準確預測,對于政府部門制定合理決策具有重要意義[1-3]。

在碳排放預測這一領域,相關學者已開展一系列探索工作。Wang 等將相關變量功率指數項作為外因變量輸入至非線性灰度多變量模型,預測我國由于化石能源消耗而導致的碳排放量[4]。宋杰鯤以城市化率、工業化水平、煤炭及石油消費比例等因素作為自變量,提出基于偏最小二乘回歸的碳排放量預測方法[5]。仇國芳等充分利用粗糙集理論的不完備信息分析能力,選取碳排放影響因素并構建約簡指標體系,結合神經網絡對陜西省碳排放趨勢進行預測[6]。王迪等同時考慮能源結構背景、基準背景和政策法規背景,通過波動規律解析法有效預測我國二氧化碳的減排潛力[7]。劉廣為等融合脈沖響應函數、二階差分方程和向量自回歸模型,從第三產業占比角度預測我國未來碳排放強度[8]。由于碳排放受多種因素影響,上述方法會出現相關變量互相耦合、過擬合和欠擬合造成的準確度降低問題,還存在相關參數設置的主觀性導致的模型穩定性降低問題。

在我國各類行業領域中,電力行業耗能遠高于其他行業,相應的碳排放量居于各類行業之首。圍繞電力行業碳排放量展開預測研究,已成為我國各省市地區快速能源轉型關鍵所在。在傳統人工蜂群算法中引入遺傳學習策略,提出進化人工蜂群算法,并充分發揮其全局搜尋能力,對隨機森林回歸模型的最佳參數進行自動搜索,提出一種基于進化人工蜂群算法優化的隨機森林回歸預測模型,旨在實現電力行業碳排放量未來發展趨勢的準確預測,為節能減排政策制定提供有力支撐。

1 電力行業碳排放影響因素分析

作為研究能源經濟與碳排放量的重要工具,環境影響評估模型建立環境影響、人均財富、人口規模以及環境毀壞等因素與碳排放量間的映射關系[9],表達式為

式中:C為碳排放量;R為人口總量;A為人均國內生產總值;T為能源強度;e為隨機誤差;a為常數項;b、c、m為驅動參數。

為準確預測電力行業碳排放量發展趨勢,在前期研究中利用對數平均迪式指數法對電力行業碳排放量關聯影響因素進行分析,發現供電人口、國內生產總值單耗、電力供需結構、人均用電量4 項因素與電力行業碳排放量間的相關系數均大于0.9,呈現較高的相關性。因此,在環境影響評估模型基礎上,對模型中的人口數量、人均國內生產總值和能源強度因素所帶來的影響進行擴充改進,進一步將供電人口數、國內生產總值單耗、電力供需結構和人均用電量4 項關鍵影響因素作為電力行業碳排放量預測的限定自變量。

2 隨機森林回歸模型

由于獨立預測器在數據結構單一、數據質量參差不齊條件下的應用存在局限性,集成學習逐漸成為小樣本數據預測的有力補充。作為集成學習理論的代表,隨機森林回歸(random forest regression,RFR)模型借鑒“民主投票”原理集合多個決策樹構造出強化預測器,解決單一預測器精度不高的問題,已被廣泛應用于數據回歸預測中[10-11]。

利用RFR 模型進行數據回歸預測時,首先通過自助法對原始樣本集進行有放回抽樣,隨機生成若干組訓練樣本,并基于每組新樣本構建決策樹。在定義決策樹內部各節點屬性時,從決策樹根部節點開始,在訓練樣本所有屬性中隨機抽取若干屬性作為節點屬性集,并根據基尼指數最小化評價規則篩選出最優屬性,然后采用二分遞歸策略進行屬性分裂和節點構造,在決策樹生長過程中不進行剪枝處理,直到滿足條件停止分裂并形成完整的葉節點。整個預測過程建立在決策樹根節點至葉節點的路徑上,每個決策樹生成1 個輸出值后,最終將所有決策樹輸出值的加權平均值視為預測結果,RFR 模型預測原理如圖1 所示。

圖1 RFR模型預測原理Fig.1 Prediction principle of RFR model

相對于其他回歸預測模型,RFR 模型能夠有效避免單一預測器存在的過擬合問題,預測規則更簡單,計算速度更快,泛化能力更強,穩定性更佳。

3 進化人工蜂群算法

受蜂群尋找優質蜜源行為的啟發,人工峰群(artificial bee colony,ABC)算法通過人工蜂個體對蜜源質量優劣的比對來求解非線性多目標、多約束問題[12]。相比于其他類型的群啟發式智能尋優算法,ABC 算法具有結構簡單、探索速度快、魯棒性強、關聯參數少等優點。但是,由于該算法的雇傭蜂尋蜜階段和偵察蜂尋蜜階段搜索策略相同,容易陷入局部最優困境[13]。為解決這一問題,借鑒生物種類的遺傳進化過程,在傳統ABC 算法基礎上引入遺傳學習策略,提出一種新穎的進化人工蜂群(evolve artificial bee colony,EABC)算法。在偵察蜂尋蜜階段對每個符合試探次數的蜜源都進行交叉、變異和選擇操作,每個蜜源Xi=[xi,1,xi,2,…,xi,D]代表優化問題的可能解,其中i∈{1,2,…,S}表示人工蜂個數,S為人工蜂個數的最大值,D表示優化問題維度。EABC 算法在保留傳統ABC 算法良好全局搜索能力的前提下,有效提升局部搜索能力及收斂速度,其流程如圖2 所示,具體步驟如下:

圖2 EABC算法流程Fig.2 Process of EABC algorithm

1)隨機生成含有S個初始解的人工蜂種群,即

式中:xmax,j和xmin,j分別為j維變量的上限和下限;r為[0,1]之間的隨機數;i∈{1,2,…,S},j∈{1,2,…,D} 。

2)計算每個蜜源Xi對應的適應度值f(Xi)。

3)利用雇傭蜂對蜜源進行搜尋,若搜尋到的蜜源適應度值優于原始蜜源,則更新為

式中:?i,j為[-1~1]之間的隨機數;k為雇傭蜂隨機搜尋到的蜜源,k∈{1,2,…,S}。

4)跟隨蜂利用式(4)計算出的選擇概率對雇傭蜂搜尋到的蜜源做進一步開采,即

5)若雇傭蜂和跟隨蜂搜尋完整個空間后,若某些蜜源的適應度值在迭代過程中未得到改善,則對應的雇傭蜂成為偵察蜂,通過式(3)重新初始化一個新的蜜源進行代替,并記錄保存當前階段的全局最佳蜜源Xgbest。

6)對于每個被拋棄的蜜源Xi,通過遺傳學習中的交叉操作生成子代Xsol=[xsol1,xsol2,…,xsolD],隨機抽取當前蜂群里的兩個蜜源XQ和XG,令

式中:h為子代備選蜜源序號;Q、G均為隨機抽取蜜源序號;Xsold為生成的d代子蜜源。

7)根據隨機變異概率pm∈[0,1]對蜜源子代的每一維度進行遺傳學習中的變異操作,若ra<pm,則根據式(7)初始生成Xsold,即

式中:Xmax,d和Xmin,d分別為子代蜜源的上限和下限。

8)根據遺傳學習策略中的選擇操作過程,比較隨機初始生成的子代蜜源及被拋棄的蜜源,若優于被拋棄蜜源,則結束遺傳學習過程,反之則不斷重復偵察蜂尋蜜過程,直到找到更優蜜源。

9)對比原始蜜源以及偵察蜂尋蜜階段所得新蜜源的適應度值,若優于原始蜜源則進行替換,否則返回步驟3)重復操作過程,達到最大迭代次數后輸出最終尋優結果。

4 基于EABC-RFR模型的碳排放預測

針對電力行業碳排放預測問題,利用RFR 模型進行預測時,須設定決策樹個數和分裂變量數,這兩個參數會直接影響模型的學習速率和泛化能力,參數選取的不合理將降低RFR 模型的預測精度。為保障電力行業碳排放量預測結果的穩定性及可靠性,對傳統ABC 算法進行改進,提出EABC 算法,并充分發揮該算法卓越的全局尋優能力,利用其對RFR 模型中的關鍵影響參數進行自動搜尋,提出基于EABC 算法優化的RFR 預測模型,從而克服模型參數人為主觀設定造成的弊端,整個預測流程如圖3所示,具體步驟如下:

圖3 碳排放預測流程Fig.3 Process of carbon emission prediction

1)首先采用可拓展隨機性環境影響評估模型(stochastic impactsby regression on population affluence and technology,STIRPAT)模型對電力行業碳排放影響因素進行分析,得到碳排放量及影響因素數據。由于碳排放影響因素的單位不同,數據之間存在較大的數量級差異,為避免RFR 模型輸入數據數量級差異而引發的較大預測誤差,需要對數據進行歸一化預處理,將其轉化為[0~1]之間的數值。

2)設置EABC 算法相關參數并對人工蜂種群進行初始化操作,本文設置人工蜂種群規模為100、最大迭代次數為50。由于要對RFR 模型中的決策樹個數和分裂變量數進行搜索,因此搜索空間維度為2。為防止盲目搜索,需要對各搜索維度的上下限進行設定,本文選取決策樹個數的搜索范圍為[10~500]、分裂變量數的搜尋范圍為[1~10]。

3)對EABC 算法中蜜源的適應度函數進行設置,定義RFR 模型預測結果的均方根誤差為適應度函數,將蜜源位置代入適應度函數即可計算出對應的適應度值,適應度值越小則表明蜜源位置越好,從而可以引導整個人工蜂群的尋優進程。

4)將電力行業碳排放量及影響因素數據歸一化預處理后拆分為訓練樣本和測試樣本,將訓練樣本輸入至RFR 模型對其進行訓練,在訓練過程中通過圖2 中給出的EABC 算法流程自動搜尋最佳決策樹個數及分裂變量數,從而得出RFR 模型的最優參數組合。

5)將測試樣本輸入參數優化后的RFR 模型,得到最終預測結果。結合實際碳排放量數據及RFR模型預測結果,利用相關誤差評價指標對提出的EABC-RFR 模型的預測精度進行檢驗。

5 實際算例驗證

5.1 數據來源及碳排放量測算

為驗證本文提出的預測模型,對我國近些年電力行業碳排放量進行測算。文獻[14-16]中指出,利用限定區域內各類化石能源消耗量乘以其碳排放系數,累積相加即可得到電力行業能源消耗所引起的碳排放總量,根據這一準則進行測算,即

式中:C為碳排放量;N為能源種類;En為第n種能源消耗量;Pn為第n種能源碳排放系數。主要化石能源的碳排放系數如表1 所示。

表1 各類化石能源碳排放系數Table 1 Carbon emission coefficients of various fossil energies

根據國家統計局公布的《中國能源統計年鑒》中各類化石能源的消耗量[17],測算獲得我國1996—2021 年間電力行業的碳排放量,如表2 和圖4 所示。

表2 1996—2021年電力行業碳排放量Table 2 Power industry carbon emissions of 1996—2021 years

圖4 1996—2021年電力行業碳排放量曲線Fig.4 Power industry carbon emission curve of 1996—2021 years

由于相關文獻統計公布的客觀數據有限,無法全面反映我國電力行業碳排放發展趨勢,但是總體來看目前碳排放量增長勢頭十分迅猛,想要順利實現“雙碳”目標任務仍具有一定難度。根據近幾年我國電力行業的發展規模,節能減排任務仍舊艱巨,圍繞碳排放問題的整治和管理需要給予更多關注。由此看來,如果通過構建的理論模型能夠準確預測碳排放未來增長趨勢,則可以根據預測結果進行具體分析,從而制定符合當前情形的節能減排政策。

5.2 預測效果檢驗

在此利用測算數據對所提出的EABC-RFRR 模型的穩定性及可靠性進行驗證。通過《中國能源統計年鑒》公布數據可以獲取1996—2021 年間供電人口數、國內生產總值單耗、電力供需結構、人均用電量數據,并將4 種影響因素數據作為預測模型的輸入自變量,而表1 中1996—2021 年間我國電力行業碳排放測算數據則為預測模型的輸出因變量。將匯總后的碳排放量及4 種影響因素歷年數據分割為訓練樣本和測試樣本,即可對EABC-RFR 模型進行訓練及驗證。在預測模型訓練過程中,為消除影響因素數據之間數量級差異對預測結果造成的不利影響,進行歸一化預處理為

式中:xu和分別為第u種影響因素原始數據和歸一化處理后的數據;xmin和xmax分別為原始數據中的最大值和最小值。

選取1996—2015 年的數據作為訓練樣本對模型進行訓練,由于電力行業碳排放量逐年波動,供電人口數、國內生產總值單耗、電力供需結構、人均用電量的歷史數據仍會對未來碳排放量預測形成影響,因此需要將新獲取的影響因素數據及RFR 模型預測輸出結果添加至訓練樣本中進行逐年遞進預測。利用EABC 算法對RFR 模型進行參數自動尋優時,蜜源適應度值隨著蜂群迭代過程逐漸收斂曲線如圖5 所示,搜尋結束后確定的RFR 模型最佳決策樹個數為137,最佳分裂變量數為8。設置好模型相關參數后,利用參數優化后的模型對2016—2021 年的碳排放量進行預測,最終結果如圖6所示。

圖5 EABC算法迭代收斂曲線Fig.5 Iterative convergence curve of EABC algorithm

圖6 EABC-RFR模型預測結果Fig.6 Prediction result of EABC-RFR model

為進一步驗證EABC-RFRR 模型的優越性,利用數據回歸預測領域應用較為廣泛的反向傳播神經網絡(back propagation neural network,BPNN)[18]、支持向量機(support vector machine,SVM)[19]和極限學習機(extreme learning machine,ELM)[20]模型分別進行碳排放量預測對比。

在BPNN 模型設置時,輸入自變量為4 個、輸出因變量為1 個,因此設置神經網絡輸入層、隱含層和輸出層節點的拓撲結構為4-10-1,選取tansig 函數作為傳遞函數并設置訓練次數為200、精度目標為0.000 1。在SVM 模型設置過程中,選取的核函數為高斯核函數,設置核函數參數和懲罰因子分別為1和10。而ELM 模型的設置與BPNN 模型類似,輸入層、隱含層和輸出層節點的拓撲結構也為4-10-1。完成上述3 種對比模型參數設置后,在訓練樣本完全相同的條件下分別進行訓練,并利用訓練后的模型分別預測2016—2021 年間電力行業的碳排放量,所得結果如圖7 所示。

圖7 各對比模型預測結果Fig.7 Prediction results of different comparison models

為更直觀地呈現EABC-RFR 模型與其他對比模型的預測精度,通過平均絕對誤差(mean absolute error,MAE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)以及均方根誤差(root mean square error,RMSE)3 項指標對不同模型的預測結果進行量化評價,各誤差評價指標為:

式中:zw′為通過模型得到樣本w的碳排放量預測值;zw為樣本w碳排放量實際值;W為樣本個數。

給定碳排放量實際值和預測值,通過各誤差評價指標計算表達式可得到不同模型預測誤差的量化值,如圖8 所示,預測誤差對比數據匯總結果如表3所示。

表3 不同模型預測誤差對比結果Table 3 Prediction error comparison results of different models

圖8 不同模型預測誤差評價指標Fig.8 Evaluation indexes of different model prediction errors

綜合圖8 及表3 可知,在測試樣本檢驗過程中BPNN 模型各項誤差指標均最大,SVM 模型和ELM誤差指標居中,EABC-RFR 模型各項誤差最小。由此表明,BPNN 模型預測精度最差,SVM 模型和ELM模型預測精度一般,而本文提出的模型精度最高,明顯優于其他3 種對比模型。究其因由,主要是其他3種對比模型對訓練樣本數量和質量具有一定要求,而本文提供的歷年碳排放量及影響因素數據相對較少,在這種小樣本訓練條件下3 種對比模型的預測能力將受到不同程度的干擾影響。本文提出的EABC-RFR 模型發揮集成學習的優勢,滿足結構風險最小化原則,有效避免過擬合問題,可以準確反映預測對象的非線性動態特性,在小樣本訓練條件下仍具有較強的泛化能力,因此可以在碳排放量回歸預測中獲得更好的精度。

6 結束語

對經典STIRPAT 模型進行擴充改進,將供電人口數、國內生產總值單耗、電力供需結構、人均用電量4 項影響因素定義為碳排放影響因素。為提高電力行業碳排放量的預測精度,在傳統人工蜂群算法基礎上引入遺傳學習策略,并利用進化人工蜂群算法對隨機森林回歸模型中的決策樹個數和分裂變量數進行自動尋優,提出基于EABC 算法優化的RFR預測模型。驗證結果表明,該模型可以準確預測電力行業碳排放量的發展趨勢,具有良好的穩定性和可靠性,與其他應用較為廣泛的預測模型相比優勢明顯,能夠為全國以及各省市電力行業節能減排政策的制定提供有力支撐,為類似數據回歸預測問題的解決提供一定參考借鑒。

猜你喜歡
蜜源電力行業決策樹
貴州寬闊水國家級自然保護區蜜源植物資源調查研究*
林下拓蜜源 蜂業上臺階
一種針對不均衡數據集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
指示蜜源的導蜜鳥
淺談電力行業知識管理的集成信息化
電力行業的減排救贖
基于決策樹的出租車乘客出行目的識別
電力行業的碳市大考
基于肺癌CT的決策樹模型在肺癌診斷中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合