?

基于日前披露數據相似性的電力市場出清價格預測方法

2022-05-21 06:54楊乘勝張世超朱海東趙竟張永涵張庭玉
電力大數據 2022年1期
關鍵詞:歷史數據相似性情況

楊乘勝,張世超,朱海東,趙竟,張永涵,張庭玉

(1.南京華盾電力信息安全測評有限公司,江蘇 南京 210000;2.中國華電集團有限公司,北京 100031;)

隨著國內電力市場的有序推進,我國的電力市場已初具規模。在電力市場現貨交易的場景中,市場出清價是整個電力市場的核心要素之一,是直接影響發電側利潤與競標策略的重要參數。

當前電力市場出清價格預測研究中一個經典的預測方法就是使用歷史連續序列進行預測[1]?;陔娏κ袌龅哪:砸约皠討B變化的隨機性,灰色系統理論也常被應用于負荷預測和電價預測中[2],文獻[3]提出了一種基于數據挖掘與支持向量機的出清價格預測方法。文獻[4]應用多日機組數據和日前出清環節數據,提出了一種組合模型優化安排系統機組開機方式。文獻[5]則是采取了奇異值分析結合機器學習方法進行預測的方法。

隨著深度學習的發展,一系列時間序列預測的深度學習模型也開始應用于電力市場中。文獻[6]提出了一種基于經驗模式分解與LSTM的序列電價預測模型。文獻[7]采用最大信息系數相關性和改進多層級門控的方法對LSTM模型進行改進,提升了短期電價的預測精度。此外,還有使用DeepESN[8],Attention-GRU[9]等深度神經網絡模型進行電價預測的研究方法,也都在相應的場景中取得了不錯的效果。

然而,國內的電力市場起步較晚,各區域電力市場政策不統一,難以形成統一的標準的數據集。此外,國內電力市場的歷史數據普遍不公開,導致現有的數據量較少。因此很多基于大數據的電力市場出清價格預測模型難以在這類小樣本數據上達到良好的效果。為了實現小樣本和不連續數據上的出清價格預測,本文提出了一種基于日前披露數據相似性的電力市場出清價格預測方法,并在某區域電力市場交易的試運行數據上進行了測試,通過實驗證明了本文方法的有效性。

1 日前披露數據分析

1.1 指標相關性分析與數據篩選

在電力市場出清價格預測問題中,日前披露數據信息對于市場報價預期有著重要的影響,如負荷預測、裝機容量、停運預測等供需信息的披露能夠對當前的市場環境有較為準確的判斷[10-11]。然而,在數據量有限的情況下,機器學習和深度學習算法難以對數據的規律進行無偏差的估計[12]。國內的電力市場交易普遍處于試運行階段,不僅數據量有限,而且通常在運行一段時間后就會暫停運行,使獲得的數據集出現時間不連續的情況[13],因此一些基于時序分析的預測算法也不能達到很好的預測效果。

相比于機器學習和深度學習等方法,基于日前披露數據相似性的預測方法對于數據量的要求相對較低,只要相似度算法得當,就可以達到較好的預測結果,不會出現因為訓練數據不平衡而導致過擬合或者欠擬合問題。

在日前披露數據中會公布每日的負荷、電價、需求值等相關數據,組成一個y= (x1,x2,……,xn)的向量用于描述當日的特征。如圖1所示,本文計算電力市場交易日前披露數據各指標間的相關性,通過相關性矩陣可以發現日前出清價格與各項指標數據之間具有不同的相關性程度。而在日前披露數據中,某日各項指標數據與待預測數據各項指標數據相似的情況下,日前出清價格也具有一定的相似性。

圖1 相關性分析圖Fig.1 Correlation analysis chart

由于某些指標數據與日前出清價格的相關性較弱,在預測時引入這些因素,反而可能會影響預測的精度。根據統計學中的相關性原則[14-15],當相關性的絕對值小于0.4時,則可以認為二者的相關性較弱甚至不具備相關性;當相關性的絕對值大于0.4且小于0.6時,說明二者具有一定的相關性;當相關性的絕對值大于0.6且小于0.8時,說明二者具有較為明顯的相關性;當相關性的絕對值大于0.8時,說明二者已經具有很明顯的強相關性。因此本文在進行日前出清價格預測前,預先對日前披露數據進行了處理,只選擇了相關性大于0.4的指標數據用于相似性的計算,以降低無關指標數據對于預測的影響。

通過相關性分析的結果可以看出,日前出清價格與多項指標都具有一定的相關性,并且日前出清價格與各項指標數據間也并非是一種單一的線性對應關系[16-17]。簡單的用某項單一的影響因素來預測日前出清價格就會出現很大的局限性,因此單一的模型就難以實現準確的預測效果[18]。而電廠中存在的指標數據類型繁多,各項指標數據對于日前出清價格的影響也各不相同,盲目地將所有指標作為日前出清價格的影響因素會降低強相關指標數據對于日前出清價格的影響權重,從而導致預測效果受到干擾。

1.2 歷史披露數據分析

相比于機器學習和深度學習等算法,盡管基于日前披露數據相似性的預測算法對于數據量的依賴要更小,但歷史數據的質量同樣會影響預測結果,若數據過少或涵蓋范圍過于局限,難以找到與待預測數據近似情況或能夠查找到的最近似數據與待預測數據的結果差距過大,這些情況都會影響最終的預測效果。

為了保證算法的可行性,確定歷史披露數據能否足夠支撐預測工作,本文通過層次聚類方法對歷史披露數據進行聚類分析,將歷史數據按照日前出清價格分為若干個組。日前披露數據每15分鐘進行一次測點記錄,每天產生96條測點數據。由于數據存在不完全連續的情況,本文使用了2020年8月、11月和12月三個月的數據進行了分析,并用前71個自然日的測點數據模擬歷史數據,以12月后21個自然日的測點數據模擬待預測數據。如表1、表2所示,分別統計了模擬歷史數據和模擬待預測數據的出清價格分布情況。

表1 模擬歷史數據出清價格區間分布情況Tab.1 Distribution of clearing price range of simulated historical data

續表1

表2 模擬預測數據出清價格區間分布情況Tab.2 Distribution of clearing price range of simulated forecast data

通過聚類分析可以發現,日前出清價格多集中在中低價格段,價格極高的極端情況相對較為少見。在模擬歷史數據中,價格高于400的數據占比僅為2.6%。在模擬的測試數據中,高于400的數據占比僅為1.9%。因此根據聚類分析的結果可知,2020年8月、11月和12月三個月中前71個自然日的模擬歷史數據基本已經能夠涵蓋模擬預測數據中的絕大部分情況。盡管當前的試運行數據較少并且不連續,但是歷史數據仍然對日前出清價格的預測有著較為重要的意義。

盡管模擬歷史數據中某些情況較為少見,如日前出清價格在800-900、1035-1200以及1248-1400等區間段時,缺少可用的歷史數據進行支持,因此若待預測數據出現在這些區間時,算法就不能準確地預測出日前出清價格。但是通過觀察模擬的待預測數據可以發現,在這些區間內分布的數據同樣不常見,出清價格高于800的情況,在模擬歷史數據占比僅為1.1%,而在模擬預測數據中占比甚至不超過1%。即使出現了類似的情況也可以在這類情況發生后將該情況添加到歷史數據中,為后續的預測提供經驗。從數據的分布情況上可以看出兩個月左右的歷史數據基本可以滿足預測的需要。

為了增強算法的預測能力,每當出清價格結果更新時就將該條記錄加入到歷史數據庫中,這樣即使某一天的待預測數據中出現了歷史數據中沒有的情況,也可以及時將這種情況記錄下來,為后續的預測提供指導。隨著歷史數據庫的擴充,歷史數據中涵蓋的數據指標的組合情況也會更加豐富,預測的精度和準確性也就進一步提高。

2 基于日前披露數據相似性的出清價格預測

2.1 相關系數確定

傳統的相似日法中需要對各影響因素相似度的權重進行賦值[19]。在電力市場出清價格預測問題中,人工賦值的方式極大地依賴于研究者的市場經驗,若研究者的市場經驗不足,那么設置的參數就可能不合理。并且不同市場情況存在差異,某一地區的市場難以適應其他地區的市場,尤其在面對復雜市場情況時,已有經驗也很有可能出現偏差。

本文使用皮爾森相關系數來衡量各指標與日前出清價格之間的相關性程度,以確定各指標數據對日前出清價格的影響[20]。使用相關系數分析方法確定的參數值能夠根據市場的實際情況進行動態調整,通過自適應的求解參數可以增強算法的準確性和通用性,避免了人為經驗賦值對預測結果造成的偏差,將不同的指標類型對于日前出清價格的影響程度進行量化,并且參與到實際的相似性計算之中。

(1)

為了解決各項指標數據與日前出清價格之間相關性程度不同的問題,本文將各指標數據與日前出清價格的相關性進行了量化處理并作為相關系數參與到了相似性的計算當中。

由公式(1)可知,相關性的計算結果取值范圍處于[-1,1]之間,當指標數據與日前出清價格的相關性絕對值越接近1時,說明該指標對日前出清價格的影響程度就越大。由于指標數據與日前出清價格的相關性程度會影響到數據之間相似性的計算,因此在計算相似性時就需要將各指標數據與日前出清價格的相關性考慮在內。

當某項指標數據與日前出清價格的相關性越高時,該指標數據的計算結果對相似性的影響要高于與日前出清價格的相關性較低的指標。當待預測數據與歷史數據中兩種指標的距離相同的情況下,與日前出清價格相關性更強的指標對兩條數據相似性程度的決定權重更高。

ξ(x,y)=1-|r|

(2)

本文基于指標數據與日前出清價格的相關性,建立了一種相關系數計算方法。如公式(2)所示,ξ(x,y)為指標數據與日前出清價格間的影響系數,r為指標數據與日前出清價格間的相關性計算結果。當歷史數據與待預測數據中的某項指標具有較強的相關性時,其相關系數越小。在指標數據的差值上乘以該相關系數會使兩個數據在該指標上計算出的距離變得更小,最終會認定相關性更強的指標對相似性的影響要更大。

2.2 相似性計算方法

本文提出的相似性計算方法是在對應指標數據上計算均方誤差并乘以對應相關系數的方式,以此來衡量待預測數據與歷史數據的差異程度。計算的結果越小就說明兩個數據之間的相似性越強,日前出清價格也就越接近。

表3 相關系數樣例Tab.3 Example of correlation coefficient

(3)

在進行預測時,算法會按照公式3給出的計算公式將待預測數據與歷史數據庫中的數據進行一一比對,并找到相似距離最低的歷史數據,將該日期的日前出清價格作為預測結果。同樣以上文中表3的情況為例,歷史數據A與待預測數據的計算結果Sa就會變為ξa·(100-120)2+ξb·(50-50)2,最終的相似性距離Sa=400ξa。采用相同的計算方法,歷史數據B與待預測數據的相似性距離Sb=400ξb。假設此處指標A與日前出清價格的相關性ra要強于指標B與日前出清價格的相關性rb。由本文2.1節可知,計算指標與日前出清價格的相關性程度越高,相關性系數越小,因此ξa<ξb,最終使得Sa

在進行計算的過程中,可能會出現多條歷史記錄與待預測數據的計算結果相似的情況,這時應當選取時間最接近待預測數據的歷史數據作為最終結果。這是因為物理量的變化趨勢更多地取決于歷史時段中近期的發展規律,相比之下,遠期的歷史數據與待預測數據的相關性比近期數據更弱。尤其在試運行及電力市場探索階段,由于交易規則、運營模式等情況的變動,交易用戶會根據市場情況不斷的調整各自的交易策略,這就導致不同時間段的市場交易情況都有所不同,而每個時間段內的交易情況會更加相似,因此近期的交易數據參考價值更高。

盡管直接采用歷史日前出清價格作為預測結果會存在一定的誤差,即使在兩個數據極其相似的情況下,日前出清價格也會存在差異,但從聚類分析時可知,相似數據的存在的區域較為狹窄,基本都處在一個較小的值域之內,因此該方法還是能預測出一個較為準確的結果。并且隨著交易數據量增多,歷史數據的數量也會不斷進行累積,在進行長期的預測時,實際的出清價格會不斷地更新到歷史數據庫中,歷史數據中包含的日前出清價格的涵蓋范圍也會增加,預測結果會不斷得到修正,使最終得到的結果更加準確。

2.3 實驗與分析

本文選取了某區域電力市場交易試運行數據上2020年8月、11月和12月三個月的數據進行了測試,以8月、11月以及12月前10天的數據模擬歷史出清數據,對之后21天的出清價格進行預測。日前披露數據中包括了日前出清價格、負荷預測情況、機組容量情況、輸送電情況等31項指標的情況,指標數據每15分鐘進行一次更新記錄,每天共有96條測點數據。經過相關性分析和歷史披露數據分析等分析后,在原始數據的基礎上,選取了與日前出清數據相關性絕對值大于0.4的指標項作為實驗的樣本。

本文在92天共計8832條測點數據上進行了實驗,將前6816條測點數據模擬為歷史數據,對后續2016個測點進行了預測,得到了如圖2所示的結果。

圖2 預測值與實際值對比圖Fig.2 Comparison of predicted value and actual value

從圖2中可以看出,本文提出的方法在實際的運用中具有較為準確的效果,尤其是在大多數較為規律的周期中,預測的結果都較為準確。但同樣也有一些不準確的預測存在,如在一些含有突變點的測點位置,預測的結果會存在著少量的偏差。這是因為相比于具有較強規律性和周期性的負荷預測,電力市場交易還會在很大程度上受到競爭、供求關系等人為因素以及輸電阻塞、網損或線損等環境因素的影響,進而產生“價格釘”的問題,表現出價格的隨機波動性和突然跳躍性[21],尤其在風電[22-23]、水電[24]、光伏[25]等一些受環境影響因素較大的能源上表現更為明顯,當發電負荷產生較大的波動時,就會直接反應在價格波動上[26-28]。當這些數據存在于歷史數據中時,就會導致算法預測出的部分結果產生一定的偏差,將部分正常的日前出清價格預測為價格較高的價格釘。但與整體的預測結果相比,價格釘的情況本身就是一個較為少數的情況,在數據量較少的情況下,價格釘出現的頻率也就更低,盡管可以通過人工合成樣本增加價格釘出現的頻率以提高對于價格釘的預測準確率,但伴隨著人工合成樣本比重的增加,這些樣本會影響其他類型樣本的預測準確率。

此外,本文搭建了一個SVR模型[29](支持向量回歸, support vector regression)以及一個具有4個隱藏層的LSTM模型(長短期記憶網絡, Long Short-Term Memory)用于算法效果的對比。其中LSTM模型的批尺寸為64,迭代次數為50次,采用adam作為優化器。

如表3所示,展示了三種算法在21天共計2016個測點數據上的均方根誤差結果。

通過表4可以看出,在數據量少且數據中間存在時間不連續的情況下,基于日前披露數據的相似性的預測方法要明顯優于其他兩種方法。由于數據量和數據條件的限制,在實驗的過程中SVR對于價格釘的預測出現了很大偏差,在數據波動和跳躍過大時,均不能準確的進行預測;而在LSTM模型中則出現了較為明顯的過擬合現象,隨著訓練的進行,訓練集的損失會逐漸減少,但用模擬的待預測數據的損失反而會增大,最終導致了預測結果的不佳。因此在國內現有電力市場數據較為缺乏的情況下,通過相似性模型來預測日前出清價格是一種較為合適的預測方法。

表4 三種算法比較結果Tab.4 Comparison results of three algorithms

3 結論

本文運用了一種基于日前披露數據相似性的出清價格預測算法,通過在日前披露數據中尋找相似條件的歷史數據,對出清價格進行預測。首先計算各指標數據與出清價格的相關性確定各指標對出清價格的影響權重,選出相關性大于0.4的指標作為影響因素。通過計算待預測數據各指標與歷史數據各指標之間距離,結合之前計算出的各指標數據的權重,搜索到相似性最高的歷史數據,最終給出預測結果。通過在某區域電力市場的交易數據上的實驗結果,證明本文提出的方法在實際的區域電力市場交易應用中具有較好的精度和可行性。本文提出的方法基于統計原理,無需進行大量訓練的過程,對于設備的性能要求較低,在工程實踐中也有較好的應用和參考價值。

猜你喜歡
歷史數據相似性情況
隱喻相似性問題的探討
基于設備PF性能曲線和設備歷史數據實現CBM的一個應用模型探討
我覺得自己在三種情況下最有陽剛之氣
脫發 養“老金”
一周融資融劵情況
從數據分析的角度淺談供水企業漏損診斷
基于Hadoop技術實現銀行歷史數據線上化研究
用好細節材料 提高課堂實效
12個毫無違和感的奇妙動物組合
基于隱喻相似性研究[血]的慣用句
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合