?

基于PCA和決策樹模型的異常電費數據檢測和識別研究

2022-11-21 04:38向黎藜肖私宇鐘愛郭嬌段凱張人杰
電力大數據 2022年4期
關鍵詞:決策樹電費用電

向黎藜,肖私宇 ,鐘愛 ,郭嬌 ,段凱,張人杰

(國網重慶市電力公司營銷服務中心,重慶 400000)

隨著我國人口的不斷增加和用電量的持續攀升,電費核算異?;虿铄e是不可避免的。如電費計量系統出現故障、用戶私自改裝電表等,這可能給供電企業和用戶帶來一定的經濟財產損失[1]。作為電力營銷流程中重要的一環,準確的電費核算可以促進供電企業的穩定運行和持續發展,從而為企業制定合理的電力營銷策略[2]。

長期以來,電費核算分析方法大多是通過人工經驗總結的核算規則對異常電費數據進行篩查,這無法覆蓋所有的異常情況,缺少有效的數據支撐[3],并且存在諸多不足。一是通過核算規則判斷異常電費,均需要進行人工復核,人力投入成本較大,效率低下。二是電費核算規則異常甄別精準度不足,經過人工復核,存在異?;虿铄e的電費數據比例并不高;另外通過規則判斷無異常而實際發生電費差錯的情況亦時有發生,給供電企業精準制定電力資源分配方案造成了一定的困難。三是基于多數規則仍依賴人工經驗進行固化,存在閾值剛性不合理、一刀切或規則不完善等問題,無法最大程度發揮電費核算規則對電費差錯的風險防控作用[4]。

在大數據技術高速發展的背景下,合理利用當前的技術手段挖掘電費大數據隱藏的價值和關聯,從多種因素和多個維度去分析和識別異常電費數據成為各國學者研究的熱點和重點[5]。決策樹[6]、隨機森林[7]、神經網絡[8]等機器學習算法模型已被應用于異常電費檢測和識別中。文獻[9]提出了一種K-means聚類方法,用來對異常點進行檢測。文獻[10-11]利用K-means算法對不同用戶進行區分,但這種方法檢測結果不夠精確,無法準確定位,且在大數據量下需要提高運行效率。文獻[12]基于粒子群優化的k均值算法對電力數據進行聚類分析,相對于傳統的人工核查方法,能夠更快速高效篩選出異常用電的客戶。文獻[13]基于密度的聚類方法,對異常用電用戶進行有效檢測并識別竊電行為,同時,對比了K-means聚類、高斯混合模型(GMM)聚類和基于密度的噪聲應用空間聚類(DBSCAN)的檢測精度,結果表明作者提出的算法具有最好的性能表現。文獻[14]結合mean-shift算法和決策樹模型,對疑似異常用電的用戶進行二次篩選,充分利用了電網的數據資源,提高了電量異常核查效率,實現了對用戶用電行為的自動學習和異常檢測。文獻[15]利用電力數據并結合外部天氣數據,使用機器學習的技術對電量電費異常用戶進行識別,達到電費智能核算優化的目標。文獻[16]利用特征工程、主成分分析法、網格處理以及局部異常點等方法,實現了利用少量的異常數據檢測大量的其他異常數據,顯著提高了用電異常檢測和識別的效率。

本文分析了不同算法在檢測異常電量方面的優缺點,并利用重慶公司的海量電量數據并結合外部天氣數據進行相關分析。在以往,重慶公司通過人工積累的經驗規則去檢測和識別異常的電費數據,主要將居民用電量突增、突減、總表電量與各子表電量之和不符等因素作為參考依據,其具體的量化指標也是通過主觀經驗給出的,導致了檢測的大量的異常數據在人工復核后被判斷為正常數據,造成了人力、物力以及財力的大量浪費。實現自動、智能的異常用電數據檢測并提高電費核算數據識別的準確率具有極其重要的理論和應用價值。本文利用機器學習算法和海量的電力數據,將異常電費核算的檢測和識別可以看作一個二分類的問題,利用以往人工核查的異常電費數據作為訓練集,并利用主成分分析法對降低數據的復雜度,最后通過決策樹模型對大量的數據進行分類識別,檢測異常電費核算數據,從而達到電費智能核算優化的目標。

1 數據預處理

1.1 數據準備

本文所使用的數據集是由重慶公司提供的大量電力相關數據,主要包括電力營銷、電力生產以及外部數據。自開展營銷信息化建設以來,重慶公司積累了豐富的電力營銷數據,包括營銷業務數據(如電費信息、客戶繳費信息等)、用戶采集數據、客戶服務數據(如95598電話、支付寶等移動電子渠道信息)等。電力生產數據主要包括電能的輸送、分配等相關數據。在外部數據方面,主要通過網絡爬蟲等技術,獲取了重慶各個區域內的歷史天氣數據以及相關政策等數據。這些數據以逐行格式存儲,用戶每天記錄一行,為電費異常的識別和檢測提供了強有力的數據支撐。

1.2 數據清洗

在對數據進行處理和分析之前,對數據的清洗是必不可少的[17]。在這一章節中,我們對得到的數據進行重新審查和校驗,去除數據集中重復的數據,并將剩余數據轉換成標準的可接受格式。在這個過程中,主要針對空缺數據、錯誤數據和不一致數據。其中,空缺數據需根據實際情況通過手工填入,使數據完整真實;錯誤數據主要是指系統無法識別的數據,例如數據中混入異常字符、數字“0”寫成字母“O”、日期格式錯誤等,需糾正后方可對數據進行處理分析;不一致數據主要是指一些相互矛盾的數據,如同一用戶同一時間記錄了兩條不一致的電表用電量數據,需進一步糾正和處理。

在原始數據行的基礎上,對錯誤數據、空缺數據和不一致數據進行一系列的清洗和處理,得到303518個可用于數據分析的有效數據行。

1.3 數據集成

在本文所使用的數據集中,包含了大量的字段,僅從直觀上很難判斷出哪個因素的影響是巨大的,哪個因素的影響是微弱的。通過詳細的特征工程,包括數據歸一化處理、統計特征、相關系數分析、重要特征選擇等,實現了對現有的特征的選擇和擴展組合特征[18],例如供電單位、線下營業廳分布情況對居民的繳費情況有著更加重要的影響、居民的當月用電量與年平均用電量的比值更能反映用電的異常情況等。

由于電力數據中的指標是根據實際業務確定的,雖然通過特征工程提取了相對重要的特征,但仍然面臨著影響因素過多的情況,這將導致問題變得更加復雜困難,極大地增加了計算量。同時,各個特征之間也存在著一定的相關性,這將造成信息的重復,可能會使異常電費數據檢測結果和實際情況相悖。因此,數據集成、變量簡化就成為一項不可或缺的數據預處理過程[19]。

數據集成、變量簡化指的是剔除各個變量之間的冗余成分,即各個變量之間的重疊信息部分,并保持原有數據的信息量和決策能力。將多個相關的影響因素簡化為盡可能少的不相關的綜合特征,既減少了數據分析的計算量,也使異常電費數據的檢測和識別結果更加科學合理[20]。

思蓉和思遠走后,楚墨重新扎進廚房。這次他要為念蓉榨一杯西瓜汁,他說天太熱,喝杯西瓜汁去暑。念蓉不理他,去浴室洗好澡,出來,楚墨已經將兩杯西瓜汁榨好。

1.4 PCA降維

常用的變量簡化、模型降階方法主要有主觀賦權法和客觀賦權法[21]。前者會受到主觀經驗的影響,往往會夸大或減弱某一因素的影響,從而導致不能準確的檢測和識別異常用電數據。后者主要包括因子分析法、主成分分析法(PCA)[22]等。本文利用PCA法對可能影響電費數據異常的因素賦予不同的權重,客觀地反映數據間的真實關系。

PCA法是一種常用數據分析方法,常用于高維數據的降維, 被用于提取數據的主要特征[23]。該方法在降低維度、減少變量的同時,盡量減少原始信息的損失,并得到了很多研究者證實和廣泛應用[24]。利用PCA方法大大簡化了人臉識別問題中的特征[25],在保證精度的同時極大地提高了檢測效率。瞿等人[26]利用PCA法對異常電力數據進行檢測,其結果的準確率、誤報率和漏報率均優于K-means、支持向量機等算法。本文將PCA算法應用到電力大數據模型的簡化和降維過程中,通過特征工程和以往的經驗,將數據本身的特征組合擴展得到新的一系列特征。顯然,這些特征之間具有一定的重疊和相關性。通過PCA算法將這些相關的一系列特征重新組合計算,得到一組相互無關的綜合性特征,同時降低了數據集中特征的階數,達到了簡化、降維的目的。PCA算法可歸納如下:

假設原始數據中X=(x1,x2,…,xp)T的n個樣本Xi=(xi1,xi2,…,xip)T,(i=1,2,…,n;n>p),則樣本矩陣X為:

(1)

對X進行標準化變換,

(2)

對標準化矩陣Z求相關系數矩陣:

(3)

再解相關系數矩陣R的p個特征值:

|R-λIp|=0

(4)

(5)

(6)

根據經過清洗和處理之后的有效數據,首先利用主成分分析法(PCA)進行變量簡化。

2 數據模型

2.1 模型介紹

對異常電費數據的檢測和識別可以看作為一個二分類問題。作為一種被廣泛應用的分類算法——決策樹算法,具有條理清晰,定量、定性分析相結合,易于掌握,適用范圍廣等優點。決策樹模型中通常包含一個根結點,若干內部節點和若干葉結點,其中葉結點對應決策分類結果。目前已有很多學者進行了大量的基于決策樹模型的研究工作,同時開發了很多基于決策樹模型的分類系統,包括ID3、C4.5、CART、QUEST、C5等。Tso等人對比了決策樹算法和神經網絡模型在電力數據識別和預測方面的性能表現,結果表明二者具有一定程度上的可替代性。Tehrani等人基于決策樹模型對電力數據中可能存在的竊電行為進行檢測和識別,并取得了較好的結果。因此,本文同樣采用決策樹算法對PCA降維處理后的數據進行分析和檢測。

決策樹是一種十分常用的分類方法,其本質是由多個判斷節點組成的樹。樹的每個節點對應著一個特征,在每個節點處對數據進行分析,進而在樹的最末枝對電力數據是否異常給出最佳判斷。在某種意義上,該算法與傳統的人工算法類似,在數據集中的每一個特征上尋找一個閾值,根據這些閾值對數據進行分類,實現對異常數據的檢測和識別,不同的是利用機器學習算法自動地創建分類規則擺脫了主觀經驗的影響,檢測結果更加客觀、準確。因此,決策樹很容易轉化形成更加精準的分類規則,常常被應用于專家系統。在本文中,應用決策樹算法可以更直觀地理解和復核異常電費數據。

2.2 模型訓練

本文采用的CART決策樹算法,其類似于自頂向下的窮舉算法。該算法基于基尼指數最小化準則構建二叉樹。每個節點根據選擇的結果將該節點分裂為兩個或多個子節點,重復這一過程,直至達到對訓練集準確地分類或所有的特征已被選擇過。該算法具體操作步驟如下。

(1)令訓練數據集為S,計算PCA處理后的所有特征對S的基尼指數,此時對于每一個特征K,其可能取得的值為λ,根據此值將訓練集數據劃分為兩個部分W1和W2,然后令K=λ,可得基尼指數的表達式為:

(7)

(2)接著,在所有可能的特征以及可能取得的值中,選擇令基尼指數最小的特征和切分點將數據集劃分為兩個部分,即該節點分裂為兩個節點。

(3)在得到了兩個節點中,重復上述操作,節點不斷分裂,直到可以準確地對訓練集數據進行劃分或對所有特征均完成選取和訓練。

(4)完成決策樹的生成,對測試集數據進行分類,從而對異常的電費數據進行檢測和識別。

2.3 結果應用

從提高核算準確度、提升核算效率、轉變班組職能三個方面,利用信息化技術和手段,統籌各部門間的協調和合作,有效提升了電費核算工作,降低核算風險,推進電費結算的智能核算工作。

(1)提高核算準確度

通過核算集約化管理,借助信息系統的能力提升,電費核算部門集中管理,提高電費核算的準確度。一次性算費準確率提高到99.96%。

(2)提升核算效率

將原有的主要人工審核電費的工作方式,改變為信息系統根據審核規則智能篩選異常、精準定位問題,人工解決問題的模式。根據2021年10月以后的數據情況來看,攔截次數減少了84398次,電費筆數減少了51677筆,攔截有效率提升了9.82%。

(3)轉移核算重心

以信息系統自動推進替代原有的人工推進量費核算環節,減少人工工作任務,核算重心轉移到量價費的全面監控。

3 結語

本文針對傳統的基于主觀經驗的檢測方法難以及時高效地檢測和識別用電異常數據問題,結合了電力營銷數據和外部數據的特征分析和數據挖掘,對各影響因素的內在聯系做了一系列的研究,得到了影響或判斷異常用電的關鍵特征,并針對不同的類別的用戶對相關指標進行分別量化,例如低壓居民的用電量突增為近12個月均電量的2倍以上時,才被判斷為可能的異常用電,而同樣的指標,對于低壓非居民的用電量突增3倍以上時,其被判斷為用電異常的概率會提升。

基于PCA算法和決策樹模型,利用電力數據并結合外部天氣數據對電費智能核算進行建模,有效地提升了異常用戶識別的準確率,在降低了攔截用戶的總量的同時,顯著提升了有效的攔截率,錯攔和漏攔的異常用電數據大幅減少。依靠主觀經驗和判斷審核電費的工作方式,改變為利用機器學習系統進行自動的、智能的篩選異常、精準定位問題,有效提升了電費核算工作的效率,推進了電費結算的智能核算工作,有效降低供電企業的經濟損失,不斷提高企業的服務水平。

在未來的工作中,將不斷地收集更多可能影響異常用電的因素和提高算法的性能,進一步提高異常用電檢測和識別的精確性,同時實現對用戶異常用電的預測工作。

猜你喜歡
決策樹電費用電
基于ε-SVR模型的日電費回收預測
簡述一種基于C4.5的隨機決策樹集成分類算法設計
電費核算在電費管理中的重要作用
供電企業電費復核工作中需注意的問題研究
決策樹學習的剪枝方法
第12講 家庭電路與安全用電專題復習
學習用電小知識
1/8澳大利亞人付不起電費
決策樹在施工項目管理中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合