?

基于主成分分析和梯度提升樹的變電設備狀態評價

2022-11-21 04:38馬洪斌王文峰石峰楊飛郇帥
電力大數據 2022年4期
關鍵詞:梯度變電狀態

馬洪斌,王文峰,石峰,楊飛,郇帥

(國網棗莊供電公司,山東 棗莊 277000)

電網的安全穩定運行是保障電力可靠供應的基礎,作為電網組成部分的電力設備是否得到及時、準確的監測對于電網堅強運行至關重要。通過對設備進行有效的監測分析,了解設備的整體運行狀況,可大大降低設備故障發生的概率,保障居民穩定用電和經濟社會高效發展[1-3]。

隨著大數據分析技術在電力領域的廣泛應用,變電設備監測分析的方法也得到廣泛的研究,文獻[4]針對變電設備狀態評價參數復雜多樣且各參數之間存在不明確的關聯關系,應用主成分分析構建參數體系。文獻[5]針對輸電線路的狀態評價問題,提出了構建多棵決策樹組合模型。文獻[6]針對設備的類別及設備數據的結構,通過構建支持向量機分析模型進行狀態評價。文獻[7]通過對變壓器運行過程中的監測數據及變壓器的缺陷故障等數據進行處理,并提取其故障特征向量,進行數據建模和優化處理,實現對變壓器故障識別的高準確性。

變電設備的狀態評價影響因素眾多,設備參數、運行工況、試驗數據等信息均與設備的狀態密切相關,隨著大數據技術應用和數據中臺建設,加快了電力數據分析和應用,中臺的建設,逐步實現對設備信息、運行信息等大量數據的集成共享,逐漸形成了電力大數據體系,結合大數據分析技術對設備進行狀態監測有了強力的支撐[8-10]。

本文第一部分首先提出了變電設備關鍵參數體系,第二部分介紹變電設備狀態評價分析模型的搭建,第三部分展示變電設備狀態評價結果。通過對建立設備的參數體系,提取設備的特征信息,采用梯度提升樹算法搭建設備監測分析模型,實現對設備的精準、快速、可靠分析。

1 變電設備關鍵參數體系建立

1.1 變電設備參數選擇

變電設備從出廠到現場運行到發生缺陷及故障直至報廢過程中會產生大量的信息及數據,這些數據通常表征著設備的運行狀態。通過對設備的運行數據進行統計分析,可以將設備數據分為靜態參數、實時參數、準實時參數[11-13],將三類參數作為電力設備狀態評價的因素對設備的運行狀態進行識別。靜態參數信息主要包括設備的技術參數、投運日期、地理位置、出廠實驗參數等。實時參數信息主要是設備的在線監測信息及運行環境氣象信息。準實時參數據信息主要是設備的帶電檢測數據、設備的故障、缺陷及檢修等信息。通過對變電設備的靜態參數、實時參數、準實時參數進行分析,滿足設備狀態評價的科學性和準確性。

本文分析的變電設備主要是110kV及220kV變電站內的設備,包括油浸式變壓器、互感器、開關等。結合設備的實際運行分析和設備狀態評價研究,對變電設備的運行參數進行選擇。針對電壓互感器、電流互感器、斷路器和隔離開關的特征主要包括基本參數、缺陷數據和試驗數據。由于目前變電站內的高壓變壓器設備主要是以絕緣油作為介質,在實際的運行過程中,隨著負荷的增加,油溫的變化,油中會產生大量的氣體,通過對油中氣體進行監測分析和試驗研判,實現變壓器的運行的有效監測,因此對變壓器設備的特征選取主要包括基本參數、油中氣體、缺陷數據和試驗數據。

根據特征提取獲得的基本參數信息、油中氣體數據信息、缺陷數據信息和試驗數據信息,通過關鍵字段關聯生成樣本數據寬表,在對樣本數據的標簽定義上,通過結合實際的工作對每條樣本數據集的故障類型進行標簽化,包括正常、注意、異常等三種狀態類型。將得到的變電設備狀態評價特征信息和所對應的故障類型信息作為新的數據集,對數據集進行數據預處理操作,確保數據的完整性和可靠性。針對數據集數據存在缺失的情況,采用前一項或后一項數據進行填充,對缺失值進行補全。針對數據集中數據由于采集裝置異常等原因造成的數據異常問題,對異常數據進行刪除操作,得到干凈的數據。由于機器學習只能識別數值,無法對狀態的文字進行判斷,因此將電力設備的狀態信息進行數值化處理,對設備狀態評價結果正常、注意、異常三種狀態分別采用0、1、2表示,得到完整的電力設備樣本數據集[14-15]。數據集包括每條樣本設備數據的參數及數據對應的設備運行狀態。

圖1 設備參數Fig.1 Parameters of equipment

結合設備的靜態參數、實時參數、準實時參數,對設備參數進行選取,所用的參數如下:運行天數、運行月數,運行年數,設備類型,設備廠家,電壓等級,氣體數據、缺陷總次數,危急缺陷次數,嚴重缺陷次數,一般缺陷次數,已消缺缺陷數,未消缺缺陷數,設備試驗數據,設備名稱編號等15項參數數據。

1.2 提取主成分

主成分分析是一種將多變量進行組合,從而得到較少變量的一種降維方法。原始的變量之間存在關聯關系,通過線性組合的方式生成互不相關的綜合指標,即主成分。通過主成分分析可以大大減少變量的個數,降低數據之間存在的關聯關系導致的信息冗余等問題[16-17]。

基本原理是假設有p個綜合評價的原始指標x1,x2,…,xp,設定這些指標在m個單位之間進行比較,則共有mp個數據。主成分分析是把原始的指標進行組合形成新的互不關聯的新的指標y1,y2,…,yp,新的指標為原始指標的線性組合函數:

(1)

由以上的分析可以得到綜合指標yi之間是線性不相關的。主成分分析得到的新的指標y1,y2,…,yp,對于新指標的方差按照從大到小的順序進行排序,p個綜合指標的方差之和等于原始指標的總方差。若p個綜合指標的前r個即可以有效地表征原始指標的信息,那么我們就將r值作為我們得到的主成分個數。通過主成分分析,我們將指標的個數由p個降為r個(r

主成分分析的步驟主要包括以下。

(1)對原始數據進行標準化處理。得到的數據往往由于量綱或者數量的大小存在差異,影響分析結果,因此在進行主成分分析之前,對數據進行標準化。

(2)查看指標之間的關聯關系,通過計算指標之間的協方差,得到協方差矩陣。

(3)計算協方差矩陣的特征值和特征向量,識別主成分。主成分是原始指標線性組合得到的,之間相關獨立互不關聯,第一個主成分中包含了最多的信息,第二個主成分第二多,以此類推。得到p個主成分,其相加信息等于原始指標。

(4)通過特征值的順序對特征向量進行排序,從最高到最低,即得到按重要性排序的主成分,根據實際需求選擇合適的主成分進行評價分析。

2 變電設備狀態評價分析模型

2.1 梯度提升樹模型

決策樹是一種采用樹狀結構對數據進行分類的分析模型。通常應用于預測分析,通過決策樹對大量的數據進行分類分析,找到數據內部潛在的價值信息。決策樹分類樹結構簡單易懂,描述簡單,分類速度較快,便于人們理解,同時決策樹的樹狀分析結構決定了在構建決策樹模型時不需要大量的額外訓練數據進行學習[19-20]。

通常采用信息熵對決策樹進行屬性選擇,信息熵是描述消息中,不確定性的值,也叫不確定程度。熵越低,不確定性越低,就更容易得到確定的信息;熵越高,不確定性就越高,就難以得到確定的信息。在決策樹種由于存在各個分支,各個分支中的樣本數量又是不同的,若某一個分支中含有的樣本數越大,則它的影響就越大,考慮到該問題采用權重方式進行處理。因此我們采用信息增益的方式對分支進行選擇若計算得到信息增益值較大,則表明使用該屬性進行分支劃分時信息的純度越高,效果越好。

決策樹的生成步驟如下所示:

(1)首先是所有的特征均為符號值,即離散值。如果某個特征的值為連續值,那么需要先將其離散化。

(2)決策樹中包含有根節點、葉節點以及中間的路徑,一個節點代表一個對象,在節點之間的分叉路徑處代表屬性值,從根節點到葉節點中間的路徑代表對象值。某一個節點數據若都屬于同一類型的話,那么該節點就是葉節點。若樣本數據不是同一類型的話,我們就利用信息熵、信息增益來對樣本數據進行劃分,選擇信息增益大的特征作為根節點。

(3)依次遞歸,直至特征劃分時信息增益很小或者為特征可以劃分,我們就得到了決策樹模型。遞歸操作的停止條件為:一個節點中所有樣本數據均為一類;沒有特征可以用來對該節點樣本進行劃分;沒有樣本能夠滿足其他特征的取值。

梯度提升樹是一種組合的算法,通過對多個決策樹的結果進行求和得到梯度提升樹的識別結果。每棵決策樹針對其中的部分數據做出預測,所有樹的結果加起來即可以很好地分析最終結果,通過增加樹的數量,可以不斷迭代提升識別性能,是一種泛化能力較強的算法,占用內存較少,且預測速度較快[21-22]。

X為屬性向量,假設梯度提升樹模型生成了n個弱回歸樹,每一個弱回歸樹得到一個預測結果fi(X),i=1,2,…,n,f0為模型的初始值,則梯度提升樹的預測結果為n個弱回歸樹的預測結果之和,

F(X)=f0+f1(X)+…+fn(X)

(2)

梯度提升樹的步驟如下。

對于給定的訓練集數據,表達式如下:

T={(X1,y1),(X2,y2),…,(XN,yN)},

Xi∈γ∈Rn,yi∈γ∈R

(3)

N為訓練樣本數據的個數,對于每個樣本數據Xi都含有z個變量(x1i,x2i,…,xzi),損失函數為L(y,f(x)),假設進行了M次的迭代過程,則梯度提升樹的實現步驟如下所示。

(1)對模型進行初始化。首先我們要找到一個常數值c,確保常數值使得損失函數L最小,

(4)

對于這里的回歸樹模型,我們采用平方誤差損失函數:

(5)

式中:y為真實值;g(x)為預測值。

(2)迭代過程。迭代的總次數為M。

1)對于i=1,2,…,N,通過計算得到損失函數的負梯度:

(6)

對于平方誤差損失函數,其梯度為:

(7)

將梯度函數負梯度表達式進行簡化得到:

rmi=yi-fm-1(Xi)

(8)

當我們利用平方誤差函數進行求解時,上式得到的誤差稱為擬合殘差。

2)我們將得到的(Xi,rmi),i=1,2,…,N從新作為訓練數據,繼續使用回歸樹模型進行學習,這樣就得到了若干個葉節點區域,Rmj,j=1,2,…,J,其中J為第m顆弱回歸樹的葉節點數。

3)針對葉節點區域Rmj,j=1,2,…,J,我們利用線性搜索的方法求解使損失函數最小時所對應的常數c的值,

(9)

4)更新強回歸模型為:

(10)

式中:I()是指示函數,當Xi落入Rmj中,該值為1,否則該值為0。

(3)通過迭代,并結合式(1)我們得到了最終的預測模型:

F(X)=fM(X)

(11)

2.2 變電設備狀態評價流程

影響變電設備狀態評價的特征信息較多,考慮到大量信息作為特征輸入會降低模型學習的時間和效率。對選取的運行天數、運行月數,運行年數,設備類型,設備廠家,電壓等級,氣體數據、缺陷總次數,危急缺陷次數,嚴重缺陷次數,一般缺陷次數,已消缺缺陷數,未消缺缺陷數,設備試驗數據,設備名稱編號等15項參數作進一步的篩選,選擇差異性明顯的指標變量作為建模變量。通過對15項參數進行均值和標準差計算,并用非參數檢驗方法對各參數進行校驗,發現設備廠家、氣體數據和試驗數據的P值均大于0.05,指標差異性不顯著剔除,保留12項特征參數信息。通過對含有12項特征信息的數據集分為訓練集和測試集數據,以訓練集數據進行識別分類器模型構建,并通過測試集數據驗證模型的準確性。選擇準確率較高的分類器作為我們的故障識別模型。進一步對12項特征參數信息進行主成分分析,選擇合適的主成分因子個數,分析因子貢獻率,得到降維的表征設備狀態的主成分。將新的特征信息作為樣本數據集,劃為訓練集和測試集,以訓練集數據進行訓練學習得到設備的狀態識別模型,利用測試集數據對模型的識別結果進行驗證分析。模型采用梯度提升樹作為狀態識別模型,為驗證模型的準確性,同時采用決策樹、隨機森林等多種模型進行分析,并結合交叉驗證進行驗證[23]。

3 變電設備狀態評價結果

將含有12項特征參數的數據集分為訓練數據和測試數據進行數據建模和模型驗證,并通過與決策樹、隨機森林、AdaBoost、KNN、神經網絡、支持向量機、XGBoost、LGBM等分類器進行比較分析[24-29]。數據集數據為474條,訓練集數據為332條,測試集數據為142條。各分類器的分類識別結果如表1 所示。

表1 不同分類器識別結果Tab.1 Identify results of different classifier

從表中的分析結果可以看出在9個分類器中,KNN的訓練用時最小,僅為0.006s,但是其訓練集和測試集的準確率過低,分別為0.801、0.601。梯度提升樹的訓練用時較長為1.349s,但是訓練集和測試集的準確率較高,分別為1、0.839。在實際工作中,檢修運維人員對于設備的狀態評價考慮更多的是識別結果的準確率,因此我們舍棄訓練時間因素,考慮高識別率,最終選擇梯度提升樹作為我們的變電設備狀態識別模型。

進一步對梯度提升樹分類模型的識別結果進行分析,細化每類設備狀態的識別結果,得到如下表2的結果。

表2 變電設備不同狀態識別結果Tab.2 Identify results of different status of substation equipment

由以上的分析結果可以看到,模型對于正常狀態、注意狀態的識別準確率較高,分別為85.91%、83.10%,由于異常狀態的數據樣本數較少,導致識別效果較差。

為進一步優化狀態評價模型的特征參數,通過主成分分析對特征參數進行方差解釋,獲得主成分分析的個數及每一個成分的貢獻率和主成分的累計貢獻率,得到結果如下表3所示。

表3 主成分分析結果Tab.3 Analyze results of principal component

基于以上的分析結果可以看出在主成分4時,總方差解釋的特征根低于1,變量解釋的貢獻率達到75.321%,可以有效地表征設備的特征,因此我們選擇四個主成分進行分析。

表4 主成分分析因子載荷系數Tab.4 Load coefficient of analyze fctor of principal component

上表為因子載荷系數表,可以分析到每個主成分中隱變量的重要性。在主成分1中缺陷總次數、一般缺陷次數、已消缺缺陷數的權重較大,主要體現為缺陷數據對特征的影響;在主成分2中天數、月數和年數的權重較大,主要體現為設備的運行時間對特征的影響;在主成分3中,危急缺陷次數、嚴重缺陷次數的權重較大,主要體現在缺陷的程度對特征的影響;在主成分4中,主要是設備的運行時間對特征的影響,在共同度分析中,可以得到電壓等級、嚴重缺陷次數和未消缺缺陷數的權重較小,因此排除掉電壓等級、嚴重缺陷次數和未消缺次數,保留其他參數作為主成分。

將含有天數、月數、年數、設備類型、num、缺陷總次數、危急缺陷次數、一般缺陷次數、已消缺缺陷數等9項特征參數的數據集分為訓練數據和測試數據進行數據建模和模型驗證,選擇狀態識別模型為梯度提升樹,對訓練集數據進行驗證分析,數據集數據為474條,訓練集數據為332條,測試集數據為142條。梯度提升樹的分類識別結果如下表5所示。

表5 主成分分析分類識別結果Tab.5 Results of calssifying identify of principal component

由上表的識別結果可以看出,基于主成分分析獲得新的特征數據集,通過梯度提升樹分類器模型進行建模分析,訓練集、交叉驗證集和測試集的準確率分別為1、0.758和0.881,相比于未進行主成分分析的故障識別結果0.839,準確率上升了0.042。

對每類設備狀態的識別結果進行分析,得到如下表6結果 。

表6 變電設備不同狀態識別結果Tab.6 Identify results of different status of substation equipment

由以上的分析結果可以看出正常狀態、注意狀態的識別準確率分別為83.10%、94.37%,相對于主成分分析之前的結果得到了大大的提升,同時我們得到注意狀態的識別準確率達到94.37%,相比于未進行主成分分析之前的識別率83.10%,提高了11.27%,注意狀態的識別效果更好,對于我們在日常的變電設備監測中具有較好的指導意義。

4 結語

本文通過梳理變電設備的參數體系,選擇特征信息,采用主成分分析獲得新的特征參數集,搭建梯度提升樹分類模型,并與其他類型的分類器識別結果進行比較分析,驗證梯度提升樹的準確性,對于設備的監測分析具有重要的意義。在特征的選擇上結合數據分析技術進行優化,將會進一步提升狀態評價結果的準確性和可靠性。

猜你喜歡
梯度變電狀態
變電運維風險及技術檢修分析
35KV以下變電檢修存在的問題及其改進方法探討
變電運維中隱患風險分析與應對技術
一個具梯度項的p-Laplace 方程弱解的存在性
內容、形式與表達——有梯度的語言教學策略研究
智珠二則
航磁梯度數據實測與計算對比研究
生命的另一種狀態
組合常見模型梯度設置問題
變電運行設備維護技術的分析與應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合