?

基于關聯信息熵和輕量級梯度提升機的油紙絕緣特征優選策略

2024-02-22 03:32賴汶鴻劉慶珍鄢仁武
電氣技術 2024年1期
關鍵詞:油紙等效電路信息熵

賴汶鴻 劉慶珍 鄢仁武

基于關聯信息熵和輕量級梯度提升機的油紙絕緣特征優選策略

賴汶鴻1劉慶珍1鄢仁武2

(1. 福州大學電氣工程與自動化學院,福州 350108; 2. 福建理工大學智能電網仿真分析與綜合控制福建省高校工程研究中心,福州 350118)

為了充分挖掘對變壓器油紙絕緣綜合診斷結果有利的老化特征量,提出一種基于關聯信息熵和輕量級梯度提升機(LightGBM)的特征量優選策略。首先,基于不同老化狀態的變壓器介電響應實測數據,提取不同類別的時域特征量形成初始高維特征空間;其次,引入關聯信息熵度量特征子集的相關性及冗余性,再利用輕量級梯度提升機評估特征的重要度,進而得到最優特征空間;最后,對比分析最優特征空間與不同對照組的診斷性能,有效驗證了基于所提優選策略確定的最優特征空間的優越性。

油紙絕緣老化;綜合診斷;關聯信息熵;梯度提升算法;特征選擇

0 引言

油浸式變壓器是變電站的核心設備之一,一旦發生故障,將嚴重影響電力系統的安全穩定運行。變壓器內部絕緣系統的劣化是變壓器發生故障的主要原因[1],因此準確評估變壓器油紙絕緣狀態具有重要意義。時域介電響應法包括回復電壓法(return voltage method, RVM)和極化/去極化電流(polari- zation and depolarization current, PDC)法,因其操作簡便、非破壞性測量等優點,被廣泛應用于油紙絕緣系統老化狀態研究中[2]。

目前,基于擴展德拜等效電路模型對時域介電響應過程進行建模,挖掘響應譜線和等效電路中蘊含的特征量,進而分析變壓器油紙絕緣狀態已有許多研究成果。文獻[3]從去極化電流陷阱密度譜中提取峰值max和峰值時間max兩個特征量;文獻[4]采用末端雙點解析法對去極化電流譜線進行解譜,提出繪制極化最大直譜線,并從中提取極化最大斜率和極化最大截距;文獻[5]從回復電壓單次測量曲線中提取半峰周期穩定時間s對回復電壓中后期極化過程進行補充說明。

不同特征量對變壓器油紙絕緣狀態的敏感度不同,因此根據單一特征量進行絕緣老化狀態診斷,易造成評估結果的偏差。為了全面準確地評估變壓器油紙絕緣狀態,學者們在綜合診斷模型中融合多個特征量對評估結果進行改善[6-7],如文獻[7]基于模糊K近鄰與證據理論建立多特征量綜合診斷模型,通過對各證據進行整合推理,獲得絕緣狀態的置 信度。

隨著研究的深入,在介電響應絕緣評估中被發掘和使用的特征量越來越多[8-9],如何在進行油紙絕緣老化評估時選取適當的介電特征量或特征集,直接關系到絕緣評估的準確度和效率。目前,多數綜合診斷策略[6-7, 10]的特征集構成沒有統一的標準依據,未考慮冗余特征和無關特征對絕緣老化狀態評估結果的影響,缺少對特征量深層次的對比分析。文獻[11]融合快速相關過濾算法和極限梯度提升對多個老化特征量進行優選,但將特征相關性與冗余性割裂判斷,忽視了特征子集的整體性能。同時,特征量隨研究的發展不斷更新,特征優化策略需要考慮新增特征量的影響,在特征優選初集中加入新的特征元素后,其優選結果可更好地改善油紙絕緣老化狀態評估的準確性與效率。

基于此,本文提出一種基于關聯信息熵和輕量級梯度提升機(light gradient boosting machine, LightGBM)重要度評估的兩級式優選策略。該優選策略引入關聯信息熵度量特征子集的組合效應,避免了特征相關性與冗余性的分割判斷,并結合特征量的重要度對多個時域介電響應特征量進行擇優選取,組成最優特征空間。通過搜集不同特征空間來對比論證最優特征空間的優越性,以驗證該優選策略的可靠性和有效性。

1 時域介電響應特征量分析

RVM和PDC兩種時域介電響應技術蘊含豐富的特征量信息,而擴展德拜模型的參數變化規律與絕緣材料的介電性能聯系密切,許多學者利用回復電壓譜和去極化電流譜求解擴展德拜等效電路參數,進一步獲取表征油紙絕緣狀態的特征量。綜上所述,時域介電響應特征量主要分為擴展德拜等效電路特征量、RVM特征量和PDC特征量。

1.1 擴展德拜等效電路特征量

變壓器油紙絕緣系統內部結構復雜,主要由絕緣油、絕緣紙、撐板等構成。一般采用如圖1所示的擴展德拜等效電路對油紙絕緣系統的極化響應過程進行研究分析[12]。

圖1 擴展德拜等效電路

圖1中的幾何等效支路由絕緣電阻g和幾何電容g并聯組成,極化等效支路部分則引入條RC串聯支路來模擬不同絕緣介質的極化過程。

現有研究中的擴展德拜等效電路特征量與絕緣狀態的關系見表1。

表1 擴展德拜等效電路特征量與絕緣狀態的關系

由表1可知,擴展德拜模型的元件參數與電路結構均與油紙絕緣狀態存在相關性。

1.2 RVM特征量

回復電壓法是較早出現的一種時域介電響應技術,其測試原理是使變壓器內部絕緣介質經過外加直流電壓充電的極化階段和短路放電的去極化階段后,將變壓器繞組開路并測量其兩端的回復電壓[13]。單次回復電壓測量曲線如圖2所示。

圖2 單次回復電壓測量曲線

調整充電時間c并反復進行測量,同時提取圖2中的重要指標,如初始斜率r、峰值時間peak等,可進一步繪制各類回復電壓極化譜?;趯W者們對回復電壓譜線的研究分析,各RVM特征量與絕緣狀態的關系見表2。

表2 RVM特征量與絕緣狀態的關系

由表2可知,現有特征量研究主要對RVM曲線的前、中部分進行分析,而缺少對曲線后半段的探索。

1.3 PDC特征量

極化/去極化電流法是另一種時域介電響應技術,其測量油紙絕緣介質在直流電壓激勵下的電流響應。PDC測量曲線如圖3所示。

圖3 PDC測量曲線

當絕緣介質受到恒定電場的影響時,內部會產生多種極化現象,其中位移極化會立即發生,而松弛極化的建立時間較長,形成隨時間衰減的極化電流p;當撤去外加電壓并短接兩極后,絕緣介質內部的極化電荷由定向排列逐漸變為無序狀態,形成去極化電流d[14]。

目前,許多學者深入研究去極化電流曲線,通過直接或間接的方式提取能夠反映油紙絕緣老化狀態的特征量。PDC特征量與絕緣狀態的關系見表3。

表3 PDC特征量與絕緣狀態的關系

由表3可知,與等效電路特征量和RVM特征量相比,學者們對PDC特征量的研究更深入、全面。

綜上所述,本文在文獻[11]所用特征初集的基礎上新增max、max、0、half4個PDC特征量,并將擴充后的特征空間作為后續優選策略的研究 對象。

2 特征優選策略

為了使多特征量診斷模型能夠高效、準確地評估變壓器絕緣狀態,本文采用關聯信息熵度量和輕量級梯度提升機算法相結合的兩級式優選策略來優化初始特征空間結構,確保特征空間的良好性能。

2.1 基于關聯信息熵的特征量相關性及冗余性分析

關聯信息熵從特征選擇的基本要求入手,充分考慮特征子集的組合效應,并在結果中同時體現特征與類別間的相關性及特征與特征間的冗余性[15]。

在關聯信息熵理論中,初始特征集合={1,2,…,x}被描述為含有個變量的多變量系統,而樣本類別信息={1,2,…,c}則是該系統的時間序列?;谔卣髋c樣本類別間的相關性,構造一個多變量時間矩陣,具體形式為

式中,矩陣元素I為每一個特征與相應類別的互信息。

I的計算式為

式中,(·)為熵;(·,·)為聯合熵。

計算特征相關矩陣為

特征子集內的特征獨立程度越高、與類別越相關,則其關聯信息熵越大。當關聯信息熵H=1時,表明特征空間中的各個特征相互獨立,提供互不相同的信息,否則特征空間存在冗余信息。

2.2 基于LightGBM的特征量重要度評估

LightGBM是基于梯度提升決策樹(gradient boosting decision tree, GBDT)的集成學習算法,其能夠可視化分析各特征量對油紙絕緣老化狀態的影響程度[16],從而進一步完善特征空間。

式中:y,k為x屬于類別的真實概率;p,m-1(x)為x在第-1棵決策樹中對應類別的概率,由式(7)計算得到。

結合式(6)和式(7),可以計算x在第棵決策樹中對應類別的負梯度值為

選擇負梯度值最大的葉子節點進行分裂,并計算其分裂后的節點值,根據學習率更新模型,進行重復迭代,即可得到第+1棵決策樹。

將特征列向量作為決策樹的分支節點,選用特征在決策樹迭代過程中被用作分裂節點的次數作為特征重要度的計算指標,具體計算為

3 優選策略的應用實例

3.1 初始特征空間的構建

基于第1節對3類老化特征量的分析,使用課題組已有的70余臺變壓器的繞組實測數據對表1、表2和表3中共33個特征量進行仿真計算,從而得到原始高維特征數據集。

傳統的特征優選算法通常會剔除2/3~3/4的特征,以及現有的綜合評估模型一般采用6~10維的特征集進行診斷,所以本文計劃將33維的原始特征空間經優選后的維度縮減至6~8維。

3.2 特征量相關性及冗余性分析

根據式(2)計算得到初始特征空間中各特征量與老化類別的互信息見表4。

表4 各特征量與老化類別之間的互信息

(續表4)

基于表4的互信息排名,可知max與老化類別相關度最大,故將其作為第一級優選空間的第1個特征量。

對剩余特征依次計算擴充空間的關聯信息熵,每次選取的特征量及當前擴充空間的關聯信息熵見表5,設置關聯信息熵閾值為0.1,并剔除熵值小于0.1的特征。

表5 各特征加入后擴充空間的關聯信息熵

(續表5)

由表5可知,擴充空間在特征量加入后,關聯信息熵減小到0.1以下,此時擴充空間內蘊含的有效信息已趨于飽和,后續特征量帶來的信息收益十分有限,同時也增加了特征空間維數。結合表4分析,paper、g、p-5000、I這些特征與老化類別的相關度排序靠后,故將表5中次序為19~32的特征量全部剔除。

3.3 特征量重要度評估

基于特征空間1建立LightGBM診斷模型,對模型進行多次訓練,每次剔除重要度較小的特征,直至特征空間維數縮減至最小閾值。鑒于篇幅所限,只展示最后4次模型訓練的篩選結果如圖4~圖7所示。

由圖4~圖7可知,滿足維數要求的特征空間3、4、5均包含3種類型的時域特征,涵蓋弛豫信息廣,但3中的特征量r重要度小于5%,不屬于顯著特征,故將4、5作為待選最優特征空間。

圖4 特征空間D2的特征重要度篩選結果

圖5 特征空間D3的特征重要度篩選結果

圖6 特征空間D4的特征重要度篩選結果

圖7 特征空間D5的特征重要度篩選結果

為了判斷兩個特征空間孰優孰劣,引入肯德爾系數衡量4、5內各特征量的等級相關性,其值介于[-1, 1]之間。當=1或=-1時,兩個特征擁有完全一致或相反的等級相關性;當=0時,兩個特征相互獨立。通過熱力圖可視化特征空間4、5的肯德爾系數矩陣,分別如圖8、圖9所示。

圖8 D4的肯德爾系數矩陣熱力圖

圖9 D5的肯德爾系數矩陣熱力圖

表6 特征空間WE包含的特征量

4 驗證與對比分析

4.1 設置對照組

為了突出應用最優特征空間E對變壓器絕緣狀態進行評估的優越性,同時體現本文所提優選策略濾除冗余信息的能力,現將E作為實驗組,并根據已有的老化特征數據集,挑選當前綜合診斷研究領域中涵蓋弛豫信息廣的特征空間及在E的篩選過程中形成的特征空間作為對照組。對照組來源 如下:利用關聯信息熵度量后排名前6位的特征空間1;文獻[11]基于快速相關過濾算法和極限梯度上升相結合的特征優選方法所確定的特征空間2;文獻[17]結合物元可拓模型進行絕緣診斷的特征空間3;文獻[18]融合灰靶理論進行評估的特征空間4。對照組各特征空間的特征量分布見表7。

表7 對照組各特征空間的特征量分布

4.2 診斷結果分析

為了檢驗最優特征空間對不同診斷算法的適應性,利用分類算法和聚類算法分別對表7中4個特征空間及最優特征空間進行絕緣診斷試驗,并對各特征空間的樣本數據進行多次4折交叉驗證,確保各算法模型的可靠穩定。所選擇的算法為支持向量機(support vector machine, SVM)、K最近鄰法(K-nearest neighbor, KNN)、LightGBM及K均值聚類(K-means clustering, K-means)。

各特征空間在不同算法模型中的診斷準確率見表8。為了更好地理解并描述診斷性能,計算診斷準確率的平均值、區間寬度及標準差,得到各特征空間診斷性能評價指標見表9。

表8 各特征空間在不同算法中的診斷準確率

表9 各特征空間診斷性能評價指標

基于表8、表9的診斷結果,進行如下分析:

1)診斷性能分析。最優特征空間E在各算法模型中的診斷準確率均高于90%,并且位居第一。結合平均準確率、區間寬度及標準差進行分析可以發現,最優特征空間E不僅能在各算法模型中保持高診斷準確度,而且波動性小、穩定性強。因此,E具有良好的診斷性能。

2)診斷結果差異性分析。從特征量的分布情況來看,最優特征空間E包含3種類型的特征量,蘊含的弛豫信息豐富,而只經過初步篩選的1僅含兩類,所以診斷結果差異性較大;從特征空間的組合效應來看,E統籌考慮了特征之間的冗余性及特征與老化類別的相關性,而2、3將二者割裂判斷,忽視了整體性能,因此診斷效果不如E;從特征量的選取依據來看,E是經過兩層篩選后得到的優選空間,而4的特征量則是主觀選取,缺乏合理依據,雖然保證了特征類型的多樣化,但存在較多的冗余信息,會對診斷結果產生負面影響。

4.3 最優特征空間的應用實例

為驗證本文所提優選策略在實際應用中的可行性,選取一臺投運17年的變壓器T1進行時域介電響應試驗,其型號為SZ10—50000/110并且絕緣狀態已知,根據最優特征空間E提取相關特征量。

根據表8中各算法模型的診斷準確率,選用SVM和LightGBM基于特征空間T1評估變壓器T1的油紙絕緣老化狀態,特征空間T1的診斷準確率見表10。

表10 特征空間WT1的診斷準確率

由表10可知,利用最優特征空間進行絕緣診斷的準確率高,這表明其具有實際工程應用價值。

5 結論

1)本文提出一種基于關聯信息熵和LightGBM的特征優選策略,通過探究特征子集的組合效應,確保特征空間與老化類別的高相關度,同時降低其信息冗余度,并結合特征重要度和肯德爾系數,合理確定特征空間維度,實現高維特征空間的優化。將從若干變壓器實測數據提取的特征量進行優選之后,最終確定特征優選集為{g、、r、cdom、max、}。

2)基于診斷準確率平均值、區間寬度及標準差檢驗最優特征空間的優越性,結果表明其診斷性能明顯優于其余對照特征空間,并且對不同的算法模型具有良好的適應性,體現了本文所提優選策略的有效性。

3)本文所提優選策略兼顧特征相關性及冗余性,卻與特征重要度分割判斷,這可能會遺漏或重復考慮部分弛豫信息,從而影響特征空間的性能。因此,在后續關于特征優選方法的研究中可以關注評價指標的有機結合,加強各個優選階段的聯系。

[1] MHARAKURWA E T. In-service power transformer life time prospects: review and prospects[J]. Journal of Electrical and Computer Engineering, 2022, 2022: 1-20.

[2] 徐晴川, 王圣康, 林福昌, 等. 基于時頻域介電響應的絕緣油弛豫過程分析[J]. 電工技術學報, 2022, 37(9): 2355-2365.

[3] 蔡金錠, 陳漢城. 基于陷阱密度譜特征量的油紙絕緣變壓器老化診斷[J]. 高電壓技術, 2017, 43(8): 2574-2581.

[4] 張曉燕, 劉慶珍, 蔡金錠. 基于末端雙點解析法的變壓器油紙絕緣新特征量提取及老化診斷[J]. 高電壓技術, 2019, 45(10): 3317-3326.

[5] 蔡超, 劉慶珍, 范映, 等. 基于油紙絕緣變壓器回復電壓法的半峰周期極化譜分析[J]. 電氣技術, 2020, 21(3): 79-83.

[6] 林曉寧, 蔡金錠. 基于粗糙集理論的變壓器油紙絕緣狀態評估[J]. 電力系統保護與控制, 2019, 47(7): 22-29.

[7] 鄒陽, 俞豪奕, 金濤. 融合模糊K近鄰及證據理論的變壓器油紙絕緣狀態評估方法[J]. 電力系統保護與控制, 2023, 51(14): 55-63.

[8] 蘇凱強, 劉慶珍. 基于TLS-ESPRIT算法的變壓器油紙絕緣等效電路參數辨識及新特征量提取[J]. 電氣技術, 2022, 23(7): 89-96.

[9] 劉慶珍, 張曉燕, 蔡金錠. 油紙絕緣弛豫法譜線特征量提取及老化診斷[J]. 電機與控制學報, 2020, 24(5): 124-134.

[10] 劉慶珍, 陳俊鴻. 基于等級云模型的油紙絕緣老化狀態評估[J]. 高壓電器, 2023, 59(1): 176-184.

[11] 劉慶珍, 黃昌碩. 基于FCBF特征選擇和XGBoost原則的油紙絕緣介電響應特征量優選研究[J]. 電力系統保護與控制, 2022, 50(15): 50-59.

[12] 楊峰, 唐超, 周渠, 等. 基于等效電路的油紙絕緣系統受潮狀態分析[J]. 電工技術學報, 2020, 35(21): 4586-4596.

[13] 蔡金錠, 葉榮, 陳漢城. 回復電壓多元參數回歸分析的油紙絕緣老化診斷方法[J]. 電工技術學報, 2018, 33(21): 5080-5089.

[14] 高浩, 劉慶珍, 蔡金錠. 基于去極化電流Prony擬合的油紙絕緣德拜參數辨識方法[J]. 高壓電器, 2020, 56(11): 210-218.

[15] 楊銀松, 郭英, 李紅光, 等. 基于CMFS-MIC特征選擇的跳頻電臺個體識別方法[J]. 計算機應用研究, 2019, 36(12): 3811-3814.

[16] 周璇, 熊智翔, 黃曉斐, 等. 基于兩步特征選擇和貝葉斯優化LightGBM的冷水機組故障診斷策略研究[J]. 建筑科學, 2022, 38(12): 51-60.

[17] 傅澤坤, 劉慶珍. 基于物元可拓模型的電力變壓器絕緣老化研究[J]. 電氣技術, 2021, 22(5):32-37.

[18] 蔡金錠, 陳漢城. 基于樣本集的變壓器油紙絕緣狀態區間灰靶分類及老化診斷[J]. 高電壓技術, 2018, 44(8): 2486-2492.

Optimization strategy for oil-paper insulation features based on correlation information entropy and light gradient boosting machine

LAI Wenhong1LIU Qingzhen1YAN Renwu2

(1. College of Electrical Engineering and Automation, Fuzhou University, Fuzhou 350108; 2. Fujian Provincial University Engineering Research Center for Simulation Analysis and Integrated Control of Smart Grid, Fujian University of Technology, Fuzhou 350118)

In order to fully explore the aging features, which are beneficial for comprehensive diagnosis results of transformer oil-paper insulation, a feature optimization strategy based on correlation information entropy and light gradient boosting machine (LightGBM) is proposed. Firstly, the initial high-dimensional feature space is formed with various time-domain features, which are extracted from the measured data of dielectric response of transformers in different aging states. Secondly, the correlation and redundancy of feature subsets is measured by correlation information entropy. Then the importance of features is evaluated according to LightGBM, so as to obtain the optimal feature space. Finally, the diagnostic performance of the optimal feature space is compared and analyzed against different control groups, and the superiority of the optimal feature space determined through the proposed optimization strategy is effectively verified.

oil-paper insulation aging; comprehensive diagnosis; correlation information entropy; gradient boosting algorithm; feature selection

國家自然科學基金項目(51807030)

2023-10-23

2023-11-12

賴汶鴻(1999—),男,福建省晉江市人,碩士研究生,研究方向為電力設備絕緣老化診斷。

猜你喜歡
油紙等效電路信息熵
磁致伸縮振動能量收集器的全耦合非線性等效電路模型
基于撕裂法的變壓器繞組集總參數等效電路頻率響應計算方法
基于信息熵可信度的測試點選擇方法研究
特高壓變壓器油紙絕緣典型缺陷局部放電特征
基于信息熵的實驗教學量化研究
一把紙扇記憶成河
一種基于信息熵的雷達動態自適應選擇跟蹤方法
絕緣紙板老化對油紙絕緣沿面放電發展規律的影響
基于信息熵的IITFN多屬性決策方法
油紙電容式套管故障統計分析及模擬測試研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合