基于自適應分段云模型的電力異構數據聚類研究

2024-03-14 06:54張俊超馬占海嚴嘉正

自動化儀表 2024年2期

孫妍,張俊超,馬占海,嚴嘉正

(國網青海省電力公司信息通信公司,青海西寧 810008)

0 引言

隨著智能電網的廣泛使用,電網的智能化水平正在逐步提升,使得電網中的各類數據可以進行聚類[1]。云計算技術在電網中的廣泛運用,使得電網中的信息系統復雜化程度不斷降低。但是,隨著電力網絡異構數據的增加,為保證云計算網絡中電網的安全、穩定,需要對異構數據進行聚類,從而有效地排除異構無關冗余數據[2-3]。由于云計算模式下電力異構數據具有種類繁多、數據維度大、結構復雜的特點,所以電力異構數據聚類多為自適應分段式聚合[4]。對此,相關學者進行了研究。

龐傳軍等[5]提出基于長短期記憶(long short-term memory,LSTM)網絡的電力負荷聚類建模及特性分析方法。該方法采用LSTM自動編碼器提取負荷數據特征,采用k-means算法完成電力負荷數據聚類分析。該方法聚類精度較高,但是數據聚類較慢。梁京章等[6]提出基于核主成分分析(kernel principal component analysis,KPCA)和改進k-means的電力負荷曲線聚類方法。該方法將密度聚類思想結合k-means算法,以實現數據快速降維聚類。該方法數據聚類能力較強,但是容易產生冗余數據。Guleria K等[7]提出1種增強能量以降低傳感器節點分簇能量消耗的方法。該方法根據移動節點從固定節點中選擇簇頭,傳輸移動節點數據;利用粒子適應值計算繼節點的速度和位置,完成電力節點鏈路故障預測,提高網絡壽命。但是該方法的計算算力有待驗證。Kannan N等[8]利用遠程處理技術構建電力系統實時監控組件模型,以提高系統的可重用性和可擴展性。該方法使用具有公共對象請求協議的架構開發潮流監控模型,以解決實時經濟負荷調度和動態安全監控;結合潮流監測、動態安全監測和經濟負荷分配,優化分布式平臺體系結構,從而實現對電力系統的性能監測。但是該方法在復雜電網環境下的聚類收斂效果仍需進一步提升。

云模型由隸屬云與語言原子模型演化而成,采用數字特征描述具有定性概念特點的定量數值,可有效減少冗余數據。云模型通過不確定性轉化提高數據聚類速率,進而有效提升數據聚類效果?；诖?本文應用自適應分段云模型,采用Tent映射電力異構數據,通過云期望曲線方程計算數據聚類中心,利用熵值完成有序聚類。仿真測試結果表明,本文提出的基于自適應分段云模型的電力異構數據聚類方法的漂移基本特征聚類效果較優、分類聚類面積較大、聚類收斂效果較好、輪廓系數數值較高,能為電力系統的安全、穩定運行提供技術支持。本文研究對目前電力行業的異構數據處理進行了探討,對預測電力系統的發展趨勢具有重要意義。

1 基于Tent映射的電力異構數據預處理

電力系統包含發電、變電、輸電、配電等邏輯結構,所以電力數據具有多源異構的特點。同時,由于電力系統數據在云空間的分布較為分散,電力異構數據無法有效聚類,從而降低了數據聚類精度。Tent映射屬于混沌系統中的一種分段式線性函數[9]。利用拓撲共軛映射關系使數據空間分布均勻,可提高聚類尋優效率和求解精度。Tent映射的數學表達式為:

(1)

式中:zi為電力異構數據種群初始值;0<α<1。

本文將電力異構數據種群初始值轉化到數據個體搜索空間,建立Tent混沌映射序列,以完善數據遍歷。

(2)

式中:N為異構數據總量,MB;φi為種群規模;q為空間維數;Sm為元素數組;m為期望的類簇個數。

在有限維數據內積空間內,本文設定拓撲共軛映射關系,劃分異構數據數組:

(3)

式中:wij為數據空間中相同簇的i和j之間的距離。

本文將異構數據進行Z-score標準化[10],以擴大元素數組的組內相似性和組間差距,使數據空間分布均勻:

(4)

通過Tent映射的方式均勻數據空間分布,可以提高聚類尋優效率和求解精度,完成數據聚類預處理。

2 基于自適應正態云模型的數據聚類中心確定

正態云模型可以清晰展現Tent混沌映射關聯,確保數據空間內的電力異構數據元素數組的完整性和一致性。本文假設W為論域、E為論域上的定性概念。當定量值x∈W時,x對E的隸屬度函數為:

(5)

式中:ti為迭代時間,s;x0為簇首節點半徑處于隸屬度函數第一象限的概率[11];xi為簇首節點半徑處于隸屬度函數無效象限的概率。

通過隸屬度函數獲取穩定傾向隨機值后,本文使用正態云模型的期望值Fx、熵值Fn和超熵值Hf這3個數字特征,建立云期望曲線方程[12]。其中:Fx為定性概念中最具代表性的指標;Fn為定性理論模糊度衡量標準;Hf為期望值Fx的不確定性度量。

本文通過Fx和Fn確定電力異構數據元素數組的云期望曲線方程:

(6)

式中:n為正態云滴。

由于正態云模型是由x個正態云滴構成,需要對云滴性質進行判定。其詳細步驟如下。

③推算隨機值λ對E的隸屬度,以獲取論域內正態云滴性質。

(7)

式中:γ為隸屬度系數。

④反復執行步驟①～步驟③,直至獲取正態云模型中的所有正態云滴。

本文根據正態云滴性質對電力異構數據元素數組實施云化處理,并根據有限維電力異構數據元素數組中心向量確定數據聚類中心。

(8)

式中:σ為可能性劃分系數;l為電力異構數據元素數組到聚類中心的距離;vi為電力異構數據元素數組中心向量。

通過正態云模型中的期望值、熵值、超熵值獲取論域內正態云滴性質,可確定數據聚類中心,為后續有序聚類提供支持。

3 基于熵值的異構數據有序聚類

本文根據正態云模型的熵值評價Tent混沌映射序列異構數據穩定性、定義子序列分段條件,以提高分段聚合的有效性。本文設子序列為D(i0,j0),在數據聚類中心計算正態云模型最大熵值:

(9)

式中:T′j為Tent混沌映射序列在固定時間下的關鍵節點j的邊界域。

本文利用目標函數剔除最大熵值下的異構數據元素數組,以消除無關、冗余數據,使目標函數值達到最小。

(10)

式中:pi為離散隨機變量;φ為模糊加權指數。

本文在優化后的異構數據元素數組中定義分段聚合條件,并以pi作為異構數據相似度。異構數據元素的權重為:

(11)

本文根據di劃分異構數據聚類數組,創建di的權重熵元素數組Di;利用云分段聚合近似算法,對Di進行分段。

(12)

式中:lj為Tent混沌映射序列最大概率;li為對應的異構數據類簇特征狀態。

本文利用正態云模型描述異構數據在云分段聚合狀態下的聚類收斂結果,以完成異構數據有序聚類。電力異構數據有序聚類流程如圖1所示。

圖1 電力異構數據有序聚類流程圖

基于圖1所示流程,本文完成了電力異構數據有序聚類,有效解決了魯棒性問題,實現了基于自適應分段云模型的電力異構數據聚類方法的設計。

4 仿真測試

4.1 仿真環境

為了驗證基于自適應分段云模型的電力異構數據聚類方法的整體有效性,仿真測試在國網某公司信息通信數據庫中隨機選取2022年上半年的1 000組異構數據。其中:600組異構數據用于訓練;400組異構數據用于仿真測試。仿真測試利用本文方法、文獻[5]方法、文獻[6]方法,從漂移基本特征聚類、分類聚類面積、聚類收斂效果等方面進行對比分析。仿真測試平臺為Matlab R2022a。仿真測試分析在主頻為1 Hz的環境下完成。

4.2 仿真結果與分析

4.2.1 漂移基本特征聚類分析

訓練集在模擬聚類過程中存在異構數據點密集區域選取不當的情況,容易造成訓練集過擬合。因此,為了提高訓練樣本聚類均衡度,需要對異構數據聚集程度進行優化。仿真以漂移基本特征聚類作為測試內容,使用單個滑動窗口進行聚類擬合;以數據空間分布均勻、滑動窗口移動方向與漂移基本特征聚類路徑一致為較優的聚類結果。本文對比本文方法、文獻[5]方法和文獻[6]方法的漂移基本特征聚類效果。漂移基本特征聚類效果越優,則異構數據聚類求解精度越高。漂移基本特征聚類結果對比如圖2所示。

圖2 漂移基本特征聚類結果對比

由圖2可知,在相同基本特征的異構數據聚類擬合程度下,本文方法的數據空間分布較為均勻,且滑動窗口移動方向與漂移基本特征聚類路徑一致。而文獻[5]方法和文獻[6]方法的數據空間分布存在失衡,所得的異構數據漂移基本特征聚類過于雜亂。由此說明,本文方法異構數據聚類求解精度較好。這是因為本文方法采用Tent映射對電力異構數據進行聚類預處理。預處理后的異構數據不均衡性得到降低,進而使數據空間分布均勻,漂移基本特征聚類能力得以提高。

4.2.2 分類聚類面積分析

樣本項之間的相似度越高,則數據聚類效果越好。在相同基本特征的異構數據聚類擬合程度下將期望曲線相交,得到異構數據分類聚類面積,并根據樣本特征出現概率衡量聚類效果。分類聚類面積越大,則表明樣本項之間的相似度越高,且能有效減少無關、冗余數據,完成異構數據聚類。分類聚類面積結果對比如圖3所示。

圖3 分類聚類面積結果對比

由圖3可知,本文方法分類聚類面積(圖中S處)大于文獻[5]方法和文獻[6]方法,且異構數據聚類擬合效果較優。這是因為本文方法通過云期望曲線方程獲取了論域內正態云滴性質、確定了異構數據聚類中心,進而提升了期望曲線相交效果、擴大了分類聚類面積,從而有效完成了異構數據聚類。

4.2.3 聚類收斂曲線分析

基準測試函數可以測試算法在固定聚類負載下的性能。本文設定迭代次數為1 000次,以獲取目標函數平均收斂曲線。通過分析本文方法、文獻[5]方法和文獻[6]方法的目標函數收斂曲線,驗證本文方法的收斂性能。聚類收斂結果對比如圖4所示。

圖4 聚類收斂結果對比

由圖4可知,在迭代開始時,本文方法的收斂曲線快速下降。這是因為Tent映射預處理了異構數據,有效提高了算法的收斂速度。而文獻[5]方法和文獻[6]方法陷入停滯的次數高于本文方法。隨著迭代次數增加,本文方法能夠迅速跳出局部最優,并且可以較快地完成異構數據聚類。這是因為本文方法利用云分段聚合近似算法對異構數據聚類權重熵元素數組進行分類,有效提高了聚類的有序性,進而提升聚類收斂效果。

4.2.4 輪廓系數分析

輪廓系數是評價聚類效果的1種指標,可以在相同原始數據的基礎上評價不同方法對聚類結果產生的影響。輪廓系數的計算式為:

(13)

式中:a(k)為數據節點k到所有其屬于的簇中其他點的距離;b(k)為數據節點k到與其相鄰最近一簇內的全部點的平均距離。

輪廓系數值介于[-1,1],越趨近1代表聚類效果越好。測試樣本為400組用于測試的異構數據。數據以每100組為1個組別,共4個組別。不同方法的輪廓系數對比如表1所示。

表1 不同方法的輪廓系數對比

由表1可知,在聚類電力異構數據時,本文方法輪廓系數能保持在0.4以上;文獻[5]方法和文獻[6]方法的輪廓系數均在0.4以下。這說明本文方法的聚類效果較優,在聚類過程中充分考慮了電力異構數據的整體信息,可以正確分割類簇。

5 結論

為了提高云計算環境下電力系統運行的安全性和穩定性,本文提出基于自適應分段云模型的電力異構數據聚類方法。該方法通過引入自適應正態云模型,均勻異構數據空間分布、確定數據聚類中心,以實現異構數據有序聚類。仿真測試結果表明,本文方法在保證數據聚類速率和減少無關、冗余數據的基礎上,漂移基本特征聚類效果較優、分類聚類面積較大、聚類收斂效果較好、輪廓系數數值較高。這證明本文方法具有較強的聚類效果,可以為電力異構數據聚類系統設計提供理論支持。但在實際應用中,異構數據中也可能存在部分先驗信息。后續研究將考慮利用先驗信息進一步提高電力異構數據聚類性能。