?

數據流驅動的電壓三相不平衡異常檢測研究

2023-05-24 08:15王大鵬閆永昶劉通宇張園園袁培森
南京理工大學學報 2023年2期
關鍵詞:數據流三相電力企業

劉 波,王大鵬,閆永昶,劉通宇,張園園,袁培森

(1.國網蒙東電力供電服務監管與支持中心,內蒙古 通遼 028000;2.國網內蒙古東部電力有限公司,內蒙古 呼和浩特 010010;3.南京農業大學 人工智能學院,江蘇 南京 210095)

目前,我國電力智能不斷推進,受益于“智能電網”技術的深入研究,電力企業的數據管理和服務水平近年來有顯著提高[1]。智能電網引入自動化技術等手段對電力機器進行實時監測,對有可能出現的問題進行控制,實現故障快速診斷[2]。在電能數據管理中,電力企業普遍建立一個統一的、可復用的大數據平臺——數據中臺,將電能數據整合成數據資源并服務于各種電力業務[3]。但是隨著電力企業智能化的發展,電力數據中臺需要對不同時間、不同地理上離散的電能量大數據進行統一和標準化管理[4]。當前配電網主要依靠傳感器實現相關控制和監督功能,傳感器收集的數據量龐大[5],亟需更高效的電能數據中心和人工智能平臺[6]對大數據特征的電能量進行可靠的分析與挖掘,提高電力企業服務水平和經濟效益。解決其問題的關鍵是如何提高電能量數據的分析水平和質量。

電壓三相不平衡異常檢測是電力企業對電能量數據進行分析處理的一個重要部分。三相不平衡是評價電能質量評價體系中的一個重要指標,不平衡的電壓存在著正序、負序和零序3種電壓分量[7]。三相不平衡是指電力系統中這三相電流(或電壓)幅值不一致,且幅值差超過規定范圍[8]。引起三相不平衡的原因有多種,例如斷線故障,接地故障,因基頻諧振或分頻諧振引起供電電壓波動或閃變,三相負荷分配不合理等[9]。三相不平衡的所帶來常見危害包括:增加線路和配電變壓器的電能損耗,配變出力減少及產生零序電流,電動機效率降低,危害用電設備安全運行等[10]。相關學者對電壓三相不平衡異常檢測進行了相關研究,文獻[11]提出了一種基于距離的離群點算法定位疑似竊電用戶,其中討論了三相電流不平衡對于臺區線損率的影響。文獻[12]提出了一種基于多目標優化模型三相電壓負荷不平衡的治理策略,對三相電壓數據的異常檢測和挖掘,有助于提高電力企業智能化服務水平,為電網維護和故障定位提供參考依據。文獻[13]研究了一種基于保留非線性的三相配網狀態估計算法,該算法計即三相不平衡,從方法上解決了三相模型的非線性狀態估計,適用于由功率的實時量測和偽量測建立起的基本可觀、并有部分電壓量測的系統。

目前,由于智能電網和物聯網的迅速發展,電能量數據產生的速度不斷提高[14]。由于數據是實時產生的,對數據進行批處理耗費的成本過高,傳統的基于數據集的異常檢測已經難以滿足行業需求。另一方面,電能量數據是一種時間序列數據,由于異常是與時間和前后數據相關的,對于時間序列的異常檢測并不能孤立地考察每一個樣本點[15]。因此需要尋求一種面向數據流的異常檢測方法,去解決三相電壓的異常檢測問題。

根據對數據流的采樣建模方法,目前基于數據流的異常檢測方法主要可以分為基于神經網絡的和基于隨機森林的。前者以Numenta公司提出的使用分級瞬時記憶(Hierarchical temporal memory,HTM)人工神經網絡模型[16]為代表,這是一種自適應的、無監督的數據流異常檢測方法;后者以Amazon公司提出的魯棒性的隨機切割森林算法(Robust random cut forest,RRCF)[17]為代表,該方法基于隨機森林,提出了一種魯棒性的隨機森林結構,描述數據流和計算樣本異常評分。上述兩類方法在傳感器數據流和衛星遙測數據流的異常檢測上,被證明具有可行性和有效性,具有良好的應用前景。

本文通過神經網絡對數據流的特征進行建模,依據神經網絡模型對數據流進行判別。長短期記憶(Long short-term memory,LSTM)神經網絡是一種改進后的循環神經網絡?;贚STM可以進行長短期記憶的特性,常用于時間序列的預測,例如網絡攻擊數據預測[18]和用電數據異常檢測[19]等。LSTM的預測體現了數據流的特征,這可以很好滿足通過預測結果判斷數據流的異常分析的需求。

在上述研究和相關理論的基礎上,本文針對電力企業的電壓三相不平衡異常檢測這一實際問題,提出一種數據流驅動的異常檢測方法。本文方法主要關注數據流的異常檢測,基于時間序列數據的相關性,使用LSTM神經網絡三相電壓時間序列數據進行預測;設定滑動窗口,使用指數加權移動平均對誤差進行平滑,基于滑動窗口計算異常區間以判斷某一時間段是否出現異常。本文試驗部分選用電力企業提供的真實三相電壓時間序列數據,實現上述方法并進行試驗,試驗結果表明本方法相較于常用的異常檢測方法,包括孤立森林算法和支持向量機,對于三相電壓時間序列數據,召回率和綜合評價指標F1表現較好,表明本方法具有可行性和有效性,為電力企業進行三相不平衡異常檢測和分析提供了一種可行的方案。

1 電壓三相不平衡異常檢測框架

三相不平衡是評價電能質量的一個重要指標,三相不平衡超過了配電網可以承受的范圍,會給整體電力系統的安全運行帶來危害。三相不平衡問題屬于基波負荷配置問題[10]。三相電壓不平衡度的計算,如式(1)所示

(1)

式中:UA、UB、UC分別表示A、B、C三相電壓有效值,單位是V,max{·}和min{·}分別表示取最大值和最小值。根據現行《國家標準GB/T 15543-2008》規定的三相電壓不平衡度限值,接于公共連接點的每個用戶引起該點負序電壓不平衡度允許值一般低于1.3%[20]。

因此,鑒于三相不平衡對電力企業的重要性和數據價值,本文提出一種數據流驅動的電壓三相不平衡異常檢測方法,幫助電力企業對電能異常情況及時預警和定位,以此提升電力企業排障能力和電能數據處理分析水平,進而進一步提高服務質量和經濟效益。

本文提出的數據流驅動的電壓三相不平衡異常檢測方法,處理框架如圖1所示。主要包含以下步驟:

圖1 數據流驅動的電壓三相不平衡異常檢測框架圖

(1)對原始三相電壓時間序列數據進行預處理,檢查缺失值以及線性插值法對缺失值補充,提升數據質量;

(2)對原始電壓數據進行標準化處理,計算為標準分數;

(3)利用LSTM神經網絡對預處理和標準化后的三相電壓時間序列數據進行預測,預測值與實際值計算誤差;

(4)確定滑動窗口大小,使用指數加權移動平均法對誤差進行平滑;

(5)基于時間窗口,利用平滑誤差和描述統計方法計算給定異常區間,以此判斷時間窗口是否存在異常樣本點。

2 數據流驅動的異常檢測

2.1 數據預處理和標準化

從數據庫導出某臺區某段時間的三相電壓時間序列數據,主要數據項包括A、B、C三相電壓實際值,每條記錄包括時間戳。數據記錄產生的速度為每15 min采集1次。

在進行異常檢測前,需要對數據質量進行評估,原始數據通常會出現若干缺失值。對于時間序列數據,簡單地刪除包含缺失值的記錄是不合適的,本文使用線性插值法(Linear interpolation,LI)對缺失值的記錄進行插值補充。

為了體現原始電壓時間序列數據的模式特征,增強下一步驟的LSTM神經網絡的訓練效果,需要對數據進行標準化處理[21]。分別將A、B、C三相電壓值轉化為服從標準正態部分的標準分數,計算方法如式(2)所示

(2)

式中:xt是標準化三相電壓值,Xt是原始電壓值,μ和σ分別是原始電壓數據總體的均值和標準差。

經過上述預處理和標準化,得到標準化三相電壓時間序列數據xt。

2.2 LSTM神經網絡預測

一種基于循環神經網絡(Recurrent neural network,RNN)改進后的LSTM神經網絡可有效解決一般循環神經網絡存在的長期依賴問題[22],RNN能夠通過先前的事件推測后續的事件,使得信息的持久化保留和預測。RNN的隱藏層只有一個狀態h,對短期的輸入非常敏感,LSTM在此基礎上增加了一個長期狀態C,基于該特性,LSTM適合處理和預測時間序列。

如圖2所示,將神經元按照時間維度進行展開,使用LSTM對時間序列數據進行預測。

圖2 使用LSTM對時間序列預測示意圖

在t時刻,LSTM神經網絡的輸入有3個,當前時刻網絡的輸入值xt,上一時刻LSTM的輸出值ht-1,上一時刻的單元狀態Ct-1。

對于每一個LSTM神經網絡,其結構如圖3所示。圖3包含3個主要部分,分別是:①遺忘門,遺忘門保存了上一時刻的狀態Ct-1有多少保留至當前時刻ct;②輸入門,輸入門當前時刻的輸入xt有多少保留至單元狀態Ct;③輸出門,輸出門用于控制當前單元狀態Ct有多少輸出至當前輸出ht。系統最終輸出由狀態單元和輸出門共同決定。LSTM神經網絡通過3個控制開關來控制狀態C。LSTM神經網絡在t時刻的前向傳播,如式(3)所示[22]

圖3 LSTM神經網絡結構示意圖

ft=σ(Wf·[ht-1,xt]+bf)

it=σ(Wi·[ht-1,xt]+bi)

ot=σ(Wo·[ht-1,xt]+bo)

ht=ot°tanh(Ct)

(3)

式中:Wf、Wi、Wc、Wo分別為遺忘門、輸入門、細胞狀態更新、輸出門的權重矩陣,bf、bi、bc、bo分別為上述權重矩陣對應的偏置項,σ(·)代表sigmoid函數,tanh(·)代表雙曲正切函數,[·,·]表示向量的連接,符號st=βst-1+(1-β)et表示向量對應分量相乘得到一個新的向量。

對于LSTM神經網絡的訓練,需要確定上述8個參數的取值。使用反向傳播訓練算法進行訓練。其主要步驟[22]如下:

(1)首先,對每個神經元輸出值,進行前向計算,即按照式(3)計算ft、it、Ct、ot、ht的值;

(2)對每個神經元的誤差項δt,進行反向計算,沿2個方向傳播LSTM誤差項:①沿時間的反向傳播,即從當前t時刻開始計算每個時刻的誤差項;②向上一層傳播;

(3)根據相應誤差項δt,計算每個參數的梯度值,通過隨機梯度下降(Stochastic gradient descent,SGD)法迭代更新所有的參數。

在上一步驟中,將預處理和標準化后的三相電壓時間序列數據劃分為訓練集和測試集。利用反向傳播算法對LSTM神經網絡進行在訓練集上進行模型訓練,得到標準化電壓三相數據特征的模型,使用訓練出的模型,利用前向傳播算法得到基于該模型的預測值。

2.3 指數加權移動平均

由于三相電壓存在正常的波動性,直接使用上一步驟得到的LSTM神經網絡預測值與實際值的誤差et進行異常判斷會導致將大量正常樣本判定為異常樣本,因此需要對誤差et進行平滑。由于電壓時序數據是一種流式數據,本方法是數據流驅動的,因此需要充分考慮時間序列數據的相關性。

本文利用指數加權移動平均(Exponential weighted moving average,EWMA)[23]方法對誤差進行平滑,EWMA是一種針對時間序列數據的預測方法,也是一種常用的時間序列處理方式,在各種優化算法中有廣泛的應用。

(4)

其平滑誤差st定義如式(5)所示

(5)

式中:st-1是前一時刻(即時刻t-1)的平滑誤差,參數β是權重,其取值由滑動窗口大小進行確定。指數加權移動平均方法中,時刻t的預測值由上一期的預測值和前t-1期的實際值共同確定,其中從最近的時刻t-1到時刻0權重,以等比形式遞減。在優化算法中通常取β≥0.9,又由

(6)

當N足夠大時,βN≈0,其對應項的系數也趨向于0,因此計算時刻t的預測值僅考慮其前N期的真實值,即相當于維護一個長度為N的滑動窗口,N的取值由式(7)確定

N=1/1-β

(7)

三相電壓數據通常每15 min采集1次,在24 h內共計采集96次??紤]到電力企業實際應用需要,通常以1 d為周期進行分析,因此設定滑動窗口長度N=96,依據式(7)即可計算得到參數β的取值。

2.4 異常區間和異常樣本的判定

經過指數加權移動平均的平滑誤差st,與之對應的長度為N的滑動窗口的平滑誤差st的絕對值|st|體現了這段時間內三相電壓數據的異常程度,平滑誤差越大,則說明樣本點的異常程度越大。因此在滑動窗口的范圍內,若存在超過某一范圍的樣本點,則說明該時間段存在異常,這一個范圍稱之為異常區間。對于電壓三相不平衡的異常檢測,本方法設定的異常區間如式(8)所示

(8)

3 試驗分析

3.1 試驗環境

本文基于Windows 10系統,8 GB內存,Intel(R)Core(TM)i5-7200U,2.5 GHz處理器進行試驗。本方法全部基于Python 3.6實現,主要依賴包括sklearn 2.4、pandas和keras。

3.2 數據集及其劃分

數據集采用電力公司提供的臺區配變監測數據,時間范圍從2020年6月1日至2021年4月8日,每15 min采集1次得到1條記錄。對同一臺區的記錄,提取其中A、B、C三相電壓原始數據UA、UB、UC以及時間戳Timestamp,共計29 790條記錄。

獲得的數據集是帶有正常和異常標簽的,每一條記錄都帶有是否為異常的標記。選取數據集中70%的數據作為訓練集,30%的數據作為測試集。

3.3 評價指標

本文的異常值檢測結果評價,通過精確率(Precision)、召回率(Recall)和綜合評價指標F1(F1-measure)這3項指標進行評價,計算方式如式(9)~(11)所示

(9)

(10)

(11)

式中:TP、TN、FP、FN分別表示異常檢測為異常、正常檢測為正常、正常檢測為異常、異常檢測為正常的樣本點個數。精確率反映了方法識別得到異常是真實的比例,召回率反映了算法識別得到的異常覆蓋了真實異常的比例,綜合評價指標F1是精確率和召回率的調和平均數。

對于電壓三相不平衡異常檢測問題,“漏報”比“誤報”導致的后果要更加嚴重,召回率反映了對異常檢測的覆蓋程度,因此在評判異常檢測效果時,應當首要考慮召回率,其次考慮精確率。

3.4 試驗結果和分析

依據本文提出的數據流驅動的電壓三相不平衡異常檢測方法,首先,對數據集進行預處理和標準化。第二步,使用70%樣本構成測試集,對LSTM神經網絡進行訓練,通過反向傳播訓練算法訓練得到LSTM網絡權重矩陣和偏置項的參數取值。測試集由30%樣本構成,計算預測值和真實值的誤差,再通過指數加權移動平均得到的平滑誤差(滑動窗口大小N=96),計算異常區間判別是否產生異常(判斷異常的滑動窗口與指數加權移動平均的滑動窗口一致)。圖4給出了本方法所述的異常檢測過程和結果,包括數據標準化,LSTM神經網絡預測、計算誤差、指數加權移動平均平滑誤差、滑動窗口中異常區間的計算和檢測。

圖4 異常檢測的過程和結果

圖4(a)是原始的三相電壓數據,為了更好地描述其特征,將其進行標準化處理,得到圖4(b)的標準化三相電壓電壓數據。從圖4(b)可以看出,LSTM神經網絡能夠很好地預測三相電壓的變化趨勢,對標準化后的三相電壓時間序列數據的特征有較好的擬合,能避免電壓正常的周期性波動。圖4(c)展示了誤差和經過指數加權移動平均得到的平滑誤差,說明指數加權移動平均能夠顯著地在滑動窗口內平滑誤差的波動。圖4(d)展示了檢測出的一次異常,陰影部分標記了異常對應的滑動窗口,上下水平線指出異常區間的范圍,可以看到標記點由于落在了異常區間內,因此被判定為異常。

結合圖4(d)的異常檢測結果和圖4(a)的原始三相電壓值,可以看出在6月1日4時左右,電壓存在異常突變,表明本方法對于三相電壓數據流的異常檢測具有正確性和可行性。

對共計8 937個的樣本測試集,采用本方法進行異常檢測,計算檢測結果的召回率、精確率和綜合評價指標F1,試驗結果如表1所示。

表1 異常檢測結果和評價指標

從表1可以看出,使用本方法進行異常檢測,召回率表現較好,達到了98.01%,說明本方法對于真實異常的覆蓋表現較好,證明了本方法的對于電力企業具有一定的應用價值。

為了對比不同方法對于三相電壓數據集異常檢測的效果,本文還選取2種目前常用的異常檢測方法進行對比試驗,分別是孤立森林(Isolation forests,IF)[24]和支持向量機(Support vector machine,SVM)[25]。使用相同的數據集進行對比試驗,其中IF的主要參數設定為MaxSamples的數目設置為128,即抽取用于訓練每個基本估計量的樣本數量最大為128個,Trees的數目設置為100,即IF模型中包含的樹棵樹為100,Alpha參數設置為0.02,即學習速率為0.02;SVM的主要參數設定為C參數設置為1.0,即損失系數為0.1,Degree參數設置為3,即選擇的多項式最高次數為3次多項式,tol參數設置為0.001,即殘差收斂條件為0.000 1。數據集劃分的比例與之前的試驗保持一致,分別是訓練集占70%,測試集占30%。試驗結果如表2所示。

表2 3種異常檢測方法的對比結果

由對比試驗結果可以看出,本方法相較于IF和SVM,在召回率指標上提升顯著,分別提高6.87%和2.96%,說明本方法相較于IF和SVM,在對于真實異常的識別上,覆蓋程度較廣;在精確率指標上,有一定程度的提高,分別提高4.75%和6.03%,說明本方法能一定程度上降低正常樣本點被誤判為異常(即第一類錯誤)發生的概率,但是仍有較大提升空間;在綜合評價指標F1上,由于本方法在召回率上提升顯著,因此綜合評價指標F1相較于IF和SVM分別提高5.73%和4.62%。

綜上測試結果,本方法對于三相電壓數據流的異常檢測問題,相較于常用的IF和SVM方法,有著較好的異常檢測效果,在召回率指標和綜合評價指標F1有良好的表現,這驗證了數據流驅動的電壓三相不平衡異常檢測方法具有一定優越性和可行性。

4 結束語

本文針對電力企業的電壓三相不平衡異常檢測這一實際問題,提出一種數據流驅動的異常檢測方法。主要利用LSTM神經網絡預測和指數滑動移動平均針對數據流進行異常檢測。接著使用真實三相電壓時間序列數據進行試驗,試驗結果表明本方法相較于常用的異常檢測方法,在召回率和綜合評價指標F1上有提高。綜上所述,數據流驅動的電壓三相不平衡異常檢測方法具有可行性和有效性,為電力企業進行三相不平衡異常檢測和分析提供了一種可行的方案。

猜你喜歡
數據流三相電力企業
三相異步電動機保護電路在停車器控制系統中的應用
汽車維修數據流基礎(下)
電力企業物資管理模式探討
一種提高TCP與UDP數據流公平性的擁塞控制機制
中國電力企業的海外投資熱潮
關于電力企業生產管理信息系統的設計與實現應用
基于數據流聚類的多目標跟蹤算法
三相PWM整流器解耦與非解耦控制的對比
北醫三院 數據流疏通就診量
基于DSP和FFT的三相無功功率測量
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合