姜 坤,張 帥,傅 翔,史二禎,安博文,陳元林,崔桂艷
(1.國家能源集團東臺海上風電有限責任公司,江蘇 東臺 224200;2.上海安馨信息科技有限公司,上海 201306)
當海纜敷設深度過淺或裸露在海床表面時,會受到海水腐蝕、船舶錨害、漁網拖拽等。海纜受到損傷后會產生缺陷,容易造成故障發生,若不及時發現并修復將會威脅到電網系統的安全穩定運行,因此有必要對海纜淺埋進行識別[1]。海纜淺埋狀態識別常采用溫度分析法,而現場采集的溫度信號具有非平穩、非線性特點,如何從溫度信號中提取有效特征是進行狀態識別的關鍵。隨著狀態識別理論研究的深入,學者們提出了各種狀態識別方法,例如:EMD[2]、BP神經網絡[3]、小波分析[4]和SVD[5]等。隨著人工智能技術的不斷發展,深度學習體系結構即遞歸神經網絡(RNN)[6]、卷積神經網絡(CNN)[7]、長短期記憶(LSTM)[8]等在狀態識別領域中得到廣泛的應用。
利用經驗模態分解(EMD)[9]處理光纖溫度信號可以降低噪聲和提取狀態特征,但其存在端點效應及模態混疊等問題;Wu等[10]提出集合經驗模態分解(EEMD),在模式混疊問題上比原始EMD有很大改進,但得到的IMF中會殘留一定的白噪聲;Torres等[11]提出完備集合經驗模態分解(CEEMDAN),可以有效解決模態混疊和殘余噪聲問題,但需要一個試錯過程來獲得信號的良好分解。針對這些問題,Dragomiretskiy等[12]提出一種非平穩信號處理方法:變分模態分解(VMD),對采樣和噪聲具有較好的魯棒性,可以降低復雜度高和非線性強的時間序列非平穩性,分解獲得包含多個不同頻率尺度且相對平穩的子序列,廣泛應用于故障診斷和狀態識別。文獻[13]提出優化的VMD方法,分別利用遺傳算法和包絡峰度的最大值確定VMD的模態分量個數。
海纜狀態識別的關鍵在于光纖溫度信號的特征提取,通過構建混合域特征集,提取時域特征、頻域特征和時頻域特征,盡可能全面的從溫度信號中提取狀態特征信息。但高維特征集中會存在冗余特征,影響模型的識別結果和計算效率。所以,需要對高維特征集進行降維[14],主要有主成分分析(PCA)[15]、核主成分分析(KPCA)[16]、距離評估技術[17]等。文獻[18]提出一種基于補償距離評估技術的特征選擇方法,從聲發射信號中提取特征集,提高故障診斷的準確度。
近年來,深度學習在狀態識別領域得到了一定的應用[19]。長短時記憶網絡作為其中的主要方法之一,通過疊加多個LSTM層,利用輸入和輸出之間的非線性映射層進行分層特征學習,能夠從不同方面學習原始信號的特征,加速收斂并細化原始數據的非線性操作[8]。
針對上述方法,本文提出一種基于優化VMD混合域特征和LSTM的海纜淺埋狀態識別方法,實現海纜淺埋狀態的準確識別。
VMD基于維納濾波理論,Dragomiretskiy等在2014年引入VMD進行自適應信號處理。VMD是一個完全非遞歸的變分模態分解模型,在該算法中,本征模態函數(IMF)被定義為一個有帶寬限制的調幅-調頻函數,VMD算法是通過構造并求解約束變分問題,將原始信號分解為指定個數的IMF分量。在對信號進行VMD分解之前,需要確定VMD的參數,即需要預先確定模數和懲罰因子。確定影響參數后,對信號進行VMD分解,得到一系列本征模函數[12]。
采用一種由希爾伯特變換計算包絡峰度值的方法,從而有效地優化VMD模數,本文采用懲罰因子和帶寬的默認值α=2000,s=0,初始模數設為K=2,借鑒唐等[20]對模數K的討論范圍。如果模數K過大,則效率低,計算負荷重;如果模數K過小,容易引入噪聲。所以選擇K∈[2,15]作為模數的搜索域,步長設置為1。
對采集到的光纖溫度信號進行VMD分解,計算設定模數K下各模態信號的包絡峰度值,通過比較得到該模數下包絡峰度的最大值,然后K=K+1繼續進行上述分析,直到取K=15,得到各模數下包絡峰度的最大值。
假設VMD的模數為K,K∈[2,15],可以計算出每個模數的包絡,即:
(1)
此外,K的第i個模式的包絡峰度計算如下:
(2)
可以獲得局部最大ekKmax:
ekKmax=max (ek1,ek2,ek3,…,ekK)
(3)
因為K的搜索范圍為[2,15],搜索步長設置為1,所以在整個搜索范圍內可以獲得14個局部最大值。因此,我們可以得到全局最大值:
ekgmax=max(ek2max,ek3max,ek4max,…,ek15max)
(4)
根據式(4)可以得到取ekgmax時,對應的K值,用K′表示,其中K′可以從公式(5)得到:
K′=argmax(ekgmax)
(5)
VMD方法獲得的各IMF分量包括了原始信號不同時間尺度的局部特征,前幾個IMF分量體現了原始信號的主要特征。為有效保留原始信號的狀態特征,同時避免噪聲等成分的干擾,采用相關系數法篩選分解后的各個IMF分量,篩選相關系數最大的IMF分量作為計算混合域特征的數據。相關系數的計算公式如下[21]:
(6)
其中:L為信號長度;ρ(i)為第i個IMF分量與原始信號x(t)之間的相關系數。
通過提取原始光纖溫度信號的時域和頻域特征,結合所選IMF的時域和頻域特征以及能量和熵特征構建54維混合域特征集,能夠表征信號的頻率分布特征和變化趨勢以及在不同時刻和頻率處的能量信息等,全面挖掘海纜覆埋狀態特征信息。其中,時域分析方法通常用于表征原始信號的概率統計特征,能夠降低噪聲的干擾,減少冗余數據;頻域分析方法通過傅里葉變換處理時域信號進行頻譜分析,獲得信號的主頻帶、頻率能量以及頻譜能量等信息;時頻域分析方法采用優化VMD對溫度信號進行處理,引入能量和熵特征,反應信號的能量大小和分布趨勢,以及信號的混亂程度。
傅里葉變換公式如下:
(7)
本文采用統計分析方法歸納總結15種時域特征參數;基于FFT得到的頻域信號提取10種頻域特征參數;基于優化VMD篩選的IMF分量提取能量、排列熵、樣本熵和模糊熵4種時頻特征參數,具體特征參數如表1所示。
表1 特征參數表
由于高維特征集中可能含有冗余特征,會影響狀態識別精度以及計算效率。因此,需要對高維特征集進行降維生成具有較高代表性且維度較低的敏感特征集[15]。補償距離評估技術(CDET)是利用距離評估指標進行敏感特征選擇的方法,充分考慮特征對狀態識別的敏感性,篩選出狀態敏感特征,降低特征集維度,其算法原理如下所示[19]。
具體步驟如下:
①計算ωC(c=1,2,…,C)類特征向量的平均距離,如式:
(8)
對dc,k(c=1,2,…,C)求平均類內距離,如式:
(9)
②定義并計算dkω的方差因子,如式:
(10)
③計算C個模式類的類間距離,如式:
(11)
④定義并計算dkb的方差因子,如式:
(12)
⑤定義并計算補償因子,如式:
(13)
⑥計算距離評估指標αk,如式:
(14)
(15)
利用長短時記憶網絡建立海纜淺埋狀態識別模型。疊加多個LSTM層,利用輸入和輸出之間的非線性映射層進行分層特征學習,LSTM的內部結構如圖1所示,LSTM的模型結構如圖2所示,整體網絡結構如圖3所示。
圖1 LSTM網絡內部結構圖
圖2 LSTM模型結構圖
圖3 LSTM網絡結構圖
海纜監測系統中的溫度監測以海纜內置光纖為傳感介質,通過分布式光纖測溫設備周期性的采集海纜所有位置的溫度信息,形成歷史光纖溫度數據。目前,海纜淺埋狀態識別主要以溫度信號分析為基礎,根據海床表面和海床深處存在溫度差異,夏季海床表面溫度高于海床深處溫度,冬季海床表面溫度低于海床深處溫度?;谠摤F象,根據夏季和冬季的光纖溫差可以有效識別海纜深埋和淺埋位置。但基于光纖溫差識別海纜淺埋位置存在一定的局限性,在海床表面和海床深處溫度近似相等即溫度平衡時間(5月和10月),難以根據光纖溫差識別海纜淺埋位置。
基于歷史光纖溫度數據提取1月和8月某一時刻光電復合海纜所有位置的光纖溫度數據,選取1月光纖溫度T1與8月光纖溫度T2之間溫差Ts=|T2-T1|≤3 ℃的區段,構建5月份海纜深埋光纖溫度數據樣本;選取1月光纖溫度T1與8月光纖溫度T2之間溫差Ts=|T2-T1|≥18 ℃的區段,構建5月份海纜淺埋光纖溫度數據樣本。光纖距離-溫度關系曲線如圖4所示。
圖4 光纖距離-溫度關系曲線圖
在搜索域中,淺埋狀態和深埋狀態模式數K和局部包絡峰度最大值之間的關系繪制在圖5中,由2.2節“VMD模數確定”可知,根據14個局部包絡峰度最大值可以得到全局包絡峰度最大值,其對應的K值即為樣本的最佳模式數K′。針對海纜覆埋兩種狀態樣本,可以得到每個樣本取最佳模式數K′時全局包絡峰度的最大值,如表2所示。
圖5 K與局部最大包絡峰度
表2 K′與全局最大包絡峰度
由表2可知,具體海纜狀態樣本與最佳模式數一一對應,給出淺埋狀態樣本的VMD分解示例。當K′=6時包絡峰度最大,對淺埋樣本使用具有6種模式的VMD分析原始溫度信號,每個IMF分量的時域表示如圖6所示。計算原始信號與6個IMF的相關系數,其中IMF1相關系數達到80.4 %,IMF2~IMF6的相關系數在25 %左右。
圖6 VMD 分解示例
對海纜覆埋狀態的混合域特征集進行歸一化處理,淺埋和深埋狀態的歸一化特征值如圖7所示,可以看出部分特征對海纜覆埋狀態不敏感,即存在部分冗余特征。
圖7 混合域特征集特征值對比
(a)距離評估圖
降維得到的低維特征集組成如表3所示,54維混合域特征集降為15維,其中時域特征8維,頻域特征5維,時頻域特征2維。
表3 降維后的特征集組成
基于光纖溫度混合域特征的海纜淺埋狀態識別方法包括四個部分內容,圖9是整體算法流程圖,步驟如下:
圖9 整體算法流程圖
第一部分:海纜在線監測系統
(1)將分布式光纖傳感采集到的海纜光纖溫度信號等距分段,制作淺埋和深埋兩種海纜覆埋狀態的原始光纖溫度信號樣本數據集;
(2)數據預處理:首先,利用希爾伯特變換計算包絡峰度最大值方法優化VMD模數;其次,對每個數據樣本進行VMD分解,并利用相關系數法篩選IMF分量;最后,制作淺埋和深埋狀態的IMF分量樣本數據集。
第二部分:混合域特征提取
(1)計算15維原始光纖溫度信號的時域特征和15維IMF分量的時域特征;
(2)計算10維原始光纖溫度信號的頻域特征和10維IMF分量的頻域特征;
(3)計算4維IMF分量的時頻域特征;
(4)根據計算得到的時域特征、頻域特征和時頻域特征組成特征向量構造混合域特征集。
第三部分:輸入特征降維優化
(1)利用補償距離評估技術選取敏感特征;
第四部分:建立海纜淺埋狀態識別模型
(1)根據上述步驟從海纜覆埋狀態的光纖溫度數據中得到低維特征數據集,作為LSTM訓練和測試的數據;
(2)隨機劃分訓練集和測試集,利用訓練集訓練LSTM網絡,同時在訓練過程中根據損失收斂情況優化調整網絡的結構和參數;
(3)測試集驗證網絡的有效性,預測海纜覆埋狀態分類結果。
根據3.1節構建的海纜覆埋狀態光纖溫度信號數據集驗證基于光纖溫度混合域特征的海纜淺埋狀態識別方法的效果。海纜覆埋狀態一共生成4000個樣本,每種狀態2000個樣本。隨機分配訓練集和測試集,每種狀態訓練集和測試集的分配數量分別為1600和400。
將網絡運行5次,圖10展示了五次測試得到的測試集識別準確率和損失率。其中,第2次測試的訓練集和測試集精度變化曲線如圖11所示,第2次測試的訓練集和測試集損失變化曲線如圖12所示。
圖10 多次測試的準確率和損失
圖11 訓練集和測試集的精度變化曲線
圖12 訓練集和測試集的損失變化曲線
在訓練中一次迭代指所有數據在網絡中完成一次前向計算及反向傳播的過程。準確率反映了模型正確識別的樣本比例,損失率用來評估模型的預測值與真實值的不一致程度。準確率越大、損失率越小,說明模型的識別能力和魯棒性越好。
分析圖10中的數據,本文提出的方法獲得了較好的結果,5次測試的測試集平均識別準確率為100 %。由此可見,利用基于光纖溫度混合域特征的海纜淺埋狀態識別方法能夠有效實現海纜淺埋狀態識別且穩定性較高。
從圖11和圖12可以看出,無論訓練還是測試,精度變化曲線迅速上升并趨于穩定,損失變化曲線迅速下降并趨于穩定,經過100次迭代后,最終的測試精度和損失的值分別為100 %和0.006 %。
為了表示海纜不同覆埋狀態的分類情況,給出分類結果混淆矩陣,圖13展示了第2次測試結果的混淆矩陣。其中橫軸表示預測類別,縱軸表示實際類別,對角線數值表示每一類別測試樣本的分類準確率,非對角線位置的數值表示某一狀態分類的錯誤率。從混淆矩陣結果圖可以看出,海纜深埋和淺埋類別的分類正確率均達到100 %。
圖13 狀態分類混淆矩陣
為了驗證基于光纖溫度混合域特征的海纜淺埋狀態識別方法的有效性,對比其他四種方法。方法1:對于本文提出的方法,不進行降維處理,以混合域特征集作為 LSTM 網絡的輸入。方法2:對于本文提出的方法,僅改變特征集組成,以時域特征集作為 LSTM 網絡的輸入。方法3:對于本文提出的方法,僅改變特征集組成,以頻域特征集作為 LSTM 網絡的輸入。方法4:對于本文提出的方法,僅改變特征集組成,以時頻域特征集作為LSTM 網絡的輸入。表4展示了本文所提方法與其他四種方法的結果對比,可以看出,基于優化VMD混合域特征和LSTM的海纜淺埋狀態識別方法相較于其他四種對比方法識別準確率高,穩定性好。
表4 不同狀態識別方法的比較
針對光纖溫度信號非平穩、非線性的特點,以及在海床表面溫度和海床深處溫度近似相等即溫度平衡時間段內,利用光纖溫差識別海纜淺埋位置存在一定的局限性問題,提出一種基于優化VMD混合域特征和LSTM的海纜淺埋狀態識別方法,全面挖掘海纜覆埋狀態特征,提高識別模型準確率,實現準確穩定的海纜淺埋狀態識別。主要結論如下:
(1)提出了一種基于希爾伯特變換計算包絡峰度最大值的VMD參數優化方法處理海纜光纖溫度信號,并利用相關系數法篩選IMF,有效降低噪聲干擾。
(2)通過提取原始溫度信號的時域和頻域特征,結合所選IMF的時域和頻域特征以及能量和熵特征構建混合域特征集,充分挖掘訓練樣本中的海纜覆埋狀態信息,提高樣本利用率。
(4)所設計的長短時記憶網絡收斂速度快且具有較好的魯棒性,基于現場采集數據,測試準確率達到100 %,表現出良好的泛化能力。