孫政杰 丁勇 李登華
摘 要:大壩監測數據受環境等因素影響,往往存在異常數據,異常數據的檢測對于大壩的正常運行起著不可或缺的作用,但是傳統異常檢測算法對于大壩監測數據往往達不到精度要求。提出了一種基于Prophet-GMM 的異常檢測算法,利用Prophet 算法較好的擬合性能對大壩數據進行擬合,由擬合數據與實測數據求殘差序列,再利用GMM 算法對殘差序列進行聚類,從而準確識別出異常值。結果表明:Prophet-GMM 法對于不同類型的大壩監測數據都能準確識別出異常值,與傳統檢測算法相比,在查準率、查全率及準確率3 個檢測指標上,均有較為明顯的提升。
關鍵詞:Prophet;GMM;大壩監測數據;異常檢測
中圖分類號:TV698.2 文獻標志碼:A doi:10.3969/ j.issn.1000-1379.2024.03.024
引用格式:孫政杰,丁勇,李登華.基于Prophet-GMM 的大壩監測數據異常檢測算法[J].人民黃河,2024,46(3):132-135,142.
0 引言
大壩監測數據對判定大壩狀態,預測大壩安全情況起著重要作用。準確的大壩監測數據有利于提升大壩安全報警精確度,及時預警并解決問題。近年來,隨著大壩自動化監測水平不斷提升,大壩內測點的不斷增加導致監測數據量大幅上升。鑒于自動化儀器本身存在各種誤差,且易受其他因素影響,大壩監測數據往往存在異常值,因此識別異常值變得尤為重要。目前,針對大壩監測數據準確性的提升,普遍采用基于聚類[1-2] 和基于模型[3-4] 的異常檢測方法,然而上述方法無法有效規避數據異常值的影響,異常值檢測效率較低。
鑒于大壩監測數據本身為時間序列數據,由Face?book 開源的Prophet 算法是一種自適應擬合數據的算法[5-6] ,該算法對于時序數據有良好的適應性,對缺失值容忍度較高,擬合速度較快,具有良好的擬合性能[7-8] 。本文在利用Prophet 算法擬合大壩監測數據后,引入數學模型求得殘差序列,再結合高斯混合模型聚類(GMM)算法[9-10] 對殘差序列進行聚類,通過聚類準確判斷出大壩監測數據的異常值,對比僅使用將Prophet 算法預測值上下限[11] 作為異常數據識別區間的方法以及各傳統算法,試驗表明異常檢測精度得到有效提升。
2 案例
2.1 大壩監測數據來源
本文采用某面板堆石壩近10 a 的監測數據進行案例分析,其中包含大壩自動化監測系統投入使用后的數據。該大壩自動化監測系統監測頻率為1 次/ d,涵蓋各類測點共計大約800 個,包括大壩測縫計、大壩鋼筋應力計、大壩滲壓計等近20 類不同監測儀器。
本試驗將大壩監測數據分為3 類,其中試驗模擬序列采用標準正弦波諧波因子的方式模擬以年為周期的大壩周期溫度項,其過程線如圖2 所示;周期性序列為對于大壩混凝土面板鋼筋應力計及測縫計等具有較為顯著的單調性和年周期性的序列;非周期性序列為對于土壓力計及大壩滲壓計等沒有較為明顯的單調性和年周期性的序列。分別從上述儀器的測點中選取數據質量較好的10 條序列,通過人工檢查,序列均無明顯較大異常和測量誤差,其過程線見圖3、圖4。
2.2 異常數據的添加
為測試算法檢測效果及穩定性,采取在每條序列隨機添加人工誤差的方式,以達到標記異常點位置的目的,并計算查準率、查全率及準確率。誤差的添加方式為:
1)在某個數據點位置獨立添加誤差;
2)在某幾個連續數據點位置添加連續誤差;
3)對數據點進行獨立和連續兩種方式的混合添加。
添加誤差值大小分為:1 倍標準差的小數值誤差;1~2 倍標準差的中數值誤差;2~3 倍標準差的大數值誤差;1~6 倍標準差的混合數值誤差。誤差值添加數量分為:2%左右的少量誤差添加;5%左右的中等數量添加;10%左右的大量添加。
對上述異常數據添加方式進行多組試驗可以很好地反映大壩數據存在的異常情況以及實際情況中的各種突發狀況,本文將在各類傳感器中?。常?組數據進行誤差添加以及算法檢測試驗。
利用Prophet 算法構建該大壩數據監控模型,由擬合后的數據與實際數據求得殘差序列,利用GMM算法對殘差序列進行聚類,例如大壩滲壓計的聚類結果如圖5 所示。
式中:P、R、A 分別為查準率、查全率、準確率,TP 為檢測為正的樣本實際也為正樣本數量,FP 為檢測為正的樣本實際為負樣本數量,FN 為檢測為負的樣本實際為正樣本數量,TN 為檢測為負的樣本實際也為負樣本數量[15] 。
由于Prophet 算法本身可得到預測值上限及下限,并且可以將此區間外的數據點識別為異常點,因此本文也將其作為對比方法。
查準率也稱精確率,由表1 中Prophet-GMM 算法與其他方法的查準率可知,由于模擬序列本身是較為理想的序列,因此該算法可以得到很好的效果;對于周期序列而言,查準率均值大都在0.85 以上,且標準差較小,表明Prophet-GMM 算法對于不同的序列均有較好的適應性,對比絕對中位差法和四分位控制法均有較大提升。
查全率也稱召回率,傳統的絕對中位差法和四分位控制法對于實測序列而言檢測效果較差。針對非周期和周期兩類實測序列,本文所提出的檢測算法相較于Prophet 算法而言,精確性更高(見表2)。
準確率主要表示檢測分類正確的樣本占總樣本的比例,是綜合判斷檢測算法整體檢測性能的指標。由表3 中3 類序列的準確率均值及標準差,可以看出Prophet- GMM 算法的檢測準確率及穩定性優于Prophet 算法,對于不同周期的實測序列均能有效地檢測異常。
由上述試驗結果可知,本文算法相較于傳統異常檢測算法及使用預測最大值上限和最小值下限為檢測區間的Prophet 算法,在查準率、查全率、準確率3 個指標上均有不同幅度提升。
3 結論
大壩監測數據受天氣、氣候等因素影響往往具有周期性和非線性的特征,加之受儀器本身誤差的影響,往往會產生突變的極端誤差,對后續大壩數據分析工作造成影響,本文提出基于Prophet-GMM 混合算法識別大壩監測數據中的異常值,通過多種異常值添加方式添加異常進行標記來測試算法效果,并進行對比試驗,有以下結論:
1)Prophet 算法將本身具有的預測值上限和下限作為異常數據識別區間的異常檢測方法,其穩定性受異常數據的較大影響,無法達到滿意的異常識別精度。
2)對于Prophet 模型擬合的數據求得的殘差序列進行二次處理,使用高斯混合聚類(GMM)算法對殘差數據進行進一步聚類,將偏離的異常值進行有效的聚類,求得正常值所在的位置,進一步提高了異常檢測識別的精度,同時相較于其他傳統異常檢測方法有較為明顯的提升。
參考文獻:
[1] 陸春光,葉方彬,趙羚,等.基于密度峰值聚類的電力大數據異常值檢測算法[J].科學技術與工程,2020,20(2):654-658.
[2] 肖勇,鄭楷洪,余忠忠,等.基于三次指數平滑模型與DB?SCAN 聚類的電量數據異常檢測[J].電網技術,2020,44(3):1099-1104.
[3] 楊志東,丁建武,陳廣久,等.基于LightGBM 和LSTM 模型的電力大數據異常用電檢測方法研究[J/ OL].電測與儀表,[2022 - 08 - 01]. http:// kns. cnki. net/ kcms/ detail/23.1202.TH.20220713.1958.004.html.
[4] 陳利軍,王暢.基于DBSCAN 的地震電離層擾動異常數據檢測方法[J].地震工程學報,2020,42(2):410-415.
[5] WAN X L,ZOU Y L,WANG J,et al.Prediction of Shale OilProduction Based on Prophet ALGORITHM[J]. Journal ofPhysics:Conference Series,2021,2009(1):1-7.
[6] SAKIUR M T A R,TAKAHIRO H,OZGUR K,et al.A Min?imalistic Approach for Evapotranspiration Estimation Usingthe Prophet Model[J].Hydrological Sciences Journal,2020,65(12):1397-1417.
[7] 李衡,朱理,鄭潔,等.基于Prophet 算法的配電網線路峰值負荷預測[J].浙江電力,2022,41(3):20-26.
[8] 周子琪,周世健,陶蕊.基于EWT-Prophet 方法的地表沉降預測[J].大地測量與地球動力學,2022,42(3):247-252.
[9] 王榮榮.基于遷移學習的高斯混合模型聚類算法研究[D].濟南:濟南大學,2021:45-50.
[10] 黃詠寧.基于混合高斯模型的面板數據聚類研究[D].廣州:華南理工大學,2016:20-24.
[11] 高赫.基于機器學習的連續式風洞馬赫數控制[D].南京:南京航空航天大學,2020:42-48.
[12] 劉銘基,田雅楠,張亮,等.基于Prophet-ARIMA 模型的民航周轉量預測研究[J].計算機技術與發展,2022,32(2):148-153,160.
[13] 吳文培,宋亞林,魏上斐.基于改進Prophet 模型的用電量預測研究[J].計算機仿真,2021,38(11):473-478.
[14] 王一妹,劉輝,宋鵬,等.基于高斯混合模型聚類的風電場短期功率預測方法[J].電力系統自動化,2021,45(7):37-43.
[15] 況華,何鑫,何覓,等.基于雙向長短期記憶神經網絡的配網電壓異常數據檢測[J].科學技術與工程,2021,21(24):10291-10297.
【責任編輯 簡 群】