?

基于Ｐｒｏｐｈｅｔ－ＧＭＭ的大壩監測數據異常檢測算法

2024-03-31 05:50孫政杰丁勇李登華

人民黃河 2024年3期

關鍵詞：查準率監測數據殘差

孫政杰丁勇李登華

摘要：大壩監測數據受環境等因素影響，往往存在異常數據，異常數據的檢測對于大壩的正常運行起著不可或缺的作用，但是傳統異常檢測算法對于大壩監測數據往往達不到精度要求。提出了一種基于Ｐｒｏｐｈｅｔ－ＧＭＭ的異常檢測算法，利用Ｐｒｏｐｈｅｔ算法較好的擬合性能對大壩數據進行擬合，由擬合數據與實測數據求殘差序列，再利用ＧＭＭ算法對殘差序列進行聚類，從而準確識別出異常值。結果表明：Ｐｒｏｐｈｅｔ－ＧＭＭ法對于不同類型的大壩監測數據都能準確識別出異常值，與傳統檢測算法相比，在查準率、查全率及準確率３個檢測指標上，均有較為明顯的提升。

關鍵詞：Ｐｒｏｐｈｅｔ；ＧＭＭ；大壩監測數據；異常檢測

中圖分類號：ＴＶ６９８．２文獻標志碼：Ａｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１０００－１３７９．２０２４．０３．０２４

引用格式：孫政杰，丁勇，李登華．基于Ｐｒｏｐｈｅｔ－ＧＭＭ的大壩監測數據異常檢測算法［Ｊ］．人民黃河，２０２４，４６（３）：１３２－１３５，１４２．

０引言

大壩監測數據對判定大壩狀態，預測大壩安全情況起著重要作用。準確的大壩監測數據有利于提升大壩安全報警精確度，及時預警并解決問題。近年來，隨著大壩自動化監測水平不斷提升，大壩內測點的不斷增加導致監測數據量大幅上升。鑒于自動化儀器本身存在各種誤差，且易受其他因素影響，大壩監測數據往往存在異常值，因此識別異常值變得尤為重要。目前，針對大壩監測數據準確性的提升，普遍采用基于聚類［１－２］和基于模型［３－４］的異常檢測方法，然而上述方法無法有效規避數據異常值的影響，異常值檢測效率較低。

鑒于大壩監測數據本身為時間序列數據，由Ｆａｃｅ?ｂｏｏｋ開源的Ｐｒｏｐｈｅｔ算法是一種自適應擬合數據的算法［５－６］，該算法對于時序數據有良好的適應性，對缺失值容忍度較高，擬合速度較快，具有良好的擬合性能［７－８］。本文在利用Ｐｒｏｐｈｅｔ算法擬合大壩監測數據后，引入數學模型求得殘差序列，再結合高斯混合模型聚類（ＧＭＭ）算法［９－１０］對殘差序列進行聚類，通過聚類準確判斷出大壩監測數據的異常值，對比僅使用將Ｐｒｏｐｈｅｔ算法預測值上下限［１１］作為異常數據識別區間的方法以及各傳統算法，試驗表明異常檢測精度得到有效提升。

２案例

２．１大壩監測數據來源

本文采用某面板堆石壩近１０ａ的監測數據進行案例分析，其中包含大壩自動化監測系統投入使用后的數據。該大壩自動化監測系統監測頻率為１次／ｄ，涵蓋各類測點共計大約８００個，包括大壩測縫計、大壩鋼筋應力計、大壩滲壓計等近２０類不同監測儀器。

本試驗將大壩監測數據分為３類，其中試驗模擬序列采用標準正弦波諧波因子的方式模擬以年為周期的大壩周期溫度項，其過程線如圖２所示；周期性序列為對于大壩混凝土面板鋼筋應力計及測縫計等具有較為顯著的單調性和年周期性的序列；非周期性序列為對于土壓力計及大壩滲壓計等沒有較為明顯的單調性和年周期性的序列。分別從上述儀器的測點中選取數據質量較好的１０條序列，通過人工檢查，序列均無明顯較大異常和測量誤差，其過程線見圖３、圖４。

２．２異常數據的添加

為測試算法檢測效果及穩定性，采取在每條序列隨機添加人工誤差的方式，以達到標記異常點位置的目的，并計算查準率、查全率及準確率。誤差的添加方式為：

１）在某個數據點位置獨立添加誤差；

２）在某幾個連續數據點位置添加連續誤差；

３）對數據點進行獨立和連續兩種方式的混合添加。

添加誤差值大小分為：１倍標準差的小數值誤差；１～２倍標準差的中數值誤差；２～３倍標準差的大數值誤差；１～６倍標準差的混合數值誤差。誤差值添加數量分為：２％左右的少量誤差添加；５％左右的中等數量添加；１０％左右的大量添加。

對上述異常數據添加方式進行多組試驗可以很好地反映大壩數據存在的異常情況以及實際情況中的各種突發狀況，本文將在各類傳感器中?。常?組數據進行誤差添加以及算法檢測試驗。

利用Ｐｒｏｐｈｅｔ算法構建該大壩數據監控模型，由擬合后的數據與實際數據求得殘差序列，利用ＧＭＭ算法對殘差序列進行聚類，例如大壩滲壓計的聚類結果如圖５所示。

式中：Ｐ、Ｒ、Ａ分別為查準率、查全率、準確率，ＴＰ為檢測為正的樣本實際也為正樣本數量，ＦＰ為檢測為正的樣本實際為負樣本數量，ＦＮ為檢測為負的樣本實際為正樣本數量，ＴＮ為檢測為負的樣本實際也為負樣本數量［１５］。

由于Ｐｒｏｐｈｅｔ算法本身可得到預測值上限及下限，并且可以將此區間外的數據點識別為異常點，因此本文也將其作為對比方法。

查準率也稱精確率，由表１中Ｐｒｏｐｈｅｔ－ＧＭＭ算法與其他方法的查準率可知，由于模擬序列本身是較為理想的序列，因此該算法可以得到很好的效果；對于周期序列而言，查準率均值大都在０．８５以上，且標準差較小，表明Ｐｒｏｐｈｅｔ－ＧＭＭ算法對于不同的序列均有較好的適應性，對比絕對中位差法和四分位控制法均有較大提升。

查全率也稱召回率，傳統的絕對中位差法和四分位控制法對于實測序列而言檢測效果較差。針對非周期和周期兩類實測序列，本文所提出的檢測算法相較于Ｐｒｏｐｈｅｔ算法而言，精確性更高（見表２）。

準確率主要表示檢測分類正確的樣本占總樣本的比例，是綜合判斷檢測算法整體檢測性能的指標。由表３中３類序列的準確率均值及標準差，可以看出Ｐｒｏｐｈｅｔ－ＧＭＭ算法的檢測準確率及穩定性優于Ｐｒｏｐｈｅｔ算法，對于不同周期的實測序列均能有效地檢測異常。

由上述試驗結果可知，本文算法相較于傳統異常檢測算法及使用預測最大值上限和最小值下限為檢測區間的Ｐｒｏｐｈｅｔ算法，在查準率、查全率、準確率３個指標上均有不同幅度提升。

３結論

大壩監測數據受天氣、氣候等因素影響往往具有周期性和非線性的特征，加之受儀器本身誤差的影響，往往會產生突變的極端誤差，對后續大壩數據分析工作造成影響，本文提出基于Ｐｒｏｐｈｅｔ－ＧＭＭ混合算法識別大壩監測數據中的異常值，通過多種異常值添加方式添加異常進行標記來測試算法效果，并進行對比試驗，有以下結論：

１）Ｐｒｏｐｈｅｔ算法將本身具有的預測值上限和下限作為異常數據識別區間的異常檢測方法，其穩定性受異常數據的較大影響，無法達到滿意的異常識別精度。

２）對于Ｐｒｏｐｈｅｔ模型擬合的數據求得的殘差序列進行二次處理，使用高斯混合聚類（ＧＭＭ）算法對殘差數據進行進一步聚類，將偏離的異常值進行有效的聚類，求得正常值所在的位置，進一步提高了異常檢測識別的精度，同時相較于其他傳統異常檢測方法有較為明顯的提升。

參考文獻：

［１］陸春光，葉方彬，趙羚，等．基于密度峰值聚類的電力大數據異常值檢測算法［Ｊ］．科學技術與工程，２０２０，２０（２）：６５４－６５８．

［２］肖勇，鄭楷洪，余忠忠，等．基于三次指數平滑模型與ＤＢ?ＳＣＡＮ聚類的電量數據異常檢測［Ｊ］．電網技術，２０２０，４４（３）：１０９９－１１０４．

［３］楊志東，丁建武，陳廣久，等．基于ＬｉｇｈｔＧＢＭ和ＬＳＴＭ模型的電力大數據異常用電檢測方法研究［Ｊ／ＯＬ］．電測與儀表，［２０２２－０８－０１］．ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１２０２．ＴＨ．２０２２０７１３．１９５８．００４．ｈｔｍｌ．

［４］陳利軍，王暢．基于ＤＢＳＣＡＮ的地震電離層擾動異常數據檢測方法［Ｊ］．地震工程學報，２０２０，４２（２）：４１０－４１５．

［５］ＷＡＮＸＬ，ＺＯＵＹＬ，ＷＡＮＧＪ，ｅｔａｌ．ＰｒｅｄｉｃｔｉｏｎｏｆＳｈａｌｅＯｉｌＰｒｏｄｕｃｔｉｏｎＢａｓｅｄｏｎＰｒｏｐｈｅｔＡＬＧＯＲＩＴＨＭ［Ｊ］．ＪｏｕｒｎａｌｏｆＰｈｙｓｉｃｓ：ＣｏｎｆｅｒｅｎｃｅＳｅｒｉｅｓ，２０２１，２００９（１）：１－７．

［６］ＳＡＫＩＵＲＭＴＡＲ，ＴＡＫＡＨＩＲＯＨ，ＯＺＧＵＲＫ，ｅｔａｌ．ＡＭｉｎ?ｉｍａｌｉｓｔｉｃＡｐｐｒｏａｃｈｆｏｒＥｖａｐｏｔｒａｎｓｐｉｒａｔｉｏｎＥｓｔｉｍａｔｉｏｎＵｓｉｎｇｔｈｅＰｒｏｐｈｅｔＭｏｄｅｌ［Ｊ］．ＨｙｄｒｏｌｏｇｉｃａｌＳｃｉｅｎｃｅｓＪｏｕｒｎａｌ，２０２０，６５（１２）：１３９７－１４１７．

［７］李衡，朱理，鄭潔，等．基于Ｐｒｏｐｈｅｔ算法的配電網線路峰值負荷預測［Ｊ］．浙江電力，２０２２，４１（３）：２０－２６．

［８］周子琪，周世健，陶蕊．基于ＥＷＴ－Ｐｒｏｐｈｅｔ方法的地表沉降預測［Ｊ］．大地測量與地球動力學，２０２２，４２（３）：２４７－２５２．

［９］王榮榮．基于遷移學習的高斯混合模型聚類算法研究［Ｄ］．濟南：濟南大學，２０２１：４５－５０．

［１０］黃詠寧．基于混合高斯模型的面板數據聚類研究［Ｄ］．廣州：華南理工大學，２０１６：２０－２４．

［１１］高赫．基于機器學習的連續式風洞馬赫數控制［Ｄ］．南京：南京航空航天大學，２０２０：４２－４８．

［１２］劉銘基，田雅楠，張亮，等．基于Ｐｒｏｐｈｅｔ－ＡＲＩＭＡ模型的民航周轉量預測研究［Ｊ］．計算機技術與發展，２０２２，３２（２）：１４８－１５３，１６０．

［１３］吳文培，宋亞林，魏上斐．基于改進Ｐｒｏｐｈｅｔ模型的用電量預測研究［Ｊ］．計算機仿真，２０２１，３８（１１）：４７３－４７８．

［１４］王一妹，劉輝，宋鵬，等．基于高斯混合模型聚類的風電場短期功率預測方法［Ｊ］．電力系統自動化，２０２１，４５（７）：３７－４３．

［１５］況華，何鑫，何覓，等．基于雙向長短期記憶神經網絡的配網電壓異常數據檢測［Ｊ］．科學技術與工程，２０２１，２１（２４）：１０２９１－１０２９７．

【責任編輯簡群】

猜你喜歡

查準率監測數據殘差

基于雙向GRU與殘差擬合的車輛跟馳建模

網絡安全與數據管理(2022年3期)2022-05-23

基于殘差學習的自適應無人機目標跟蹤算法

北京航空航天大學學報(2020年10期)2020-11-14

基于遞歸殘差網絡的圖像超分辨率重建

自動化學報(2019年6期)2019-07-23

GSM-R接口監測數據精確地理化方法及應用

鐵道通信信號(2019年11期)2019-05-21

基于數據挖掘技術的網絡信息過濾系統設計

現代電子技術(2018年16期)2018-08-21

大數據環境下的文本信息挖掘方法

現代電子技術(2017年23期)2017-12-20

基于深度特征分析的雙線性圖像相似度匹配算法

計算機應用(2016年10期)2017-05-12

平穩自相關過程的殘差累積和控制圖

河南科技(2015年8期)2015-03-11

GPS異常監測數據的關聯負選擇分步識別算法

振動工程學報(2015年1期)2015-03-01

基于小波函數對GNSS監測數據降噪的應用研究

全球定位系統(2015年4期)2015-02-28

人民黃河2024年3期

人民黃河的其它文章: 沙柳河流域１９６９—２０２０年徑流變化及歸因分析; 流凌封河預報指標法及其在黃河內蒙古河段的應用; 豫中地區傳統村落洪澇災害敏感性評估; 基于改進條分法的滑坡穩定性分析; 孔隙介質滲流過程誘發聲發射信號特征研究; 黃河水量統一調度的階段性成效與展望

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合