?

基于LV-DBSCAN算法的大壩安全監測數據異常檢測

2024-03-09 07:48戴領李少林劉光彪紀傳波段國學
人民長江 2024年1期
關鍵詞:監測數據大壩聚類

戴領 李少林 劉光彪 紀傳波 段國學

摘要:大壩安全監測數據原始序列中常存在異常測值,極大影響了大壩安全監測資料分析的可靠性和準確性。為此,在分析異常值特性及傳統異常檢測方法優缺點的基礎上,分別從局部與整體角度研究監測數據異常檢測方法。首先針對多重局部異常系數法要求數據序列較長且數據等時間間距等缺陷,提出了局部變化異常系數法(LV)及局部方法與整體方法協同判別策略;進一步引入密度聚類算法(DBSCAN),提出了兼顧數據整體與局部特性的LV-DBSCAN異常檢測方法。以某混凝土重力壩兩垂線測點順流向位移監測數據為實例,對比分析了不同方法在不同類型數據集上的檢測精度。研究結果表明,所提LV-DBSCAN方法適用性更廣,準確率更高,誤判率更低。

摘要:大壩安全監測; 異常值; 局部變化異常系數法(LV); 密度聚類算法(DBSCAN); 置信度

中圖法分類號: TV698

文獻標志碼: A

DOI:10.16232/j.cnki.1001-4179.2024.01.033

0 引 言

近年來,由于國家對大壩安全監測的重視程度逐漸提升,大壩安全監測自動化改造進程逐步加快,監測儀器數量日益龐大,監測數據量爆炸式增長,在如此龐雜的數據中,不可避免會夾雜著大量的異常測值,這些異常測值對于監測資料分析具有較強的干擾性,嚴重影響大壩安全分析評價結論[1]。

異常測值的判斷、分析和處理,是監測資料分析的基礎性工作,也是監測資料分析的主要難題之一[2]。常用的大壩安全監測數據異常檢測方法主要有統計概率法、小波分析法、時空判別法和數學模型法等[3]。統計概率法以數理統計和概率論為基礎,其基本流程是通過統計概率分析和判別準則來檢測一組數據中是否存在異常值,常用的判別準則主要有拉依達(Parita)準則[4](又稱3σ準則)、格拉布斯(Grubbs)準則[5]、狄克松(Dikon)準則[6]等。小波分析可以對原始監測數據序列進行多尺度分析,對于具有異常值的數據序列,其分解后的系數具有模極大值特征,可以此為依據檢測大壩監測數據序列的異常值[7-9]。時空判別法主要是將觀測物理量與歷史的或相鄰的觀測數據相比較,找出其中具有突變特性或跳動性變化的測值,包括Hampel濾波法、平滑估計法、多重局部異常系數法等[3,10]。數學模型法是根據原型觀測資料數據,通過各種不同方法建立監測效應量與各影響因子之間的回歸模型,從而得到各實測值對應的預測值,利用兩者之間的差值來判斷測值是否為異常值[11-12],常用的模型除傳統的非線性回歸之外,還包括支持向量機、隨機森林、神經網絡等智能模型[13-14]。此外,還有局部異常因子算法[15-16]、K近鄰算法[17-18]、聚類算法[19-20]等人工智能方法也在大壩安全監測數據異常檢測領域內廣泛應用。不同類型方法的側重點和適用范圍不一。一般而言,對于平穩數據序列,采用統計概率法基本能夠有效識別整體上遠離數據序列的異常值,而若監測效應量變化呈現遞增趨勢(見圖1),則不滿足數據序列獨立同分布條件,無法使用統計概率法。對于類似圖1中G點異常測值,數據階躍后并未下降,而是維持原有趨勢,這類測值可能是由于地震等突發情況導致,也可能由于儀器損壞,中間數據漏測導致,此類情況在大壩環境量和效應量上難有先兆信息,通常難以實時判斷。采用時空判別法,窗口在滑動至階躍點時,由于前后相差較大,容易對階躍后前幾個值造成誤判,而采用統計概率法,階躍后測值穩定,數據識別為正常。由此可見,僅靠單一方法難以保證異常值完全被識別出來,需根據數據整體和局部特性統籌考慮。

為此,本文分別從局部與整體角度研究大壩安全監測數據異常檢測方法,局部以多重局部異常系數法為基礎,提出局部變化異常系數法(Outlier Coefficient of Local Variation,LV);整體以聚類算法為基礎,選擇適用性更廣、速度更快且噪聲數據處理更佳的密度聚類算法(DBSCAN);進一步,提出局部方法與整體方法協同判別策略(將兩種方法進行結合),建立融合局部變化異常系數法和密度聚類算法的大壩安全監測數據異常檢測模型,以提高數據異常檢測準確率,降低不同方法誤判率。

1 基于LV-DBSCAN的數據異常檢測方法

1.1 局部變化異常系數法

針對多重局部異常系數法[3]存在的數據序列長度要求高、數據序列等間距的問題,結合頻率分析與小概率原理,提出局部變化異常系數法,具體原理如下:

假設有一組原始監測數據序列{x1,x2,…,xt-k,…,xt-1},待檢測數據為xt。根據歷史數據的變化規律,選取的閾值為{bU,bL}。

Step 1:選取待檢測值xt最近的前m天監測數據,組成窗口數據序列Xt:{xt-m,…,xt-2,xt-1}。

Step 2:計算待檢測值xt處變化率x′t:

x′t=(xt-xt-i)/Δt(1)

式中:Δt為間隔時間,一般以日作為最小間隔尺度。若數據序列中的xt-i-1判定為異常值,則取xt-i-1計算變化率x′t,直至i+1>m;若窗口內無數據或均為異常數據,直接判定待檢測值xt為正常,該操作主要是為了消除窗口數據中異常值對檢測結果的影響。

Step 3:計算變化率與相應上下閾值b的歸一化系數P:

P=x′t-bLbU-bL(2)

若P在0~1之間,則判斷待測值為正常值,將該正常值的異常系數設定為0,若P大于1或小于0,則判定待測值為異常值,將P作為xt的異常系數。

Step 4:將t+1時刻數據作為待檢測數據,重復Step 1~3,即每當獲取到實時數據(待檢測值)時,即可重復Step 1~3,以實現對實時數據的異常檢測。

窗口長度m建議取30 d;施工期觀測頻次高,可適當縮短,運行期測值相對穩定可適當延長。閾值b計算步驟如下:

Step 1:假設有一組原始監測數據序列x1,x2,…,xt,根據式(1)計算獲取變化率序列x′2,x′3,…,x′t。

Step 2:對變化率序列進行頻率分析,獲取序列概率密度函數f(x′)及累積概率分布函數F(x′),其中概率分布擬合使用核密度估計法。

Step 3:根據小概率原理,設定置信度為α,以Fα/2(x′)與F1-α/2(x′)分布作為閾值b上下限bU,bL。

局部變化異常系數法來源于多重局部異常系數法,同屬于時空判別法,主要優勢體現在以下兩點:

(1) 多重局部異常系數法直接采用xj-xj-i計算差分序列,默認前后間隔一致;而在實際工程應用中,由于存在加密觀測、儀器損壞補測等特殊情況、數據序列通常不是等間距的。因此,研究將原有差分形式替換為變化率,即式(1)。

(2) 多重局部異常系數法對比分析了3σ準則和箱型圖法計算結果,最終選用歷史數據的極值來確定閾值bU,bL大小。該方法簡便但對數據序列依賴性太強,若原始序列較短或未出現任何極端工況,極易造成數據誤判。因此,研究通過對變化率序列進行頻率分析,獲取其概率分布,然后依據小概率原理,確定閾值b上下限,在一定程度上挖掘出變化率的潛在信息,可降低對原始數據序列的要求。

1.2 DBSCAN算法

DBSCAN是一種基于密度的聚類算法,根據密度可達關系導出的最大密度相連的樣本集合即為一個簇。該算法將具有足夠密度的區域劃分為簇,并在具有噪聲的空間數據庫中發現任意形狀的簇,它將簇定義為密度相連的點的最大集合[21]。

DBSCAN算法核心在于任意選擇一個沒有類別的核心對象作為種子,然后找到所有這個核心對象能夠密度可達的樣本集合,即為一個聚類簇。接著繼續選擇另一個沒有類別的核心對象去尋找密度可達的樣本集合,這樣就得到另一個聚類簇,一直運行到所有核心對象都有類別為止。具體步驟如下。

Step 1:從一個未被訪問的任意數據點開始,這個點的鄰域是用距離epsilon來定義(即該點ε距離范圍內的所有點都是鄰域點),如果在該鄰域內有足夠數量的點(即minPoints),則聚類過程開始,并且當前數據點成為新簇中的第一個點。否則,該點將被標記為噪聲。在這兩種情況下,該點都會被標記為“已訪問”。

Step 2:對于新簇中的第一個點,它的ε距離鄰域內的點也會成為同簇的一部分。這個過程使ε鄰域內的所有點都屬于同一個簇,然后對添加到簇中的所有新點重復上述過程。

Step 3:重復Step 1~2,直到所有點被標記為“已訪問”停止。

DBSCAN算法的主要優點在于無需確定簇的數量且能夠很好地找到任意大小和形狀的簇。但當數據簇密度不均勻時,它的效果不如其他算法好。這是因為當密度變化時,用于識別鄰近點的距離閾值ε和minPoints的設置將隨著簇而變化;在處理高維數據時也會出現這種缺點,因為難以估計距離閾值ε。

采用DBSCAN算法進行異常監測時,將聚類結果中存在數據較少的簇和噪聲點判定為異常數據,其余為正常數據。本文采用K-distance方法確定算法超參數距離閾值ε和鄰域最小樣本數minPoints[22]。

1.3 局部方法與整體方法協同判別策略

前兩節所提局部方法與整體方法是從不同角度對數據異常值進行監測,因此最終檢測出的異常數據極大程度上不完全一致。若兩類方法均檢測為異常數據,則基本可以判定該點為異常值,但還存在局部方法判斷為異常數據而整體方法下為正常數據,或者整體方法判斷為異常數據而局部方法下為正常數據的現象,此類點無法確定是否為異常點。1.1節所提局部變化異常系數法可以通過設置置信度改變異常值判斷閾值,置信度越大,閾值越大,說明異常數據偏離程度越嚴重,其為異常值的可能性更高;置信度越小,閾值越小,說明異常數據偏離程度越輕微,其為異常值的可能性越低。因此,可以根據該方法特性,提出一種局部方法與整體方法協同判別的策略,具體如下:

針對局部方法判斷為異常而整體方法判斷為正常的數據,若此時提高局部方法置信度仍為異常,則表明此異常點偏離鄰域嚴重,可以判斷其為異常點。針對整體方法判斷為異常而局部方法判斷為正常的數據,若此時降低局部方法置信度仍為正常,則表明此異常點偏離鄰域較輕,可以判斷其為正常點。

1.4 LV-DBSCAN異常檢測方法

局部變化異常系數法聚焦于數據鄰域,缺乏對數據特性整體的考慮,且未能考慮環境量等因素,而DBSCAN方法能從整體上分析數據分布特性,且能夠延伸至多維數據,即可以同時將環境量等因素考慮進來。因此,本文在局部變化異常系數法和DBSCAN算法基礎上,結合局部方法與整體方法協同判別策略,提出一種融合局部變化異常系數法和密度聚類算法的大壩安全監測異常值協同判別方法(LV-DBSCAN),具體步驟如圖2所示。

Step 1:輸入監測數據,使用局部變化系數法提取異常點。

Step 2:輸入監測數據,使用密度聚類算法提取異常點。

Step 3:將Step 1和Step 2中判別的異常點交集定義為準確異常點,異常點差集定義為局部可疑點,將Step 2與Step 1中判別的異常點差集定義為全局可疑點。

Step 4:針對局部可疑點,將Step 1中局部變化異常系數法的置信區間擴大為α+β,判斷可疑點是否還是異常點,若是則將其列為異常數據,否則為正常點。

Step 5:針對全局可疑點,將Step 1中局部變化異常系數法的置信區間縮小為α-β,判斷可疑點是否為異常點,若是則將其列為異常數據,否則為正常點。

Step 6:綜合Step 3~6中所有異常點,至此實現異常檢測。

2 實例研究

2.1 研究對象及數據

某混凝土重力壩在1號、5號、9號、14號壩段分別布設了正、倒垂線。選擇其中1號壩段高程93.4 m和7號壩段高程109.2 m的兩個垂線測點順流向位移監測數據為研究對象,分別代表2種不同類型數據集,數據集1中數據無明顯上升與下降趨勢,數據集2中數據前期呈現波動上升趨勢,后期趨于穩定。為驗證所提方法的有效性及適用性,首先通過人工方式剔除數據集中異常值,然后在數據集后20%的范圍內添加20個異常值(見圖3~4),最后,分別采用多重局部異常系數法、局部變化異常系數法、DBSCAN算法及LV-DBSCAN方法進行異常值判別。

2.2 數據集1

根據數據序列自相關性,多重局部異常系數法窗口大小為5,局部變化異常系數法置信度α為0.9,DBSCAN算法鄰域距離為0.1,鄰域最小樣本數為6,LV-DBSCAN方法額外參數β為0.05。圖5與表1分別為各種方法異常值檢測結果,由圖表可知,局部變化異常系數法檢測效果遠高于多重局部異常系數法,證明所提方法改進之處有利于數據異常檢測。LV方法識別出了所有異常值,但誤判了較多正常值,DBSCAN方法識別了較少的異常值,但其誤判數量較低,而本文所提LV-DBSCAN方法雖召回率較LV方法低,但大幅度改善了誤判數量,同時提高了DBSCAN方法的異常數據識別數量,但誤判數量較DBSCAN方法多。

2.3 數據集2

根據數據序列自相關性,多重局部異常系數法窗口大小為7,局部變化異常系數法置信度α為0.9,DBSCAN算法鄰域距離為0.16,鄰域最小樣本數為8,LV-DBSCAN方法參數β為0.05。圖6與表2分別為各種方法異常值檢測結果,由圖表可知,局部變化異常系數法檢測效果依舊強于多重局部異常系數法,而LV-DBSCAN的檢測效果雖強于LV方法,但卻劣于DBSCAN,所提策略在提高LV方法檢測效果的同時降低了DBSCAN方法的效果。其主要原因在于:所提局部方法和整體方法協同判別策略較為依賴于局部方法的異常檢測效果,而數據集2中雖然LV方法召回率較高,但其準確率較低,誤判了相當多數量的數據,且無論從精確度還是召回率來看,LV方法均劣DBSCAN算法,從而使得所提策略雖然改善了LV方法,但其檢測效果不如DBSCAN算法。

綜合上述數據集實例分析可知,多重局部異常系數法無論是針對平穩數據還是非平穩數據,整體上效果較好,但其適用范圍有限,需長序列的正常測值用于確定閾值范圍;所提局部變化異常系數法將多重局部異常系數法中的差分序列改進為微分序列,并將概率分布和置信度引入其中,一定程度上提高了方法的適用性和準確性;聚類算法在各數據集上表現最優,無論是在準確率還是適用范圍上,都優于其他方法,且可以在異常檢測過程中考慮環境量因素,但其存在算法參數難以確定的問題。LV-DBSCAN方法綜合了LV方法和DBSCAN方法的優勢,具有較好的異常檢測效果,優于原有的LV方法,但不一定優于DBSCAN方法,主要原因在于DBSCAN方法的檢測效果與數據質量關系密切,這也是數據挖掘方法的癥結之一。

3 結 論

本文在分析異常值特性及傳統異常檢測方法優缺點的基礎上,分別從局部與整體角度研究了大壩安全監測數據異常檢測方法:著眼于局部,分析了多重局部異常系數法的優缺點,進一步提出了一種適用范圍更廣的局部變化異常系數法;著眼于整體,引入DBSCAN聚類算法,分離出了數據中的離群點。在此基礎上,依據置信度理論,提出了局部方法與整體方法協同判別策略和基于局部變化異常系數法和聚類方法(LV-DBSCAN)的大壩安全監測異常值檢測方法,最后,挑選某混凝土重力壩變形監測2種不同類型數據集,分析了所提方法的適用性,得到如下研究結論。

(1) 多重局部異常系數法和局部變化異常系數法無論是針對平穩數據還是非平穩數據系列,整體上效果較好,但其適用范圍有限,需長序列的正常測值用于確定閾值范圍;

(2) 所提局部變化異常系數法提高了多重局部異常系數法的適用性和準確性;

(3) LV-DBSCAN方法綜合了LV方法和DBSCAN方法的優勢,具有較好的異常檢測效果,優于原有的LV方法,但不一定優于DBSCAN方法。

本文所提局部方法與整體方法協同判別策略主要通過局部變化異常系數法修改置信度實現了對數據異常判別嚴格程度的調控,并以此為橋梁,連接其他類型方法從而相互印證,提升數據異常檢測精度并降低誤判率。因此,所提策略在整體方法的選擇上還可以使用統計概率法或是其他類型聚類算法等,后續可在此基礎上進一步研究。此外,受筆者工程經驗、理論水平和研究時間的限制,尚存在一些研究難點需要在今后的研究工作中進一步突破,特別是在監測異常效應值與環境量間的關系方面,后續也將研究使用數學模型法等分析異常效應值的產生與環境量的關系,并論證其產生原因。

參考文獻:

[1] 李珍照.大壩安全監測[M].北京:中國電力出版社,1997.

[2] 何金平.大壩安全監測理論與應用[M].北京:中國水利水電出版社,2010.

[3] 李斌.重力壩變形監控的智能分析方法研究[D].西安:西安理工大學,2021.

[4] 趙海霞,周少娜,肖化.四種判別粗大誤差準則的比較與討論[J].大學物理實驗,2017,30(5):105-108.

[5] 楊承志,魏博文,徐鎮凱.基于SVM-MCD的大壩變形監測數據異常值判定[J].人民長江,2022,53(3):207-213.

[6] 王林,孫芳.利用狄克松判別法剔除觀測數據粗差[J].江西測繪,2016(4):18-20.

[7] 朱斯楊,李艷玲,盧祥,等.基于隸屬云的安全監測異常數據識別方法研究[J].人民長江,2021,52(2):197-200.

[8] 劉千駒,陳代明,陳少勇,等.小波理論在大壩安全監測數據粗差探測中的應用[J].西北水電,2020(增1):129-132.

[9] 徐洪鐘,吳中如,李雪紅,等.基于小波分析的大壩觀測數據異常值檢測[J].水電能源科學,2002,20(4):20-22.

[10] 周元春,甘孝清,李端有.大壩安全監測數據粗差識別技術研究[J].長江科學院院報,2011,28(2):16-20.

[11] 崔樂,吳迪,成麗波.基于逐步回歸的穩健估計和異常值檢測[J].沈陽師范大學學報(自然科學版),2018,36(6):527-532.

[12] 潘瑩麗,劉展,宋廣雨.基于SCAD懲罰回歸的異常值檢測方法[J].統計與決策,2022,38(4):38-42.

[13] 王麗蓉,鄭東健.基于卷積神經網絡的大壩安全監測數據異常識別[J].長江科學院院報,2021,38(1):72-77.

[14] 葉斌.基于LSTM模型的大壩安全監測數據異常值檢測[D].武漢:長江科學院,2020.

[15] 鄭付剛.基于局部異常系數的混凝土壩變形異常分析方法[J].水電能源科學,2016,34(6):103-105,31.

[16] HU J,MA F H,WU S H.Anomaly identification of foundation uplift pressures of gravity dams based on DTW and LOF[J].Structural Control and Health Monitoring,2018,25(5):1-17.

[17] 高鵬飛.數據清洗技術在尾礦庫監測系統中的應用研究[D].西安:西安工業大學,2019.

[18] 謝方方,徐連誠,牛冰茹.一種基于反向 K 近鄰的孤立點檢測改進算法[J].計算機應用與軟件,2014,31(6):267-270.

[19] 蔣華,武堯,王鑫,等.改進K均值聚類的海洋數據異常檢測算法研究[J].計算機科學,2019,46(7):211-216.

[20] 蔣齊嘉,蔣中明,唐棟,等.基于SSA-DBSCAN的邊坡安全監測數據粗差探測方法[J].長江科學院院報,2022,39(4):85-90,98.

[21] 申秋萍,張清華,高滿,等.基于局部半徑的三支DBSCAN算法[J].計算機科學,2023,50(6):100-108.

[22] 郭莉,吳晨,薛貴元.基于DBSCAN聚類的熱能發電大數據異常檢測模型[J].工業加熱,2023,52(1):35-38,48.

(編輯:胡旭東)

Detection of abnormal values in dam safety monitoring data based on LV-DBSCAN algorithm

DAI Ling1,LI Shaolin2,LIU Guangbiao2,JI Chuanbo2,DUAN Guoxue2

(1.CISPDR Corporation,Wuhan 430010,China; 2.Changjiang Survey,Planning,Design and Research Co.,Ltd.,Wuhan 430010,China)

Abstract:

There are often abnormal measurements in the original observation sequence of dam safety monitoring,which greatly affects the reliability and accuracy of dam safety monitoring data analysis.Therefore,based on the analysis of the abnormal values characteristics and the advantages and disadvantages of traditional anomaly detection methods,this paper studied the detection methods of abnormal values in monitoring data from the local and overall perspectives.Firstly,aiming at the defects of multiple local anomaly coefficient methods requiring data with long sequence and equal time interval,a local change anomaly coefficient method(LV)and a collaborative discrimination strategy of local method and overall method were proposed.Furthermore,the density clustering algorithm(DBSCAN)was introduced,and a LV-DBSCAN anomaly detection method considering the overall and local characteristics of the data was proposed.Taking the downstream displacement monitoring data of two vertical measuring points of a concrete gravity dam as an example,the detection accuracy of different methods on different types of data sets was compared and analyzed.The results showed that the LV-DBSCAN method proposed in this paper has wider applicability,higher accuracy and lower misjudgment rate.

Key words:

dam safety monitoring;abnormal value;local change anomaly coefficient method;density clustering algorithm;confidence degree

猜你喜歡
監測數據大壩聚類
GSM-R接口監測數據精確地理化方法及應用
大壩:力與美的展現
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
GPS異常監測數據的關聯負選擇分步識別算法
基于小波函數對GNSS監測數據降噪的應用研究
一種層次初始的聚類個數自適應的聚類方法研究
變電站監測數據采集系統
自適應確定K-means算法的聚類數:以遙感圖像聚類為例
正式擋水的馬來西亞沐若大壩
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合