?

基于 SG 平滑處理的水利算據有效性改進方法

2024-01-08 02:09傅媛媛潘躍建陳日劍
水利信息化 2023年6期
關鍵詞:開化縣場次測站

李 軍,傅媛媛,潘躍建,陳日劍

(浙江省水利水電勘測設計院有限責任公司,浙江 杭州 310002)

0 引言

推進數字孿生流域建設是適應現代信息技術發展形勢的必然要求,也是強化流域治理管理的迫切要求。數字孿生流域以物理流域為單元、時空數據為底座、數學模型為核心、水利知識為驅動,對物理流域全要素和水利治理管理活動全過程進行數字化映射、智能化模擬,實現與物理流域同步仿真運行和虛實交互[1-2]。算據、算法、算力建設是數字孿生建設的重要支撐,可為實現具備預報、預警、預演、預案功能的“2+N”業務應用體系提供基礎技術保障。但水利數據通常需要經過篩選、清洗、聚合、轉換等一系列流程,才能成為有用、有效的算據,才能和水利行業模型進行無縫結合產生價值。因此,算據建設是構建水利數據底板的最重要內容之一,不僅為模型提供元素依據,還為數字孿生流域多維度、多時空尺度的高保真模擬和虛實交互打牢數字賦能的基礎。

目前水利數字孿生建設中用到的水利預測方法主要是基于流域水文模型的預測方法,計算機科學的發展,機器學習和神經網絡等技術的應用,為水利數字孿生建設提供了新的解決方案并取得較多成果,如 LSTM(長短期記憶)循環神經網絡模型[3]和 BP神經網絡模型[4]等應用。同時很多學者提出通過雨洪特征的相似度分析查找歷史相似洪水進而完成預測,如陳建等[5]通過雨洪多指標相似性計算進行相似洪水的查找,王海潮等[6]將暴雨指標化后進行相似度分析,預測暴雨洪水趨勢,歐陽如琳等[7]采用 DTW(動態時間規整)算法計算相似洪水過程。其中基于DTW 的洪水相似度分析使用較為廣泛,因為洪水過程不存在嚴格的時序對應關系,且時序長短可能相差很大,DTW 可以將時序數據進行線性縮放、扭曲操作以達到時序語義上的對齊,從而進行一對多映射的距離計算,非常適合復雜時序數據的彈性度量。

但是無論采用何種模型進行洪水預測,由于算據質量經常受到噪聲數據、異常數據和隨機誤差等影響,都會導致模型計算結果精度較低和穩定性較差,為此需要對算據進行平滑處理,以減少數據變化或波動。常用的平滑處理算法有移動平均濾波、局部加權回歸散點平滑、線性回歸和 SG 多項式平滑(以下簡稱 SG)等算法,通過試驗可知 SG 算法更能保持數據自身的變化趨勢,更能保證模型計算結果的正確性。為此,本研究提出一種基于 SG 平滑處理的水利算據有效性改進方法。

1 DTW和SG 算法介紹

1.1 DTW

在給出算法定義之前,先闡述時序語義相似[8]的概念。假設將經過平滑處理后的某斷面洪水過程的時序數據分段,遞增段記為 U,下降段記為 D,則生成時序數據的語義模式為 UDUD,如果 2 條曲線的語義模式相同,則這 2 條時序數據曲線是相似的。后續說的洪水相似度本質就是語義相似度。

DTW 用于衡量 2 個長度不同的時序數據的相似度,被廣泛應用于語音、手勢、視頻動作識別,以及數據挖掘和信息檢索等模板匹配的場景中。DTW 將未知序列的長度進行伸縮,直到與參考模板的長度一致,在此過程中未知序列會產生扭曲,以便特征量與標準模式對應。DTW 定義[9]如下:假設給定連續時序數據X={(X1,T1),(X2,T2),…,(Xn,Tn)}和Y={(Y1,T1),(Y2,T2),…,(Ym,Tm)},函數d(i,j)=f(Xi,Yj)≥0,為X序列第i點到Y序列第j點的距離函數。通常采用歐式距離公式構建X和Y的距離矩陣B,公式如下:

式中:n,m分別為X和Y序列的長度,i≤n,j≤m。

基于構建的距離矩陣B,找到一條從d(1,1)到d(n,m)的路徑,使得路徑經過的元素值之和最小,即求扭曲曲線。假設路徑為W,W的第k個元素定義為Wk=(i,j)k,表示第k個路徑點X與Y的對齊關系,則有:

式中:Wp為路徑W的最后 1 個節點;p為路徑點的個數,max(m,n)≤p≤m+n-1,max(m,n)為取m和n中的較大值。

由于時序數據的特點,尋找路徑需要滿足如下限制條件:

1)邊界條件。若W1=(1,1),Wp=(m,n),則彎曲路徑從W1開始,結束于Wp。若Wk=(a,b),1≤a≤n,1≤b≤m,a和b分別表示Wk節點對應矩陣B橫向和縱向的序位。

2)連續條件。假如Wk-1=(a′,b′),下一個路徑點Wk=(a,b),則有(a-a′)≤1,(b-b′)≤1,即 2 個時序點在對齊時,不會出現遺漏和跨越對齊情況。

3)單調性條件。假設Wk=(a,b),Wk-1=(a′,b′),則(a-a′)≥0,(b-b′)≥0。

滿足約束條件的規整路徑有多條,需要最短累計距離的路徑公式如下:

式中:p用來對不同長度的規整路徑W進行補償。則累積距離φ(i,j)可表示為

式中:初始條件設置為φ(i,j)=d(X1,Y1),從起始點開始根據式(3)和(4)進行迭代計算,最終得到最小累加值φ(n,m),該累加值即為時序數據X和Y的最短累計距離 DTW(X,Y)。

1.2 SG 算法

預處理常用的平滑方法中[10],SG 算法的最大特點為在濾除噪聲的同時可以確保信號的形狀、寬度不變,所以被廣泛運用于數據平滑除噪的應用場景。

SG 算法[11]是一種卷積滑動窗口的加權平均算法,設濾波窗口的寬度w=2i+1,i∈[1,n],i為半窗寬度,x代表數據點在窗口內的相對位置,x∈[-i,i],數據點所在位置對應的函數值為P(x)。根據窗口內的數據點,構造n階多項式,擬合得到f(x)表達式[12]:

式中:an0,an1,…,ann表示擬合多項式f(x)的擬合系數。經過最小二乘法擬合,得到殘差E的表達式為[13]23

式中:殘差E表示擬合曲線與原始數據之間的差異,用來衡量擬合曲線與原始數據的擬合程度。若要f(x)獲得最佳的擬合質量,應使殘差E趨于最小,假定式(6)中各項系數的導數為εz,z=(1,2,3,…,n),將εz設置為 0,可得如下公式[13]23:

化簡式(7)可得式(8)[13]24:

當滑動窗口大小與平滑階數固定時,將待擬合窗口[P(-i),…,P(0),…,P(i)]內數據帶入式(8),可求得多項式系數列表[an0,an1,…,ann]T,其中 T 表示矩陣轉置。

在實際程序計算時通過調整窗口大小和冪次等參數,可以平衡平滑效果和保留數據細節的程度。

2 算據有效性論證

改進數據挖掘模型輸入算據的質量是數據挖掘的重要步驟[13],數據預處理技術可以有效改進算據質量,從而保證數據挖掘模型的可靠性和高效率。水文數據一般通過人工錄入或傳感器采集,因此不可避免產生隨機誤差和噪聲數據,如數據采集設備故障、人為因素產生的誤差,以及數據傳輸過程中出現的錯誤等。為提高 DTW 的可靠性和預測能力,本研究在進行相似度計算前,對洪水過程數據進行平滑處理,并觀察平滑前后 DTW 計算結果的變化。隨機抽取錢塘江流域開化縣水文測站 3 場洪水的過程數據,洪水時間分別為 2004—05—14(場次 1),2004—06—19(場次 2)和 2006—06—27(場次 3),用突跳、缺失和擾動對場次 3 進行異常處理,得到的洪水場次分別為 3.1,3.2,3.3,各場次洪水過程如圖 1 所示。

圖1 開化縣水文測站各洪水場次洪水過程

根據場次 1,2,3 洪水過程數據,以及異常處理后的洪水場次 3.1,3.2,3.3 數據,可得到場次 1 和場次 2,3,3.1,3.2,3.3的DTW 計算結果分別為13.65,3.64,17.55,3.61,21.39。經過比較可知:場次 1 和場次 3 的相似度高于場次 1 和場次 2 的相似度,且差距明顯;經過異常處理的洪水場次數據3.1,3.3 和場次 1 的相似度,相對于場次 3 和場次1 相似度發生了較大偏離,DTW 計算結果均大于場次 1 和場次2 的結果 13.65;因為 DTW 計算不需要嚴格的時序對應,故場次 1 和場次 3.2 的結果幾乎不受影響。由此可知,算據質量較差會導致 DTW相似度算法發生偏差甚至失效。此時對各洪水場次數據用 SG 算法進行平滑,平滑前后結果如圖 2所示。

圖2 開化縣水文測站洪水過程平滑處理前后數據變化

圖2 中虛線表示平滑后的數據,顯然平滑算法對突兀的尖峰進行了有效處理。此時用平滑后的洪水場次數據再進行 DTW 計算,可得到場次 1 和場次 2,3,3.1,3.2,3.3的DTW 計算結果分別為 16.86,5.61,12.76,5.61,11.15。由圖 2 可知:經過平滑處理后的場次 1 和場次 3.1,3.2,3.3 的相似度,均高于場次 1和場次 2 的相似度,符合實際情況,由此說明平滑算法較好地保留了算據的趨勢特征,同時也保證 DTW 結果的穩定性。

3 試驗和分析

本研究試驗的主要目的是分析 SG 算法的優越性,以及平滑處理改進算據的有效性。試驗首先對開化縣水文測站的洪水過程樣本數據用移動平均濾波、局部加權回歸散點平滑、線性回歸和 SG 等算法進行平滑處理,然后用平滑后的洪水過程數據進行 DTW計算,以驗證不同平滑算法對于 DTW 算法的有效性。使用各平滑算法處理后的各場次的洪水過程如圖 3 所示。

由圖 3 可知:通過算法平滑后,原始數據中比較突兀的尖峰得到了很好的處理(尤其是圖 d和f ),增加了數據的可視性。用不同算法平滑處理后的洪水場次數據進行 DTW 計算,各場次 DTW 結果如表 1 所示。

表1 中“<>”表示平滑后結果較平滑前有較大偏離,由表 1 可知:移動平均濾波、局部加權回歸散點平滑和線性回歸等算法均發生 1 項或者 2 項計算結果的偏離,而 SG 算法未導致洪水場次 3.1,3.2 和3.3 的計算結果發生偏離,平滑效果較其他算法好。

表1 平滑處理后各場次洪水和場次 1的DTW 計算結果

表2 平滑前后用 DTW 求得的相似洪水

為進一步驗證 SG 算法能否有效改進算據的有效性,抽取開化縣水文測站 2002—2020 年典型的60 場洪水(按時間先后順序從 1到60 編號)進行分析。平滑前,用各洪水場次 DTW 計算結果查找最相似洪水場次,同理,平滑后找到最相似洪水場次,結果如表 2 所示。然后用相似洪水場次的匹配程度說明 DTW 算法的有效性,匹配程度用相似洪水的洪峰演進時長和當前洪水真實的演進時長的誤差說明,演進時長和誤差如圖 4 所示。

圖4 SG 平滑前后相似洪水洪峰演進時長情況

由圖 4 可得:未經平滑處理的算據求得的相似洪水的洪峰演進時長的平均誤差為 2.02 h,經過平滑處理的平均誤差為 1.80 h,即經過平滑處理的算據使DTW 計算準確率提高了 10.89%,更能確保算法的穩定性、可靠性和預測能力,由此得到 SG 平滑處理能改進算據有效性的結論。

4 結語

算據有效性對算法的驗證和使用起著至關重要的作用,能保證算法的穩定性、可靠性和預測能力。本研究抽取開化縣水文測站的 3 場洪水數據作為數據樣本,對場次 3 洪水數據進行異常處理,然后用平滑前后的洪水數據進行 DTW 相似度計算,結果表明經過平滑后的算據更適應 DTW 計算,從而說明平滑處理能改進算據的質量,提高算據的有效性。為了使結論更有說服力,抽取開化縣水文測站 60 場典型洪水數據進行試驗,平滑處理后找到的相似洪水比平滑前的匹配度更高,表明本研究觀點符合預期。

需要提出的是,本研究討論的算據改進方法沒有特定的流域、測站和要素限制,計算的水位數據沒有覆蓋整個錢塘江流域,計算的要素沒有包含降雨、流量等。對于不同流域、測站和要素的改進效果驗證是后續需要繼續開展的工作;同時本研究提出的平滑處理只是改進算據的一個方面,要充分改進算據的有效性需要采用綜合的方法,根據不同的數據特征采用不同的方法,同時需要大量的試驗進行論證,這也是后續需要開展的工作。

猜你喜歡
開化縣場次測站
GNSS鐘差估計中的兩種測站選取策略分析
“同題賽場”走進浙江省衢州市開化縣(二)
長江上游高洪水期泥沙輸移特性
基于運行場次用時誤差的載人設備故障預警可視化研究
排考場次分配方法及其SQL實現
全球GPS測站垂向周年變化統計改正模型的建立
測站分布對GPS解算ERP的影響分析
踏遍青山人未老——記開化縣林場退休職工、全國綠化勞動模范余貴順
優勝選手來自
——浙江省衢州市開化縣華埠鎮中心小學
地鐵觀影指南
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合