?

基于圖神經網絡聚類的土壤監測點位優化

2024-03-16 10:10陳志奎楊志朋陳軒
環境保護與循環經濟 2024年1期
關鍵詞:高維原始數據點位

陳志奎 楊志朋 陳軒

(1.大連理工大學軟件學院,遼寧大連 116620;2.大連理工大學遼寧省泛在網絡與服務軟件重點實驗室,遼寧大連 116620)

1 引言

目前土壤污染已成為影響生態環境和人類健康的重要問題之一。土壤監測是了解土壤污染狀況、評估土壤污染風險、制定防治措施的重要手段[1]。然而,監測點位布設不合理、監測參數選擇不當等,導致土壤監測結果不夠準確、科學,甚至失去監測的實際意義[2]。因此,土壤監測點位優化是當前土壤污染監測和治理工作的重要課題。優化監測點位布局可以提高土壤監測效率,減少監測成本,同時也可以更好地反映土壤污染的實際情況,為土壤環境保護和治理提供科學依據。針對監測點位的布設[3-4],2004 年國家頒布了《土壤環境監測規范》[5],該規范對土壤監測流程及土壤采樣、布點數量進行了詳細說明,并提出了3 種有效的布點方法,即隨機布點法、分塊布點法、系統布點法[6]。然而這3 種方法都是基于土壤監測區域整體的網格布點,并不考慮點位冗余性問題,所謂冗余點位,即去掉此點位前后,監測的土壤區域反映出相近的污染指數?;诖?,為降低點位冗余,在環境監測點位優化中常使用聚類算法[7-8]。

吳松濤[9]在水質監測點位優化中使用歐式距離聚類,將原始的12 個監測點位優化至5 個點位,在保證優化前后具有相同的污染指數的同時,大大節省了人力物力。隨著深度學習的發展,監測點位優化方法出現了新的思路,在大氣環境監測點位研究中[10],以選擇最大污染物綜合濃度值、最大貼進度等數據為目標,基于BP 神經網絡算法對大氣環境監測點位推理,進行多目標優化研究,在約束條件下利用BP神經網絡求取最優解,優化監測點位布局方式。李幔等[11]針對大氣點位數據易缺失的情況,提出一種基于BiLSTM 神經網絡的聚類優化方法,在數據缺失的情況下,通過推理對數據進行補全,然后再進行聚類,提升了聚類算法的性能。在水質環境監測點位研究中,張鏑等[12]基于自編碼器對原始數據進行降維,并對降維后的數據采用層次聚類方法,以實現點位優化。

上述環境監測點位優化方法僅考慮了高維度數據特征的提取,從而降低原始數據中的噪聲,以便獲得更好的聚類結果,然而,真實的土壤監測點位數據不僅包括高維度的數據表示,還包括點位結構特征,例如監測點位的地理位置等。這些結構特征可以被視為監測點位之間的空間關系,在地理位置上接近的監測點位往往具有相似的污染程度。圖神經網絡可以利用這種空間關系來預測監測點位之間的相似性和差異性。具體而言,可以將監測點位的結構特征視為圖的節點,并構建一個以監測點位之間空間關系為基礎的圖結構,進而使用圖神經網絡發掘節點之間的相互作用和關系,得出更為合理的點位優化結果。因此,基于圖卷積網絡(GCN)并結合自編碼器(Auto-Encoder),同時利用監測點位數據的結構特征和高維特征表示,可以實現更精準的土壤監測點位優化。

2 圖神經網絡聚類點位優化模型

本文旨在解決土壤監測點位的優化問題,以減少冗余性并提高代表性。為此,采用聚類算法對反映相似污染指數的點位進行歸類。然而,原始土壤污染數據中存在各種噪聲,直接使用聚類算法會導致不精確的聚類結果。因此,在進行聚類之前,需要去除原始數據中的冗余信息,即提取數據的高維特征。為了解決這個問題,采用自編碼器[13-14]實現,自編碼器可以更好地學習非線性映射關系,將復雜的原始數據映射成高維特征,并通過從高維特征中重構原始數據來去除數據中的噪聲影響,從而獲得原始數據中最本質的特征。另外,原始監測點位數據中常包含地理位置等結構信息,這些結構信息對于監測點位優化至關重要。圖數據可以很好地表示原始數據中的結構信息,為此,采用圖神經網絡[15-17],將各個監測點位數據作為圖節點,節點之間的位置結構關系等作為邊,來構建監測點位結構圖。利用圖神經網絡更新節點特征,以獲得更好的高維特征表示。

2.1 高維特征獲取

自編碼器是一種無監督方法,不需要標注數據,因此,本研究使用自編碼器來對原始數據獲取高維特征表示,去除原始數據中的冗余信息。自編碼器網絡包括編碼器和解碼器兩部分,編碼器將原始數據降維至固定大小的特征表示,假設編碼器包含L 層,則第l 層的特征表示如下:

式中,E 表示每層的特征;W 為第l 層的權重矩陣,為可訓練參數;b 為偏置項;Sigmoid 為激活函數。其中l=0 為原始數據X。

解碼器部分緊跟隨在編碼器后,是與編碼器對稱的網絡結構。其主要功能是將編碼器編碼得到的高維特征進行重建,重新得到原始數據X。

式中,D 為解碼器輸出的特征表示;W 為解碼器第l層的權重矩陣,為可訓練參數;b 為偏置項。

解碼器最后的輸出為重構的原始數據X^。最終通過原始輸入X 和重建輸入X^的F 范數作為目標損失函數L 進行特征學習,得到土壤監測點位數據的高維特征表示:

式中,N 為土壤監測點位數量。

2.2 信息聚合

該模塊的主要目標是將監測點位的結構信息與編碼器得到的高維特征表示[18]相結合,并在不同節點之間傳播信息。信息傳播模塊包括2 個主要部分。首先,需要對原始監測點位建立一個監測點位結構圖;其次,使用GCN 對監測點位結構圖進行特征傳播,以獲得更全面的監測點位特征表示用于聚類。

2.2.1 構建監測點位結構圖

假設有N 個原始監測點位,監測節點信息Xi包含采樣位置、污染物特性等信息,對于每個監測點位,根據其節點信息,使用點位數據的點積作為相似度,選K 個距離最近的監測點位作為鄰居節點,為此構建相似矩陣S∈RN×N,具體如下:

式中,Sij表示第i 個監測節點信息Xi與第j 個監測節點信息Xj的點積相似度。本研究中K 的取值為2。鄰居節點之間的邊權重為1,其他為0??梢垣@得圖的鄰接矩陣A,從而構建無向圖G 作為監測點位之間的圖數據表示,作為后續的圖神經網絡輸入。

2.2.2 結構信息傳播

由于自編碼器只能提取高維特征表示,而沒有考慮到監測點位的結構信息,因此采用GCN 在不同節點之間傳播監測點位的結構信息。GCN 可以同時提取節點的結構特征和語義特征[19]。將構建的監測點位結構圖作為輸入,將節點信息融合自編碼器各層的高維數據表示,能夠同時利用污染點位數據的結構信息和高維特征表示。使用GCN 進行節點間信息的傳播[20],對所有節點進行更新,以獲得更好的監測點位特征表示。當訓練完成后,GCN 可學習的表示將能夠適應兩種不同類型的信息,即土壤污染數據本身和土壤監測點位數據之間的空間關系。對于權重矩陣第Wl層GCN,第l 層節點表示Zl可以通過以下卷積運算獲得:

式中,A 為所構建的污染監測點位圖的鄰接矩陣,D為度矩陣,為了能夠結合自動編碼器所學習到的高維數據表示E,將第l 層表示Zl和El聚合以獲得信息更豐富的表示,公式如下:

式中,λ 為調節因子,取值在0~1 之間。然后圖神經網絡將Z~l作為GCN 中第l+1 層的輸入,并在節點間進行信息傳播,以生成表示Zl+1傳播公式,公式如下:

最終,通過不斷的節點更新,得到結合了高維特征和結構信息的表示,最后經過SoftMax 層,對表示進行聚類軟分配,作為監測點位選址采樣點的類別C,公式如下:

將相同類別的點位劃分至同一簇,選取簇中心作為類代表點位。

3 實驗分析

數據集來自某市土壤污染物的真實濃度值,土壤監測點位共計45 個,監測點位數據包括點位所在經緯度以及Cd,Pb,As,Cr,Cu,Ni,Zn 和有機質等污染物真實濃度值。

3.1 數據預處理

原始數據中,每種污染物濃度值的上下限不統一,不利于網絡的訓練,因此要對數據進行歸一化處理,將數據映射到[-1,1]之間,使用0 均值標準化,具體如下:

式中,Z 為歸一化后的數據;X 為監測點位原始數據;μ 為原始數據均值;σ 為原始數據標準差。

3.2 實驗流程

實驗過程如圖1 所示,將原始數據進行歸一化處理,處理后將數據輸入到高維特征提取模塊進行訓練,訓練好后保存自編碼器的權重。然后進行圖的構建,將構建好的圖輸入到信息傳播模塊,并結合自編碼器的每層輸出進行特征聚合,得到最終的表示,將最終表示輸入到SoftMax 模塊,得到每個點位特征的最終類別,將同一類的點位作為一簇,選取簇中心為代表點位,拋棄簇中其他冗余點位。

圖1 基于圖神經網絡的土壤點位優化模型

3.3 評價指標

采用F 檢驗法—方差齊性檢驗和t 檢驗法驗證原點位與優化后點位之間是否具有一致性。F 檢驗結果見表1,在給定α=0.05時,F 計均小于F 表。

表1 F 檢驗結果

進一步驗證一致性,進行雙樣本t 檢驗。驗證優化前后點位之間是否具有一致性,檢驗結果見表2,對于每一個污染指標t 計均小于t 表。

表2 t 檢驗結果

為了進一步驗證算法的有效性和選擇點位的精準性,采用土壤污染中常見的風險評價指標,計算優化前點位和優化后點位的內梅羅污染指數并進行比較,具體計算公式如下:

式中,Pi為平均單項污染指數;max(Pi)為最大單項污染指數。

計算得到的內梅羅污染指數見表3。

表3 內梅羅污染指數

3.4 結果分析

F 檢驗是一種統計假設檢驗方法,用于檢驗兩個或更多總體的方差是否一致。將F 檢驗中計算出的F 值與F 分布表中的臨界值進行比較,根據表1可看出F 計均小于F 表,說明原始監測點位數據與優化后的28 個點位數據在方差上具有一致性。在驗證方差具有一致性的基礎上,進一步驗證均值是否具有一致性,t 檢驗可以用于比較兩個樣本的均值是否顯著不同,進行t 檢驗時,在設置顯著性水平為0.05 時,計算出t 值。根據表2 得到,t 計均小于t 表,可認為兩個樣本均值沒有顯著性差異。綜合以上,可以驗證優化前后點位沒有明顯差異。

為了進一步驗證優化后的點位也可以反映整體的污染指數,使用土壤污染常用的內梅羅污染指數進行評價。在土壤污染內梅羅評價標準中,在(0.7,1.0]范圍內均屬于等級Ⅱ,為尚清潔(警戒線),由表3 可見,使用GCN 優化后的點位污染指數仍處于尚清潔范圍內,可以證明在優化前后基于內梅羅評價指標進行土壤評價,可以得到相同的結果。與此同時,對比只利用所獲得的點位高維信息表示而不使用結構信息的自編碼器優化方法,基于GCN 的監測點位優化方法,更加接近原點位的內梅羅污染指數。綜合以上結果分析可得,基于GCN 的聚類方法可以在減少監測點位的同時,不失對土壤環境污染監測的準確性。

4 結語

本文針對土壤監測點位存在冗余問題,以優化監測點位為目的,以圖神經網絡結合自編碼器的GCN 對土壤監測點位進行聚類處理,在優化點位的同時,不降低點位代表率,而大大減少了土壤監測過程中的人力物力。

猜你喜歡
高維原始數據點位
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
機器人快速示教方法及示教點位姿變換的研究
受特定變化趨勢限制的傳感器數據處理方法研究
機器人點位控制速度規劃算法選擇策略
一種改進的GP-CLIQUE自適應高維子空間聚類算法
全新Mentor DRS360 平臺借助集中式原始數據融合及直接實時傳感技術實現5 級自動駕駛
基于加權自學習散列的高維數據最近鄰查詢算法
垂直面內建立基線的特殊點位高程測量法
一般非齊次非線性擴散方程的等價變換和高維不變子空間
高維Kramers系統離出點的分布問題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合