?

國家地下水監測系統數據治理技術和體系

2024-01-08 02:09王卓然盧洪健高攀
水利信息化 2023年6期
關鍵詞:監測數據水位網格

王卓然 ,盧洪健 ,高攀

(1.水利部信息中心(水利部水文水資源監測預報中心),北京 100053;2.水利部國家地下水監測中心,北京 100053;3.山脈科技股份有限公司,陜西 西安 710075)

0 引言

國家地下水監測工程共建設國家級地下水自動監測站 20 469 個,建成覆蓋全國的國家地下水自動監測系統,監測站網密度和頻次顯著提高,水位、水溫、水質等自動監測信息通過地下水監測站 RTU 設備由公網每日發送至國家地下水監測系統接收平臺。2022 年,國家地下水自動監測系統共約產生 2.46 億條數據,自運行以來累計接收及發送的數據量超過 12 億條?,F代化水文監測技術帶來了海量監測數據,數據的處理和管理面臨巨大挑戰[1]。

地下水監測工程雖然建設了大量站點,但監測站仍存在分布不均勻的情況,部分地下水超采區站點密度不足或密度處于 GB/T 51040—2014《地下水監測工程技術規范》[2]規定的密度下限。另外,國家地下水監測工程要求地下水自動監測系統數據月到報率和交換率不低于 95%,完整率不低于 90%,雖然目前國家地下水監測系統實際運行“三率”高于《地下水監測工程技術規范》要求,但仍無法實現所有監測站點全部到報。地下水自動監測在采集、傳輸、解析數據的過程中,雖然單站異常率較低,但由于總站數多,實時監測數據量較大,故異常數據總量仍較大。為確保監測數據可以為治理考核、科學評價提供堅實基礎,避免由于舍棄數據或數據不準確帶來的成果偏差,充分發揮工程和數據效益,地下水監測數據和數據應用必須做到提質增效及精益求精。目前,地下水數據處理還存在經驗、認知、方法不足的情況,地下水數據治理尚未形成數據治理體系,存在的主要技術問題包括:

1)海量歷史數據和實時數據整合處理難度大、復雜性高。地下水監測數據來源多樣,包括歷史人工監測、國家站自動監測、地方站監測、外部委共享交換等數據,由于不同時期的建設標準不一致,地下水監測歷史上還存在大量未整編數據,實時入庫的數據須在某一規則下與歷史資料在完整性、一致性、準確性、合理性、代表性[3]等維度相銜接,地下水數據治理缺少完整的治理體系且無可借鑒的規則和技術經驗。

2)動水位、假埋深等地下水特殊性質數據主要依靠人工識別,缺乏智慧治理方案。國家地下水監測工程建設及試運行階段,針對數據不穩定、跳變等情況提出了固定閾值概念,即當相鄰 2 個監測數據變幅超過 2 m 時系統自動發送警報,通過人工操作放行或修正,初步解決了報大數問題。國家地下水監測工程建設前存在對異常值、動水位、假埋深等特殊數據性質認識不足的情況,如沒有考慮井臺高,使埋深值偏大,造成假埋深等情況。地下水水位受強人類活動影響且數據監測過程中存在缺報、異常、跳變、數據漂移等復雜情況,數據治理主要依靠人工,缺少自動化識別手段。

3)地下水多元異構數據標準化處理難度大,無法提供可支撐智能應用體系的數據采集手段。地下水數據除水位、埋深、水溫、水質等監測數據外,還有成井柱狀圖、巖芯數據、水文地質參數、歷史等值面線矢量數據等多元異構數據,各類數據尚未形成網格化數據產品或系列標準化數據,無法直接應用,地下水各類數據量多但獲取的信息較少,缺少可靠、可用的參數數據集。

為得到可靠性強、可信度高、可用性好的地下水數據,探索性地建立一套國家地下水監測系統數據治理體系,目標是實現海量數據的治理和整合,特別是地下水實時監測、歷史監測、多元異構參數等數據的標準化和體系化。

1 地下水數據治理體系技術路線

地下水數據治理體系依據地下水數據類型,分為以下 3 種體系:

1)地下水實時監測數據四級質控體系。地下水實時監測數據數量控制,以中央業務庫接收的數據到報率、完整率和交換率為指標進行綜合評價。質量控制實行四級質控:一級質控,在省級接收庫實行固定閾值對比和數據初步質控;二級質控,在省級業務庫進行假埋深對比識別和動水位識別處理;三級質控,在中央業務庫實現自適應閾值對比分析、多要素關聯分析和數據延長插補;四級質控,在成果庫進行異常值和地下水特征值分析,全過程采用自動識別+專家經驗,或專家經驗+自動識別+人工校核的方式進行數據治理,極大提高了數據治理效率。地下水實時監測數據四級質控體系技術路線如圖 1 所示。

2)歷史監測數據治理體系。歷史監測數據對于掌握區域地下水情況、了解地下水取用歷史、支撐治理效果評估等具有非常重要的意義,是寶貴的數據資料。國家地下水監測工程非常重視地下水歷史監測數據的收集和整理,地下水歷史監測數據為人工監測,多為 5 d 監測井監測數據,部分為每月報送 1 次。歷史監測數據的治理重點為假埋深、動水位的修正和數據插補及延長,治理體系技術路線如圖 2 所示。

圖1 地下水實時監測數據四級質控體系技術路線

圖2 歷史監測數據治理體系技術路線

3)多元異構數據標準化治理體系。國家地下水監測工程所有新建井均編制了成井柱狀圖,完成了抽水試驗,獲取了部分水文地質參數,同時收集了部分歷史水文地質參數和等值面線矢量數據,這些多元異構數據數據量龐大,結構復雜。為此,國家地下水監測工程基于 1 :1 000 000 標準地圖建立了全國尺度的統一公里固定網格,將各類數據進行標準化處理和空間重采樣網格賦值,形成了系列標準化數據及網格化數據集。多元異構數據標準化治理體系技術路線如圖 3 所示。

圖3 多元異構數據標準化治理體系技術路線

2 基于地下水數據特征的數據治理方法

地下水根據含水介質的差異可分為孔隙水、裂隙水和巖溶水,地下水類型的差別造成地下水水位動態差異明顯,同時由于影響地下水擾動的因素復雜,受氣候變化、人類活動、地層結構等多重影響,補給、徑流、排泄途徑各不相同,因此地下水動態類型多,數據治理難度大。Tabachnick 等[4]將異常值產生的原因劃分為錯誤數據輸入、計算編碼故障、數據污染和真實數據 4 類。國家地下水監測系統運行以來,將數據異常的原因歸納為以下 2 種:

1)人為因素。人為因素引起的異常主要包括:監測站運維,進行水樣采集、抽水或開采,以及地面高程等基礎信息調整引起的數據波動或跳變;更換壓力式水位計探頭時,線纜長度測量不準或數據線未保持垂直狀態,導致基礎計算參數不準確;人工比測誤差或操作錯誤;假埋深等。

2)非人為因素。非人為因素引起的異常主要包括:降雨等因素引起的數據跳變;監測站出現井干、井淤、泉干、自流、結冰、地面積水等現象;儀器設備探頭損壞或元器件穩定性不足,產生數據漂移;數據傳輸時由于網絡不穩定導致數據缺報、多報或冗余;召測數據由于數據量較大,超過報文字符數,分包發送導致解析錯誤等情況。

要建立高質量地下水監測數據庫,須實現在線實時大量數據的自動化識別、處理和修正,以提高數據質量?;诘叵滤當祿卣鞯臄祿卫眢w系以特征值統計、大數據多要素關聯分析、數據驅動模型和數值模型為主要技術手段,實現自動化數據質控、假埋深自動識別與修正、異常數據自動識別、自適應閾值對比分析等治理,輔以動水位數據人工識別與修正、基于測站運維記錄的數據插補和異常數據人工再校核,實現全國地下水監測數據與信息一體化管理。

2.1 數據初步質控自動化

數據初步質控主要實現錯誤數據的自動識別,充分考慮地下水監測數據特征,使用數據庫數據自動對比技術,將以下數據判別為錯誤數據:埋深數據小于或等于0,但本監測站非自流井或灌區井;埋深值大于井深;水位值大于地面高程,但非自流井或灌區。

2.2 假埋深數據自動識別與修正

地下水埋深應為地下水水面至地面的垂直距離。監測站在建設時,會在井口和地面分別設置固定點,井口固定點為人工觀測或安裝自動監測設備的基準點,地面固定點為確定地面高程的基準點。為方便工作,在安裝儀器設備時,多使用井口固定點作為電纜線長計算點,即設備讀取的埋深為水面至井口固定點的距離,但易出現假埋深的情況。

在應用數據前,須對各監測站的地面高程值、固定點高程值、監測埋深值、水位值等 4 種數據進行相互校核。若相互間校核數據存在矛盾,須調查核實并根據相互關系進行修正處理。

2.3 基于測站運維記錄的數據插補

在對自動監測站水位資料進行插補時,連續缺測時間不得超過 240 h,且缺測前后應有準確的監測數據。在巡測和運維過程中,準確的人工監測數據應視為正常監測數據,可作為資料插補的依據。測站運維中的現場比測記錄是地下水監測數據插補的重要依據。通過地下水測站移動運維 App,現場比測或人工監測的數據能夠實時上傳,在整編或應用實時數據時可作為數據修正或插補的參考。

2.4 地下水動水位識別與修正

基于國家地下水監測工程監測數據的治理實踐和經驗,采用奇異值突變檢測和濾波去噪等數理統計方法,輔以地下水運維記錄等參照,提出動水位識別與修正方法。對于規律性動水位,如由抽水引起水位臨時性明顯下降,但停止抽水后當日水位能迅速恢復的(如學校、農村定時供水等),可取地下水恢復后的高水位為基準值,對抽水期間的動水位進行插補、修正。對于突變型動水位,應根據以下實際情況確定處理方法:

1)由開采等原因造成的水位突變。水位過程線陡然變化,不平滑,不連續,應對相應突變監測數據進行插補、修正。

2)由洗井造成的水位突變。水位穩定前,應對水位恢復期內的動水位監測數據進行插補、修正;水位穩定后,洗井造成水位階梯狀變化,但洗井前后監測數據準確,不宜進行插補、修正。

水位資料插補可選用直線、趨勢、等值線等插補方法,水位資料修正可選用階梯型、漸變型、混合型等修正方法。

3 異常值識別主要技術手段

地下水監測可疑數據多為異常大值、小值或突變值。對可疑數據的處理需要保持謹慎態度,一方面,保留極端觀測值(異常值)通常會使統計分析復雜化;另一方面,簡單刪除或插補可能會導致預判不足,影響與水資源系統設計、運行和管理過程相關的決策,導致設計過于保守或不滿足設計要求[5]。

地下水數據治理中可疑數據的篩選方法按照應用方式可分為以下 2 類:

1)基于現有數據,使用統計和概率模型法或基于相似度量模型的方法進行判別。統計和概率模型法,主要對數據的分布做出假設,通過極值分析或者假設檢驗找出假設下定義的可疑數據;基于相似度量模型的方法,依據數據某方面性質,如距離、密度分布、類、樹或者譜,對數據進行分類,從而識別出可疑數據。這類方法是分析基礎。

2)使用數據驅動模型或地下水模擬方法對預測值和實時監測數據進行分析,識別可疑數據。常用的數據驅動模型,包括時間序列方法(如灰色理論、自回歸滑動平均模型)、隨機過程方法(如馬爾科夫鏈預測模型)和基于人工智能的方法(如人工神經網絡、單類支持向量機等)[6-10];地下水模擬方法較多,包括數值法、解析法等。這類方法是發展趨勢。

在國家地下水監測系統中,異常值的識別主要有4 種技術手段,分別為地下水特征值數據庫對比分析、綜合數值統計分析、大數據多要素關聯分析和閾值對比分析。

3.1 地下水特征值數據庫對比分析

地下水特征值數據庫依據整編數據自動生成單站特征值表,包括日/旬/月/季度/年最大、最小、平均埋深,日/月/年最大、最小、平均變幅,平均年末差。隨著監測時間的延續及數據量越來越豐富,可通過繪制頻率分布曲線或總結不同水文相似年水位動態的方法,準確判斷數據的合理性。將特征值表與實時監測數據相對應,可自動識別異常大和小值。

3.2 綜合數值統計分析

數值統計分析將監測值與相鄰監測值的差值作為研究對象,不考慮地下水水位數據的時間屬性,通常用于監測序列較短的數據。常用方法包括k倍標準差法、四分位距法等,如地下水監測中不同時空分布出現異常值,應對當時監測點周圍的具體情況(地質水文因素變化、氣象、附近污染源情況等)進行分析,不能簡單地用統計檢驗方法決定取舍。

為增加可疑數據篩選的精確程度,可采用 2 種以上方法疊加處理。對于序列較短的數據(日連續監測序列小于 5 a),采用四分位距法與基于距離的變幅閾值法疊加篩選可達到較好的識別效果[11]。由于這種方法僅考慮單變量異常值識別,在灌溉集中期和降水較大、地下水水位持續上升過程中,會識別出大量的異常值。

3.3 大數據多要素關聯分析

將地下水水位與同一水文地質單元同一層位的其他監測站或水文要素,如降雨量、開采井、地表水流量等監測數據相互關聯,對數據波動進行分析判斷,可實現多元監測值關聯識別。國家地下水監測系統可實現各類地下水相關數據和信息的整合,包括水文、地下水監測信息、降水量、地下水取用水信息、地下水調查評價和規劃信息?;诖髷祿枷氲臄祿诰?、深度學習、預測診斷、決策分析等能力建設智慧使能類服務,可為上層業務應用提供模型、算法等基礎能力。目前的應用場景包括以下 3 種:

1)針對取水層位可能被隱藏或跨行政區劃地下水開采使用管理等問題,基于國家地下水監測工程現有站網體系、地下水水位變幅通報技術路線、代表站網等成果,引入大數據分析方法,系統可自動匹配周邊開采層位監測井、混合井監測水位變化情況。

2)對于地下水水位突然上升或穩定非波動性下降的情況,考慮降水、生態補水或干旱影響,結合氣象站蒸發、降水等數據對地下水監測數據進行分析,確定水位變化具體原因。如水位數據在短時間內產生較大幅度跳變,但卻沒有相應的開采或降水,同一水文地質單元同一層位的其他站點未出現波動,則判斷為異常數據。

3)對于缺少專用監測井監測數據的地區,用大數據方法對其他監測數據進行分析,判斷該地區地下水水位變化情況。

3.4 閾值對比分析

閾值對比分析包括固定和自適應 2 種閾值對比分析,自適應閾值對比分析的關鍵在于地下水模型的建立,地下水模型通常包括地下水數值或數據驅動等模型。地下水系統結構復雜,地下水數值模型可以刻畫水文地質條件、人類活動影響及其他諸多因素綜合影響下的地下水流動規律。數據驅動模型多使用時間序列法,基于地下水水位數據的時間屬性,認為時間相近的監測值比時間相距較遠的監測值具有更強的相關性[12-13]。在 5 年以上連續監測資料的基礎上,根據監測序列特征選擇適宜的模型構建方法,經過不斷的檢驗和優化,構建擬合程度較高的模型。對地下水水位變化進行預測,對比預測值與實時監測值,將超過預測范圍的監測值標定為異常值。不斷進行再預測,可實現自適應閾值對比分析。

4 多元異構數據標準化治理

多元異構數據標準化治理主要分為以下 3 個步驟:

1)建立全國統一編碼的標準化公里網格。參考國家測繪地理信息局提供的 1 :1 000 000 標準地圖,四角坐標分別為(73.25°E,53.67°N)(73.25°E,18°N)(135°E,18°N)(135°E,53.67°N)。全國統一編碼的公里網格四角坐標與標準地圖一致,使用的坐標系為地理坐標系China Geodetic Coordinate System 2000,投影坐標系阿伯斯投影(雙標準緯線等積圓錐投影)。網格編碼面向地下水應用編制,編碼共 9 位,容量達到百萬量級。編碼由 AB 兩部分組成,其中 A 代表省份,用 2 位數字表示,B 代表網格序號,由 7 位數字組成。網格序號按照網格空間位置從左到右及從上到下的順序進行編碼,沒有達到 7 位的數采用補 0 方式處理,取值范圍為 0 000 001~9 999 999。在公里網格尺度下,提取網格中心點,作為后續網格數據集產品賦值依據。

2)數據標準化。數據標準化包括以下 3 個子步驟:a.數據清洗轉換。由于匯集的各類數據資源來源、空間坐標、數據格式、數據結構、屬性分類體系等存在較大差異,因此須按要素對匯集的各類數據進行分類分層,并進行數據清洗,具體包括地理編碼與空間化、數據格式轉換、數據坐標變換、屬性處理、圖形處理、結構化處理等一系列清洗功能,清洗后的數據具有統一時空參考、空間數據格式和分類編碼體系。b.對比整合。針對不同來源、類型、尺度的數據資源,根據不同業務應用服務需求進行比對分析,具體包括空間、屬性、范圍、現勢性、精度等比對功能,系統、全面地評價各對象和各圖層空間及屬性的一致性及差異。c.數據質控?;诒葘Ψ治鼋Y果,須選取表達準確、現勢性好、精度高、內容全的要素進行分層組織,形成地下水數據基礎庫和產品庫。為保證各類數據的標準化、現勢性、準確性、豐富性、結構化等方面達到最優,須具備幾何拓撲、空間關系、邏輯等一致性處理功能,以進一步提升數據資源的規范化和權威性。提供基于靈活、可配置方案的數據質控功能,可提升方案設計的靈活性與便捷性,提高自動質控結果的正確率,降低人工復檢、核檢的工作量。

對數據清洗轉換、對比整合和質控等過程產生的數據問題,須具備問題反饋及管理功能。

3)網格賦值。以國家地下水監測一期工程收集的各類參數矢量數據為基礎,進行分層、分類空間重采樣后,將標準化的數據與公里網格中心點相連接,形成參數網格數據產品。邊界部分網格采用相鄰網格參數補充。計算各平原區網格時,邊界處容易出現網格邊界與實際邊界不貼合的情況,對計算結果產生的影響不可忽略,因此需要合理的處理方案。經討論和查閱資料,以網格面積占比 75% 為原則,對計算區域邊界處網格進行處理:當邊界處網格大于或等于75% 的面積在計算區域內時,將該網格納入本區域;當邊界處網格小于 75% 的面積在計算區域內時,不納入本區域。在此規則下,形成網格化數據集。

由于基礎數據集包含種類繁多、體量龐雜的數據資源,為保證數據服務的多樣性和高效性,國家地下水監測系統已開發 52 個接口,滿足對基礎信息、降水、三維模型、統計表格、專題圖和多媒體等各類服務產品的加工支持,滿足個性化、定制化和多樣化的應用需求。

5 輔助模塊

5.1 地下水監測數據在線整編系統

地下水監測數據在線整編系統架構采用 B/S 架構,基于 J2EE,GIS 和數據交換等技術,實現中央、流域、省級、地市四級水文部門之間數據的實時共享與在線整編操作,實現數據校核、處理、入庫、統計分析、成果輸出、年鑒審核等流程化作業,以及系統中央節點部署、用戶統一管理、權限分布式配置、數據集中入庫等管理功能,基本實現地下水整編資料“日清月結”,極大提升了數據整編的時效性。系統功能結構如圖 4 所示。

地下水數據在線整編每年形成標準化的日平均地下水水位(埋深)、水溫整編數據 1 000 多萬條,高質量日值數據得到了實時應用,實現了全國地下水監測數據與信息的一體化管理,為開展地下水動態分析評價、預報預警等工作提供了可靠的數據支撐,極大促進了工程效益的發揮。

5.2 地下水測站運維 App

為實現自動監測與人工監測的智能連接,解決監測站點高度分散管理難的問題,依靠已建國家地下水信息系統,開發了包含測站運維管理、綜合應用運維和信息上報、面向測站運維的前端展示三方面內容的地下水測站運維 App??稍诰€生成運維路線并進行智能優化,前端運維任務自動分配,現場比測數據一鍵入庫,實現了測站運維多功能、智慧化。

地下水監測數據在線整編系統和測站運維 App 2 個輔助模塊集中部署在中央節點,簡化了原有數據交換流程,確保了整編數據的即時性與準確性,從技術上實現了地下水資料整編“日清月結”,同時節約了大量人力及時間,實現了地下水數據可用不可見,“批流一體”兼顧了數據安全與應用,2 個輔助模塊使得地下水實時校測在線整編一體化修正技術得以實現。

國家地下水監測系統數據治理體系在實踐中發揮了明顯作用,經過治理,國家地下水監測系統整體數據完整率由 92.90% 提升至 99.43%,可用數據率達到99.01%,數據平均日完整率提高了 5.93%,實時監測數據修正率提升了 2.56%,整編數據修正率提升了 0.06%。

6 結語

國家地下水監測系統通過建立地下水數據治理體系,實現了海量數據的治理和整合。實時監測數據四級質控體系實現了對到報數量和質量的雙控制;地下水歷史數據處理體系實現了歷史數據與實時監測數據的一致性,延長了數據時間長度,為地下水治理提供了數據支撐;多元異構數據標準化治理體系統一規范并形成了成井柱狀圖、水文地質參數(如給水度、大氣降水入滲系數)等多元異構數據的網格化數據集,大大提高了后續信息服務和智能應用效率。

地下水數據治理的關鍵在于針對各種數據類型,建立一整套數據標準化處理流程:采用數據庫數據對比計算,實現了數據初步質控的全面自動化和假埋深數據的自動識別與修正;采用適用于地下水數據處理的數據驅動和地下水數值等模型,形成了多種技術手段輔助的異常值識別方法體系;開發一系列在線軟件,實現了地下水數據在線“批流一體”和基于測站運行維護記錄的數據插補。

數據處理由主要依靠人工識別轉變為自動識別、人工校核的模式,結合實時校測、在線整編一體化修正技術,極大提高了數據處理和整編效率。數據可靠性強、可信度高、可用性好,通過《全國地下水超采區水位變化情況通報》等實際應用,相關數據和成果直接納入最嚴格水資源管理制度考核,數據科學性、完整性、準確性得到廣泛認可,為地下水調查與規劃、節約與保護、超采治理、污染防治和監督管理提供了數據支撐,為高水平地下水信息服務產品和智能應用提供了堅實保障。

猜你喜歡
監測數據水位網格
用全等三角形破解網格題
反射的橢圓隨機偏微分方程的網格逼近
GSM-R接口監測數據精確地理化方法及應用
重疊網格裝配中的一種改進ADT搜索方法
基于曲面展開的自由曲面網格劃分
基于MFAC-PID的核電站蒸汽發生器水位控制
GPS異常監測數據的關聯負選擇分步識別算法
基于小波函數對GNSS監測數據降噪的應用研究
變電站監測數據采集系統
基于PLC的水位控制系統的設計與研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合