田云
為落實國家政策要求以及解決生態環境資源數據中心目前發展中面臨的問題,本文對大數據時代下生態環境資源數據中心的發展方向進行了探索。面對數據來源眾多,尺度差異大,接入方式復雜的海量環境數據,急需通過大數據技術提升數據的采集、存儲及分析挖掘能力,促進數據整合共享,通過數據治理手段,提高數據質量水平,保障數據準確可用,最終支撐創新大數據的應用,推動監管創新。
黨中央、國務院高度重視我國大數據的發展和應用,將大數據確定為國家級發展戰略,隨后各部門相繼推出了指導意見以及落地政策:國務院辦公廳印發《政務信息系統整合共享實施方案》、生態環境部印發《生態環境大數據建設總體方案》、生態環境部印發《環境保護部政務信息系統整合共享實施方案》等相關文件。
因此,依托大數據、云計算等技術手段推進環境治理能力現代化已成為必然趨勢,本文重點探索如何解決大數據時代生態環境數據資源中心建設面臨的海量環境數據的接人、存儲問題,數據質量不高的問題以及如何對數據進行分析挖掘為環境管理提供支撐的問題。
1.大數據時代下生態環境資源數據中心面臨的問題
生態環境資源數據中心是全面實現環境信息資源的集中、整合、共享和管理的核心,是推動生態環境大數據建設應用的根本,目前生態環境資源數據中心面臨以下問題:
1.1 傳統平臺的技術局限性,不能滿足新形勢「的數據管理需求
隨著技術的進步,環境數據逐步呈現容量大、類型多、存取速度快的特點,傳統的環境資源數據中心在大容量數據吞吐、PB級數據存儲、數據實時采集與傳送等方面均面臨瓶頸性問題,不能滿足新形勢下的數據管理需求。
1.2 數據質量水平低,影響環境精準監管與科學決策
數據采集的過程中缺乏有效的數據管理手段,通常會造成各手擻據質量問題,例如單位上報數據不完整、不準確,不一致;在線監測數據通常會產生丟失、錯誤、失序、造假等各幣阿貢量問題,最終難以支撐環境精準監管與科學決策的需求。
1.3 數據對業務的支撐不足,數據沒有充分利用
沒有應用,數據永遠只是數據,海量的數據.只有在應用中才能發揮價值。目前環境業務信息系統積累了一定的環境管理數據,但多數依然停留在原始數據收集展示的層面上,無法做到智慧化的分析與發掘,為環境科學決策提供支撐的能力明顯不足。
2.環境信息的融合應用是生態環境資源數據中心的發展趨勢
全面整合生態環境數據資源,開展生態環境信息資源規劃,統籌生態環境數據采集,建立數據資源關聯關系,提高生態環境大數據分析能力,提升生態環境信息共享與服務能力是生態環境資源數據中心的發履必然要求。
2.1 推進生態月鏡數據融合共享開放
開展數據資源的集成整合,深化業務數據和社會數據關聯分析、融合利用,切實避免數據分散和信息孤島,建立以環保部門業務數據、監測物聯網傳感器數據為主,國土、水利、農業、林業、氣象等外部委數據和互聯網數據為輔的環境大數據資源體系,能夠有效推動生態環境數據資源共享服務和生態環境數據開放。
2.2 增強大數據技術的應用能力
面對海量數據整合共享給傳統環境資源數據中心帶了的挑戰,應該充分利用大數據技術實現海量數據的采集與接人,重點解決復雜結構化、半結構化和非結構化大數據管理與處理,同時應用人工智能、機器學習、模式識別等新技術,挖掘隱藏于海量數據中的信息,提升預測、預警、溯源、模擬模型支持能力,最終為生態環境管理創新應用提供支撐。
2.3 提升環境資源數據管理水平
數據的質量問題一直制約著生態環境數據的分析與應用,沒有準確的數據支撐,難以對數據進行深度分析,生態環境資源數據中心的今后建設要通過對數據標準管理、元數據管理、主數據管理、數據質量管理等提升數據整體質量,提高數據的可用性和易用性,為數據資源向數據資產的轉變打下堅實的基礎。一是要基于數據標準和標準樣例庫,與進入環境資源數據中心的數據進行校核,主動發現數據問題,從而實現對環境數據的標準化管理;二是在傳統環境資源數據中心以結構化數據為主的元數據基礎上,升級元數據管理,實現關系型、非結構化、半結構化、時序數據等海量異構數據的字典管理;三是將多個業務系統中最核心的、需要共享并保持一致的數據視為主數據,實現對主數據清洗、整合、管理與共享。四是對數據質量進行核查,幫助用戶定位數據在缺失、重復、極值異常、單調性異常等方面的質量問題。
3.應用大數據驅動環境監管模式創新
應用是生態環境大數據建設的核心,它是將數據價值傳遞給用戶的橋梁,通過大數據技術對數據進行關聯分析,從中發現趨勢、找準問題,主動發現企業風險,促進環境監管模式從被動響應向主動預見轉變。
3.1 建立污染源敏感點分析
打通各種污染源監管數據,如排污許可證申報、排污費申報、污染源在線監控等,通過數據比對分析、模型分析等手段發現問題,包括識別監測數據異常、生產及排放情況異常、互聯網輿情舉報等問題。
3.2 形成企業標簽體系
基于污染源敏感點分析結果,結合統計分析、建模分析以及預測分析等算法手段,多維度刻畫企業歷史、現在、將來行為屬性特征,即定義企業標簽體系:
事實標簽:基于原始數據,提取出事實標簽。例如:連續5日超標、一年內處罰超過兩次等標簽。
模型標簽:將原始數據及事實標簽作為數據基礎,結合算法模型,形成模型標簽。如企業違法風險等級等。
預測標簽:將原始數據集、事實標簽、模型標簽作為數據基礎,結合預測模型,得出預測標簽。例如:高風險企業、高危流域污染源等內容。
3.3 企業違法等級計算
企業違法等級計算模型以污染源敏感點分析評價體系以及標簽體系,對目標企業進行特征值提取及特征加權分析,計算得出企業違法分數。針對企業違法等級得分范圍劃定,給出每個企業違法等級評定結果。
通過以上分析可以發現目前的環境資源數據中心的發展遇到瓶頸,急需通過大數據技術提升數據的采集、存儲及分析挖掘能力,最終實現數據整合共享、提高數據質量,推動生態環境監管創新。