?

化工污水處理大數據技術應用研究

2023-12-13 15:35段碧清
科技與創新 2023年23期
關鍵詞:預測算法模型

段碧清

(中化環境控股有限公司,北京 100071)

如今,全球掀起了以數字化轉型升級為首要任務的新一輪工業變革,工業大數據作為引領這場變革的主要驅動力,已經成為當今工業領域的熱點之一。新一代信息技術與工業的深度融合將促進工業領域的服務轉型和產品升級,重塑全球制造業的產業格局。為緊緊抓住這一重大歷史機遇,搶占新一輪競爭制高點,國家高度重視并作出長期性、戰略性部署,要求“加快發展先進制造業,推動互聯網、大數據、人工智能和實體經濟深度融合”。工業大數據是工業領域的核心要素,以大數據工業互聯網為基礎,用云計算、大數據、物聯網、人工智能等技術引領工業生產方式的變革,拉動工業經濟的創新發展。工業大數據分析技術作為工業大數據的核心技術之一,可使工業大數據產品具備海量數據的挖掘能力、多源數據的集成能力、多類型知識的建模能力、多業務場景的分析能力、多領域知識的發掘能力等,對驅動企業業務創新和轉型升級具有重大作用。

1 水務大數據平臺建設的必要性

1.1 水務企業面臨的挑戰

結合水務行業自身的需求和特點,發現水務企業存在的主要問題和面臨的挑戰如下:①信息系統多且太分散,維護成本高;②數據標準不統一,無法實現統一共享,對數據的整合集成及互聯互通造成了阻礙,增加了信息整合的復雜度;③數據質量存在不可靠問題;④數據來源復雜,終端多而分散,導致數據采集及存儲安全存在問題;⑤數據眾多,數據分析處理能力有限,無法有效進行更深層次的數據挖掘、利用和輔助決策支持。

1.2 水務大數據平臺的建設目標和意義

水務大數據平臺建設時通過應用新ⅠT 技術,融合水行業需求,把“數字化” 應用于公司治理與環境治理服務中,創造新型的管理與服務模式。在數據的價值創造與價值傳遞過程中,將價值鏈的更多環節轉化為戰略優勢,實現技術、物質、資金、人才、服務等資源的優化配置,進一步提升管理精細化、為民服務精準化和水務企業管理現代化水平,數據驅動創新,將大數據技術能力轉化為企業發展的新動力[1]。

2 大數據技術發展概述

數據是新時代重要的生產要素,是國家基礎性戰略資源。大數據是數據的集合,以容量大、類型多、速度快、精度準、價值高為主要特征,是推動經濟轉型發展的新動力,是提升政府治理能力的新途徑,是重塑國家競爭優勢的新機遇?!笆奈濉?時期是中國工業經濟向數字經濟邁進的關鍵時期,對大數據產業發展提出了新的要求,產業將步入集成創新、快速發展、深度應用、結構優化的新階段。隨著互聯網、社交網絡等信息通信技術的發展,描述和記錄人類社會空間、信息空間和網絡空間的數據快速增長,數據規模也越來越龐大。大數據的數據源包括網絡&社交媒體、智能設備生成的數據(由硬軟件自動生成的數據,無人干擾,如電腦、醫療設備等)、感知數據(幾種傳感裝置用于測量物理量并將它轉換成信號)、事務數據(涉及描述數據的時間維度的事件,如財務和工作數據)和物聯網數據(大量通過網絡連接的設備提供多種類型服務的同時,會產生大量的數據和信息)[2]。數據的形式包括結構化數據、半結構化數據和非結構化數據。而在大數據領域,目前采集到的數據85%以上為非結構化和半結構化數據,只有少量的結構化數據[3]。

大數據分析是運用云計算、機器學習算法等方法對大數據進行分析,從中找出可以幫助決策的隱藏模式和未知的相互關系及其他有用的信息過程[4]。此外,傳統的數據顯示方法也已不足以滿足當前大數據分析結果輸出的需求,因此為提升數據解釋、展示能力,數據可視化也逐漸被引入了大數據領域。

綜上所述,大數據具有數據量大、處理速度快及數據種類多樣等特點,但尚無統一的定義。大數據理論強調以問題為導向,尋找事物之間的相關性。大數據的處理思路包括數據采集、數據處理與關聯、數據分析、數據應用:通過相應采集技術對數據進行收集;運用人工智能方法對采集到的數據進行 “去噪” 及清洗處理,得到可靠的數據;運用云計算技術和機器學習等方法對數據進行分析,得到數據模型;將得到的數據模型發布后傳遞給用戶,以幫助用戶制定決策。

3 污水處理大數據分析過程

化工污水處理企業承擔著中國化工園區上游企業化工污水處理任務,是化工污水排入生態環境的最后一道屏障,承擔著保護生態環境的重要責任。利用大數據技術對化工污水處理企業日運行數據及歷史數據進行分析建模,形成藥劑、出水COD(化學需氧量)預測模型,從而預測和判斷目前進出水流量、主要污染物指標與藥劑添加量或電量能耗的關系,利用數據模型可以對水廠運營及藥劑投加提供指導建議,達到卓越運營降本增效的目標。

3.1 大數據機器學習分析方法

機器學習是從數據中學習規律的過程,是從一系列原始數據中提取人們可以識別的特征,然后學習這些特征,通過不斷迭代、優化,最終產生一個模型,使用這個模型可以實現機器代替人進行復雜問題的分析及決策。機器學習建模的方法,大致可以分為分析目標確立、數據處理與特征工程、模型建立及迭代、模型評估、模型應用。

3.2 機器學習建模過程

首先通過物聯網傳感器導出企業日運行數據,對數據格式、字段類型、數據完整性進行初步校驗,然后以每月為單元對數據進行統計合并,形成以天為維度的統計分析數據。目前運營數據字段主要包括進水量、處理量、進水COD、進水SS(懸浮物)、進水氨氮、出水COD 等運營數據字段,詳見表1。

表1 主要污染物指標表

目前運營數據字段26 個,本次實驗以這部分數據作為基礎數據進行測試。通過對原始數據的分析,并參考污水處理運行的一般規律對各個字段關聯性、相關性進行分析字段的選擇。進水數據與出水數據及加藥量、活性炭、電耗等消耗數據必然存在一定關聯,具備數據分析的基本邏輯,可以進行數據分析算法模擬,這些數據可以作為數據分析選定字段屬性參與到數據建模中。本次實驗將運用系統每日運營上報數據特征進行人工數據模擬,然后根據模擬數據進行模型訓練、測試及驗證,通過結合實際的數據分析對場景的理解,設想日常進水數據指標與出水數據指標存在數據關聯,并對目前沒有收集到的屬性根據經驗進行模擬評價,制作樣本數據,利用已知的結果進行模型訓練。評價方法是將歷史項目數據與實際運營經驗相互結合制訂,隨著數據的不斷積累,屬性字段需要不斷進行優化調整。

3.2.1 構建預測模型

通過大數據平臺,進行數據加載、預處理、模型算子、模型應用、性能評估,主要流程如下:原始數據導入→ⅠnceptorSQL 特征工程→Sophon 可視化建?!鶶ophon 輸出學習模型→測試數據輸入之前模型→最終結果。

3.2.2 數據建模

3.2.2.1 創建實驗

數據準備與導入通過數據集對污水運營數據進行導入。新建一個實驗項目,在實驗中加載進化工污水企業運營數據作為本次實驗的數據源,進行模型訓練?;の鬯髽I運營數據是根據現有運營時間不斷增加,目前有3 組數據,分別是1—4 月、1—5 月、1—6 月3 組不同數據,根據不同數據進行模型訓練,不斷增加數據量,提升模型準確性。

3.2.2.2 數據處理

對數據添加字符串索引、數據類型轉換算子,為數據添加設置角色算子,然后對樣本數據進行7∶3 切分,分為訓練樣本和測試樣本,具體流程如圖1所示。

圖1 數據處理流程圖

3.2.2.3 算法選擇

利用人工智能算法預測藥劑添加量與進水COD、出水量COD、處理量、其他污染物指標、能耗等多個特征之間的關聯關系,通過對歷史數據的學習,預測出特定條件下藥劑的添加量。對于機器學習而言,可以分為分類、聚類、回歸等分析方法,對本次實驗預測類型進行評估,分別選擇邏輯回歸、XGBoost 回歸、梯度提升回歸、隨機森林回歸算法進行嘗試,對計算結果與實際運營數據進行對比,然后進行模型預測準確度性能評估。首先選擇隨機森林回歸算法進行計算,隨機森林是以決策樹為基礎的一種更高級的算法,是目前機器學習分類問題中應用最廣泛的算法之一。隨機森林是用隨機方式構建的一個森林,而這個森林是由很多的相互不關聯的決策樹組成。本質上屬于機器學習的一個分支稱為集成學習,集成學習通過建立幾個模型組合來解決單一預測問題,它的工作原理是生成多個分類器/模型,各自獨立地學習和作出預測,這些預測最后結合成單預測,因此優于任何一個單分類作出預測,隨機森林可以用于分類、回歸,每個決策樹都有一個自己的結果,選擇投票數最多的結果作為其最終結果。比如要判斷一個項目能否成功,會根據項目數據的特征生成很多個決策樹,每個決策樹都是獨立的,然后讓每個決策樹對一個項目能否成功進行決策,最后把所有決策樹的投票結果進行統計,得票最多的就作為該項目的最終計算結果,這個就是隨機森林的基本算法原理。實驗是想通過水質輸入數據、處理完成輸出數據,分析預測出添加PAC 藥劑的量,所以將進水、出水的特征數據作為輸入因子,添加藥劑量作為輸出因子,可以利用回歸算法擬合一個函數,預測加藥量與輸入量(進水、出水等輸入數據)之間的關系。通過XGBoost 回歸算法、隨機森林回歸對化工污水數據進行分析,分析預測結果如表2、表3 所示。

表2 XGBoost 回歸算法模型結果

表3 隨機森林回歸模型結果

3.2.2.4 性能評估

通過模型算法嘗試,然后利用性能回歸對模型進行性能評估,XGBoost 回歸算法及隨機森林回歸算法模型誤差對比如表4 所示。

表4 誤差對比表

3.2.3 模型輸出

訓練好的模型,通過打包進行模型輸出,用于發布APⅠ(應用程序編程接口),通過其他程序進行調用。

3.2.4 模型應用

使用測試數據、利用PAC 加藥預測模型,將模擬的數據作為輸入數據,將1—8 月的數據作為模型訓練數據,通過學習與訓練1—8 月數據,可以預測將來需要添加的藥劑量,模型預測結果如圖2 所示。將模擬數據作為輸入數據,可以預測出某種特定條件下PAC藥劑的投加量,基本達到了實驗預期效果。

圖2 模擬預測PAC 投加量計算結果

4 結論

通過從化工污水處理企業日常運營過程中獲取原始數據,然后對原始數據進行加工處理,并結合實際業務應用場景的可能性進行數據特征選擇,設計數據分析場景。由于目前數據還不夠完整,數據量還不夠豐富,在日常污水處理的可檢測性、實時性等方面還存在很多不足及欠缺,所以本次實驗人為模擬了部分數據。利用大數據機器學習平臺,對數據進行分析處理、訓練模型、模型測試,最后得到能夠預測加藥量的最終模型,使用最終訓練后模型能夠預測在特定工廠運行的前提下需要增加的藥劑量。通過本次研究,驗證了化工污水運營數據利用現有的大數據、人工智能、機器學習等工具進行處理和分析的可行性,但是目前運營數據積累還比較少,數據獲取途徑還比較單一,數據結構比較簡單,數據量還不夠大,可供測試的樣本用例有限,未來伴隨著企業數據收集手段、方法的不斷更新,運營類型數據不斷豐富,可分析場景會不斷增加,耗電、耗水及出水指標、環保指標等都可以作為分析預測的對象。通過本次實驗,對環保大數據分析方法、場景進行了有益的嘗試,獲得了較好的預測效果,但與實際業務運營的要求還是存在一定的距離,還需要在實際運營中不斷優化完善。

猜你喜歡
預測算法模型
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于MapReduce的改進Eclat算法
Travellng thg World Full—time for Rree
進位加法的兩種算法
不必預測未來,只需把握現在
3D打印中的模型分割與打包
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合