基于BiLSTM深度學習模型的污水處理廠水質預測

2024-04-10 08:30陳樹龍黎志偉黃祖安李峻朗

當代化工研究 2024年5期

＊陳樹龍黎志偉黃祖安李峻朗

（1.江門公用能源環保有限公司廣東 529060 2.華南師范大學廣東 510006）

國家“十四五”規劃中生態文明的要求更趨嚴格，意味著國家對污水處理廠的處理凈化標準逐步提高。然而，對于污水處理廠的部分難以實時測定的水質指標，如化學需氧量（COD）、總氮（TN）等，其監測數據具有一定的滯后性，難以及時預知或發現系統異常；且水質受諸多因素的影響，導致水質呈現高度的非線性、波動性和不確定性特征，使水質預測異常困難[1]。近年來，機器學習特別是深度學習正在飛速發展，利用神經網絡預測污水處理廠進出水水質的技術已經受到廣大科研工作者的關注。循環神經網絡（Recurrent Neural Network，RNN）是一種具有循環結構的神經網絡，擅長解決時間序列的預測問題。Fang等人[2]利用RNN對污水處理廠的進出水數據進行建模，其準確度R2可達0.76。但是，由于RNN容易出現梯度消失或梯度爆炸的現象[3]，在很大程度上影響預測的準確度，因此RNN的應用受到一定的限制。長短時記憶神經網絡（Long Short Term Memory，LSTM）是RNN的變種之一，其通過向RNN添加輸入門、遺忘門與輸出門來控制信息的流動，有效解決RNN存在的問題。Li等人[4]利用RNN、LSTM預測造紙廢水處理廠的出水COD與SS，結果顯示LSTM的準確度R2可達0.83。另外，通過向LSTM中添加雙向層（Bidirectional），組成雙向長短時記憶神經網絡BiLSTM，可解決原始模型存在的遺忘問題，并進一步提升預測性能[5]。本研究開發基于BiLSTM模型的水質預測算法，力求運用該算法的非線性映射特性建立軟測量模型，獲得軟測量數據，實現所有水質指標同步獲取，提高監測數據的管理效率。更進一步地，本研究可以預測未來的水質變化，避免可能發生的水質異常甚至反應系統崩潰等狀況，為污水處理廠運營管理提供科學的數據支撐。

1.數據獲取與處理

（1）數據來源。本研究的數據來源為廣東省江門市某生活污水處理廠，處理規模為4萬噸/天，主要處理工藝為A2/O法，污水處理工藝如圖1所示。數據取自該廠2019—2021年的進出水監測數據，可用數據共1096組。該廠進出水主要監測指標為pH值、COD、NH4+-N、TN、TP、SS與污水流量，進出水水質概況如表1所示。

表1 污水處理廠進出水水質概況

圖1 污水處理廠污水處理工藝

圖2 神經網絡結構

（2）數據集的建立?；谏鲜鰯祿?，本研究建立以COD與TN為目標變量的軟測量模型。取進出水pH值、NH4+-N、TP、SS與污水流量共9個變量作為特征（輸入變量），出水COD、TN共兩個變量作為標簽（輸出變量）；取前1000組數據，其中前800組（前80%）數據為訓練集，后200組（后20%）為測試集。

（3）數據預處理。本研究中，不同變量之間數據的數量級差異較大，如進水COD濃度平均值為188mg/L，而出水NH4+-N濃度平均值僅為0.19mg/L。為了消除數據間數量級差異過大導致模型擬合能力降低的現象，需要將數據進行歸一化處理：

2.軟測量模型的建立

(1)BiLSTM的結構

LSTM在RNN的基礎上，通過引入門控機制來控制信息的流動與抑制信息的無序傳播，從而更好地編碼序列中的長時間序列。LSTM單元包含輸入門、輸出門及遺忘門。其中，遺忘門使內部單元中的某些信息消失（遺忘），輸入門從內部單元中選中某些信息，最后輸出門將這些信息輸出。

免疫熒光原位雜交檢測結果判定：熒光顯微鏡的藍色通道下觀察DAPI染色，藍色熒光者表明為有核細胞；紅色通道下觀察CEP-8信號，紅色亮點數目即為8號染色體數目，CTC的 8號染色體呈多倍體，即CEP8信號點≥3個，血源性白細胞8號染色體呈二倍體，即CEP8信號點≤2個；另外，CD45染色為紅色，在紅色通道下觀察細胞是否表達CD45，CTC不表達CD45而細胞周圍無紅色熒光。結合三色通道下的疊加圖像，CTC陽性判讀標準：CEP-8信號點≥3個且DAPI＋CD45-，胃癌患者外周血中CTC的細胞核經DAPI染色顯示為藍色熒光，細胞核內可見有3個或3個以上紅色信號點時，認為是循環胃癌細胞（圖1）。

LSTM的信息在t時刻前向傳播如公式（2）～（7）所示：

基于此，為了提升小學數學課堂教學中德育滲透之實效性，教師要在緊緊圍繞課堂教學內容的前提下，緊密結合學生的實際認知水平，以設計各種各樣的作業為契機，恰如其分地打通德育滲透的延伸點。

3.結果與討論

(1)實驗概況

①比較模型的選?。罕狙芯恳猿鏊瓹OD、出水TN兩個變量為預測目標，利用BiLSTM深度學習模型進行預測。為了比較BiLSTM的預測性能，本研究引入了RNN、LSTM與BiRNN三種同類模型。其中，RNN、LSTM同屬循環神經網絡類模型BiRNN是向RNN模型中增加了雙向循環層而得，與BiLSTM的改造方式類似。②效果指標的計算：本研究分別決定系數R2、均方根誤差RMSE、平均絕對百分比誤差MAPE，及測試時間TT，共四項指標衡量上述模型的預測準確度。其中，R2、RMSE與MAPE均指示預測值與真實值之間的偏差程度，如公式（8）～（10）所示；R2值為0～1，且越接近1表示預測值與真實值越吻合，預測準確度越高，RMSE與MAPE越小表示預測準確度越高。TT是計算模型訓練開始到測試結束的時間，TT越小表示模型速度越快。

(2)預測結果與分析

如圖3及表2所示，對于出水COD預測，四個模型的預測值與真實值均有接近趨勢，而BiLSTM的預測值更接近于真實值，其R2、RMSE、MAPE分別為0.955mg/L、0.61mg/L與6.5%，表明其在四個模型之中獲得最佳的預測效果。對于出水TN的預測，四個模型的預測值與真實值吻合度較高，而從指標上看，BiLSTM的預測效果最佳，其R2、RMSE、MAPE分別為0.947mg/L、1.23mg/L與7.3%，準確度較高。

表2 出水COD與出水TN的預測結果

圖3 模型預測結果

在上述兩個預測之中，BiLSTM模型在R2、RMSE、MAPE三個指標的比較中均取得了最好的效果，其原因是LSTM往RNN之中加入了輸入門、遺忘門與輸出門，解決了RNN易梯度消失或梯度爆炸的問題，提高了模型可靠性。此外，BiLSTM通過往LSTM之中加入雙向循環層，使未來的信息與過去的信息產生聯系，解決了在長時序列預測問題中的遺忘問題，進一步提高了模型的穩定性與預測性能。對于測試時間的比較，由于LSTM是RNN更加完善的迭代版本，其增加的輸入門、遺忘門與輸出門的運行需要消耗一定的時間。此外，本研究增加的雙向循環層也在一定程度上增加了模型運行的計算時間。所以在上述比較之中，運行時間從小到大的順序分別為RNN、BiRNN、LSTM、BiLSTM。但值得注意的是，BiLSTM的運行時間相比其他三個模型的差距并不大，但準確度相比RNN與BiRNN有較大幅度的提升，相比LSTM也有小幅度提升，其通過提高準確度獲得的效益要高于增加模型復雜度帶來的時間成本。因此，在上述四個模型之中，BiLSTM的預測性能最優，最適合用于污水處理過程水質數據的預測。

4.結論與展望

本研究采用BiLSTM神經網絡模型，預測污水處理廠出水COD與出水TN。使用R2、RMSE、MAPE與TT共四種指標衡量模型的預測性能，并引入RNN、LSTM、BiRNN共三種模型進行性能比較。結果顯示，在出水COD與出水TN的預測之中，BiLSTM的預測準確度均獲得最優值，說明BiLSTM對污水處理過程數據的預測準確度較高；雖然其測試時間并非最短，但其預測效果提升帶來的效益要大于消耗時間帶來的成本。綜上所述，在本研究中，BiLSTM最適用于對污水處理廠水質的預測。本研究中的BiLSTM模型可以對水質指標進行軟測量，實現水質數據同步輸出，為污水處理廠運營者的維護與管理提供可靠的科學依據；可以預測未來某段時間的水質，提前預知可能發生的水質異常情況。BiLSTM模型不僅可以預測水質數據，還能預測其他時間序列數據，如能源消耗、碳排放等。未來通過進一步深化對BiLSTM的研究與應用，可以促進污水處理廠的節能減排，推動國家“碳達峰”“碳中和”目標的實現。