?

一種基于CEEMDAN-CPELM 的池塘溶解氧預測模型研究*

2024-03-06 02:54錢承山袁永明
傳感技術學報 2024年1期
關鍵詞:溶解氧分量重構

施 珮,匡 亮,王 泉,錢承山,袁永明

(1.無錫學院物聯網工程學院,江蘇 無錫 214105;2.江蘇省物聯網設備超融合與安全工程研究中心,江蘇無錫 214105;3.江蘇信息職業技術學院物聯網工程學院,江蘇 無錫 214153;4.中國水產科學研究院淡水漁業研究中心,江蘇 無錫 214081)

在水產養殖中,水體溶解氧(Dissolved Oxygen,DO)作為魚類生長中的關鍵因子,其濃度的高低直接影響魚類的生存[1]。實際的集約化養殖生產中,由于養殖投放密度高、規模大,溶解氧濃度變化快,溶解氧時間序列總是受到復雜環境和干擾因素影響,呈現較明顯的非線性和非平穩特征。如何利用其多元關聯因素對這種非線性時間序列進行準確預測,實現集約化養殖生產的溶解氧精準控制,對提高生產效率、降低養殖風險具有重要意義。

近年來,越來越多的專家學者開展了養殖水體溶解氧數據流的預測研究[2-8]。崔雪梅[2]提出并建立了基于遺傳算法的阻尼最小二乘法改進BP(Back Propagation,BP)神經網絡算法,對水體溶解氧進行預測。雖然該方法相較于傳統BP 算法有一定提高,但未考慮影響溶解氧的眾多因素,且BP 神經網絡算法易陷入局部最小化,訓練速度較慢。劉雙印等[3]采用蟻群算法對最小二乘支持向量回歸機的模型參數進行優化,實現養殖池塘溶解氧濃度的預測。但是,該類算法未考慮溶解氧時間序列的多尺度特征,預測精度有限?;戮旰蛣⑿菢騕4]提出了一種基于k-Means 聚類和極限學習機(Extreme Learning Machine,ELM)的溶解氧預測模型,對常州市水產養殖基地的試驗池塘溶解氧濃度進行有效預測。該方法使用的ELM 方法收斂速度快,但當預測模型輸入量冗余時易產生強共線性問題。謝雨茜等[5]針對溶解氧的非線性特征提出基于經驗模態分解(Empirical Mode Decomposition,EMD) 與k-Means 聚類的改進長短期記憶神經網絡(Improved Long Short-Time Memory,ILSTM)模型。然而EMD方法在分解過程中易出現模態混疊問題,從而影響預測模型的預測精度。

為此,本文提出一種自適應完備集合經驗模態分解-聚類重構結構的偏最小二乘優化ELM 算法(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise-Clustering reconstitution and Partial Least Squares optimized ELM,CEEMDANCPELM),實現養殖試驗池塘的溶解氧預測。該模型通過CEEMDAN 對水體溶解氧濃度進行分解,使得溶解氧時間序列的多尺度特征被捕捉,同時基于模糊熵的聚類重構可以降低多尺度分解的復雜度。偏最小二乘法改進的極限學習機模型可以在訓練過程中避免冗余信息輸入引起的強共線問題,且模型學習速度快,可在溶解氧與各相關因子間建立穩定的映射關系,從而高效、準確地預測水體溶解氧濃度。

1 系統架構與相關知識

1.1 研究區域

本文的試驗基地位于江蘇省常熟市(121.9°E、31.6°N),該試驗基地擁有養殖總面積約3×105m2。養殖基地部署有物聯網感知監測系統,本試驗以物聯網監測范圍內的一口養殖池塘為試驗對象,該池塘長約 110 m,寬 60 m,深 1.5 m,面積約6.7×103m2。養殖品種為南美白對蝦,投放密度約75 尾/m2。本文選擇2019 年7 月11 日至8 月16 日期間共36 d 監測信息的約5 293 組數據集作為試驗數據集,并選前4 830(約33 d)組數據作為訓練樣本集,剩余463 組(約3 d)數據作為測試樣本集。

養殖池塘部署的物聯網感知監測系統包括水下智能感知系統和自動氣象站兩部分。水下智能感知系統能夠通過部署的傳感器設備實時采集水體溶解氧、pH 和水溫等參數信息,各傳感器一般部署在水下0.5 m 處,數據采集頻率為10 min/次。自動氣象站部署在距離池塘邊1 m 處,多個試驗池塘共用一套自動氣象站,可采集氣溫、風速、風向、大氣壓強、濕度、二氧化碳、輻射率、日照強度、光合有效輻射等九項數據。所有感知設備采集的數據以Zigbee 無線通信的方式通過Sink 節點傳輸至服務器。圖1為該系統的架構圖。

圖1 物聯網感知監測系統架構圖

1.2 研究方法

1.2.1 完備集合經驗模態分解

經驗模態分解是一種能夠自適應地將非線性信號分解為相互獨立的本征模態函數的一種方法[9]。然而EMD 在實際使用過程中,存在“模態混疊”現象。當時間序列的分解出現此問題時,分解后的本征模態函數則不再具有意義。自適應完備集合經驗模態分解利用白噪聲均勻分布的特點[10],對原始時間序列疊加帶有控制參數的成對自適應白噪聲,并計算提取集合平均后的模態分量IMFk,克服EMD的模態混疊問題。假定Ej(g)為EMD 分解得到的第j個模態分量,w(t)為高斯白噪聲,且滿足N(0,1)分布,則待處理的溶解氧時間序列為x(t),其詳細步驟如下:

①對初始時間序列x(t)疊加不同的白噪聲wi(t),使得初始序列變為合成信號xi(t)。利用EMD 對各合成信號xi(t)進行I次分解,從而得到一階本征模態分量IMF1(t),同時對原始時間序列中IMF1模態分量進行去除操作,獲得第一個殘差r1(t)。

②在r1(t)中加入成對高斯白噪聲得到r1(t)+ε1E1(wi(t)),并進行EMD 分解,獲得二階本征模態分量IMF2(t),并計算去除IMF2模態分量后的殘差r2(t):

③重復上述步驟,直至殘差信號為單調信號,不可再分解,則算法結束。由此分解獲得Z階IMFz本征模態分量、殘差rz(t)和殘差信號R(t):

由此,可以得到初始信號x(t)則表示為:

1.2.2 模糊熵

模糊熵(Fuzzy Entropy,FuzzyEn)能夠實現時間序列復雜程度的定量化度量。它能夠隨參數變化而變化熵值,在新模式中重新評估產生的概率[11]。且模糊熵值越大,產生概率越大,時間序列的復雜程度越大。假定N維時間序列U=[u(1),u(2),…,u(N)],其模糊熵計算的詳細步驟如下:

①按照序號順序進行相空間重構,如式(9)所示:

式中:相空間維度為m(m≤N-2),u0(i)為均值,可表示為:

②定義兩個窗口向量X(i)和X(j)之間的最大絕對距離為,如式(11):

采用模糊隸屬度函數μ(,m,r)計算向量X(i)和X(j)間的相似度:

式中:i=1,2,…N-m+1,r為相似容限度。

③對于每個i,計算各i對應的評價值

④重復步驟①~③,并定義函數φm(r)和時間序列u(N)為有限集的模糊熵如式(14)、式(15)所示

1.2.3K-medoids 聚類

K-medoids 是一種經典的聚類算法,但不同于k-Means 方法,它通過計算簇中點到其他點間距離和的最小值,并作為簇的中心點,最終將相同類別和具有相同屬性的點聚集在同一個簇中[12]。在Kmedoids 算法中,假定一個n大小的樣本集合G,任選k個點作為各簇的初始中心Ci,并依據其他點到簇心的距離進行歸類,獲得初始劃分的簇,再不斷使用非簇心點替代簇心并進行評估,最終確定簇類數及中心。其具體聚類步驟如下:

①從樣本集合X={x1,x2,…,xn}中隨機確定k個點作為初始簇心。

②計算集合X中心點之外的樣本點到簇心的距離Cd,依據距離最小原則完成樣本點歸屬簇的劃分過程。

③計算各簇中任意一點與簇中非簇心的累積距離和Ct,若Ct<Cd,更換初始簇心Ci,反之不進行替換。

④重復步驟②~③,若聚類結果不變或達到迭代次數,聚類結束。

1.2.4 偏最小二乘優化極限學習機

極限學習機(ELM)作為一種簡單、高效的單隱層前饋神經網絡算法,在使用時僅需設置網絡隱含層節點數,無需調整輸入權值和偏置即可獲得最優解,因此學習速度非??靃13]。然而,若輸入節點信息冗余或隱含層單元數較樣本數更多時,則會發生輸出層的強共線性問題[14]。偏最小二乘算法能夠在嚴重多重相關性條件下進行有效的回歸分析,構建輸入與輸出間的映射模式[15]。偏最小二乘優化極限學習機(Partial Least Squares optimized ELM,PLS-ELM)中,正是利用PLS 對ELM 隱含層中的正交變量進行提取,有效解決強共線性問題。

在傳統ELM 算法中,對于大小為n的樣本集(xi,ti),xi=[xi1,xi2,…,xin]和ti=[ti1,ti2,…,tin]分別為ELM 的第i個輸入和網絡期望輸出,含有l個隱含層的ELM 網絡模型可以用式(16)表示:

式中:bj、wj=[wj1,wj2,…,wjn]T、βj=[βj1,βj2,…,βjn]、yi=[yi1,yi2,…,yin]T分別表示隱含層單元的偏置、ELM 網絡中輸入單元與第j個隱含層單元間輸入權值、第j個隱含層單元與輸出層間輸出權值以及輸出量,g(x)即ELM 的激活函數。

當使用PLS 進行權值β的計算,則可以構建輸出Y與H的線性關系,關系表達式為:

式中:e和βPLS分別代表PLS 優化后ELM 網絡的噪聲量和隱含層與輸出層間輸出權重。再對隱含層節點輸出矩陣H和輸出矩陣Y間進行雙線性分解,可得如下表達式:

式中:S=[s1,…,sh]∈RN×h、P=[p1,…,ph]∈RL×h和EN×L分別為隱含層得分矩陣、載荷矩陣和殘差矩陣;U=[u1,…,uh]∈RN×h、Q=[q1,…,qh]∈Rm×h和FN×m則分別代表輸出層的得分矩陣、載荷矩陣和殘差矩陣;且輸出層潛在變量uk和隱含層潛在變量sk之間存在uk=sk×bk的關系;bk為uk和sk間的最小二乘系數;最后以矩陣形式對該關系進行表達,則:

采用非線性迭代偏最小二乘法(Nonlinear Iterative Partial Least Squares,NIPALS)求解輸出權值,則該PLS-ELM 的求解式可表達為:

2 基于CEEMDAN-CPELM 的水體溶解氧預測模型

2.1 水體溶解氧預測流程

基于CEEMDAN-CPELM 水體溶解氧預測模型,在獲取物聯網監測系統感知信息后,首先進行溶解氧關聯因子的影響性分析,捕捉水體溶解氧變化規律,利用CEEMDAN 分解溶解氧時間序列,再對各模態分量進行模糊熵值聚類重構,并基于數據重構結果構建PLS-ELM 溶解氧預測模型,其整體溶解氧預測詳細流程如圖3 所示。

圖3 CEEMDAN-CPELM 溶解氧預測流程圖

①特征提取?;谖锫摼W水質監測系統實時采集水體參數和天氣信息,采用線性插值法對丟失的數據進行插補,獲得處理后的試驗數據集;利用皮爾森相關系數計算各影響因子與溶解氧濃度的關聯程度值,從而提取影溶解氧變化的關鍵因子,減少后續預測模型中的輸入量,降低輸入維度。

②CEEMDAN 模態分量模糊熵重構。針對溶解氧時間序列添加高斯白噪聲,利用CEEMDAN 完成多尺度模態分解,再將得到的IMFs 模態分量進行模糊熵計算,度量各分量的熵值,并依據熵值完成IMF分量自適應重構。通過這一過程,有效地將目標時間序列自適應地重構為特定模式,獲得特征統一的分量集合,為后續預測子模型構建提供有效依據。

③預測子模型構建。對CEEMDAN 模態分量模糊熵重構的結果進行分析,并基于重構的分量集合構建多個PLS-ELM 預測子模型。在試驗數據集的訓練集中進行模型訓練,經過迭代試驗確定預測模型的最優參數。

④性能對比。選擇不同的預測評估指標,并在相同數據集中使用不同的預測方法進行測試試驗,對比不同方法的預測性能差異,驗證CEEMDANCPELM 水體溶解氧預測模型測試結果,分析其性能優越性。

2.2 特征提取

水產養殖物聯網監測系統水下傳感器采集的水體參數包括DO 濃度、水溫(Water temperature,Wt)、pH 值等,自動氣象站采集的天氣參數包括氣溫(Air temperature,At)、風 速(Wind speed,Ws)、風 向(Wind direction,Wd)、大氣壓強(Atmospheric pressure,Ap)、濕度(Humidity,Hu)、二氧化碳(Carbon Dioxide,Cd)、輻射率(Radiance,Ra)、日照強度(Illuminance,Il)、光合有效輻射(Photosynthetically active radiation,Pr)等九項。這些數據在傳輸過程中不可避免地會發生數據延遲和丟失,本文針對延遲數據進行統一時間標準處理,并采用線性插值法對丟失數據進行插補。

同時,對上述水體參數與天氣參數進行分析,利用皮爾森相關系數法計算各影響因子與溶解氧因子間的關聯度值,其關聯系數值如表1 所示。

表1 關聯因子相關性系數

式中:x和y代表量關聯變量,n代表變量長度,xi為x的第i個元素,yi為y的第i個元素,和分別為x、y中所有元素的均值。

由表1 可以發現,本試驗中的監測信息與溶解氧之間均存在一定的關聯,但風速、風向和二氧化碳濃度因子關聯系數較低。故本次試驗選擇pH、水溫、氣溫、大氣壓強、濕度、輻射率、日照強度、光合有效輻射等關聯系數較高的因素作為強關聯關鍵因子用于后續預測分析。

2.3 CEEMDAN 模態分量模糊熵重構

對于非平穩的溶解氧時間序列,使用CEEMDAN可以將原始時間序列的模型分解成頻率由高到低的系列IMF 模態分量,避免模態混疊問題。然而經模態分解后獲得的本征模態分量數量較多,且相鄰模態分量之間復雜度、蘊含的物理意義均相近,故對所有IMF 分量均構建預測模型會消耗過多的模型訓練和測試時間,預測復雜度明顯上升。同時,為了提取有效信息,簡化CEEMDAN 分解量的重構過程,本文采用模糊熵理論對CEEMDAN 分解的IMFs 分量進行復雜度度量,結合K-medoids 聚類方法,并對IMFs 模糊熵值進行聚類,自適應地實現初始溶解氧時間序列的分解-重構過程。其具體步驟如下:

①CEEMDAN 分解:設置初始分解參數,對初始溶解氧時間序列x(t)進行CEEMDAN 分解,獲得z個本征模態分量IMF。

②IMFs 分量復雜度計算:對分解得到的IMFs分量分別計算其模糊熵值,并記作FuzzyEn1、Fuzzy-En2,…,FuzzyEnz。

③K-medoids 模糊熵聚類:首先設置聚類初始簇數,初始化簇心;再不斷計算各簇中任意一點與簇中非簇心的累積距離和Ct,直至簇心不再發生變化,從而確定最佳簇心位置;最后,分別對各簇中IMF本征模態分量就進行合并重構,將初始溶解氧時間序列重構為新的模態分量集合的形式。

2.4 預測子模型構建與設計

在數據的特征提取完成后,本文確定PLS-ELM溶解氧預測子模型的輸入維度為9,輸出為待測時刻的溶解氧濃度。經各模態分量IMFs 的模糊熵復雜度度量后,使用K-medoids 方法完成IMFs 分量的模糊熵值聚類,獲得z個新的模態分量。并以新的重構模態分量構建K=3 個PLS-ELM 預測子模型,分別對其中的參數進行設置。

本文使用交叉驗證法,經多次運行且均方根誤差(Root Mean Square Error,RMSE)[16]結果相近的條件下,設置偏最小二乘的潛在變量數h為5。另外采用試錯法來確定各預測子模型的隱含層節點數,分別為39、31、37。

2.5 預測模型性能對比

本文選擇平均絕對誤差(Mean Absolute Error,MAE)[17]和RMSE 作為預測精度的評價指標,采用納什效率系數(Nash-Sutcliffe Efficiency Coefficient,NSE)[18]作為預測模型預測結果好壞的評價指標。MAE 和RMSE 值越小,表明預測精度越高;反之預測精度越低。當ENAS值越接近1 時,表明該模型具有較高的可信度;當ENAS值越接近0 時,表明該預測結果可信,但存在一定的預測誤差;當ENAS值遠小于0 時,表明該預測模型不可信。其計算表達式如下所示:

式中:N為樣本點量,yi為真實值,為模型預測值,代表觀測平均值。

3 實驗結果與分析

3.1 CEEMDAN 模態分解結果分析

如圖4 所示為養殖水體溶解氧濃度的測量數據,對圖中的溶解氧樣本進行分析不難發現養殖水體的溶解氧濃度呈現較明顯的周期性和非線性。

圖4 水體溶解氧濃度測量數據

本試驗設置CEEMDAN 分解的參數最大迭代次數為5 000 次,集合數為500,添加的白噪聲數據的標準偏差為0.2,獲得圖5 所示分解結果。

圖5 CEEMDAN 模態分解結果

由圖5 可知,溶解氧原始時間序列被分解為13個模態分量。各IMF 模態分量的波動頻率各不相同,且頻率由IMF1至IMF13逐漸降低,IMF13因滿足分解的終止條件,被判定為最終雨量信號r(t),無需后續分解。同時,這一分解結果充分顯示了原始時間序列的變化趨勢。

3.2 模糊熵重構分析

在上述13 個IMFs 分量中,利用模糊熵理論進行復雜度計算,組成新的特征向量。本試驗中設置模糊熵的嵌入維度數為2,延遲因子系數值為0.2,相似度容差r=0.2×std,std 為模態分離時間序列的標準差。由此獲得CEEMDAN 模態分量模糊熵估算結果,如圖6 所示。

圖6 CEEMDAN 模態分量模糊熵值結果圖

由圖6 可知,IMF1~IMF13分量的模糊熵值除個別點外,總體處于下降趨勢。同時,說明CEEMDAN分解的不斷進行,使得IMF 模態分量的變化趨于平穩狀態。因此,模糊熵可以用于度量時間序列的分量復雜度。再對模糊熵值進行K-medoids 聚類,獲得聚類結果如表2 所示。

表2 模糊熵重構結果

表2 中,由于IMF2~IMF5的波動頻率較高,相互之間復雜度更接近,故將IMF2~IMF5合并重構為分量集合S1;IMF1、IMF6~IMF7三個模態分量的復雜度不高,模糊熵值最接近,故可以將該三個分量合并為分量集合S2;IMF8~IMF13的復雜程度較低,分量變化趨勢明顯,故可合并重構為分量集合S3。

3.3 改進算法的實驗對比與分析

為了驗證提出的CEEMDAN-CPELM 改進算法的性能,本文將構建CEEMDAN-ELM(基于CEEMDAN分解的ELM)、PLS-ELM(PLS 優化ELM)以及ELM作為對比模型,分析各方法的預測性能優劣。本試驗中,各預測模型的試驗數據相同,各優化模型的相關參數設置相同,預測模型的輸入輸出量相同,由此獲得圖7 所示預測效果圖。

圖7 不同改進模型的預測結果對比圖

圖7 清晰地顯示各ELM 改進模型均能實現水體溶解氧濃度的預測,但各預測模型的預測效果存在一定差異。在大多數樣本點中CEEMDAN-CPELM 模型的預測結果與真實值最接近,CEEMDAN-ELM 與PLS-ELM 模型的預測曲線較CEEMDAN-CPELM 預測結果雖有一定程度波動,但總體預測趨勢較一致。然而,在局部樣本點中,各預測模型的預測結果均與真實值存在一定偏差,且偏差程度不明確。為了清晰全面地對比各預測模型的預測效果,表3 詳細羅列了各改進模型的預測性能值。

表3 多個改進ELM 模型的溶解氧預測性能結果

對表3 的多個改進ELM 模型的預測性能結果值進行分析可以發現,所提出的CEEMDAN-CPELM預測模型的DO 預測RMSE 值為0.959、MAE 值為0.748 9,相較CEEMDAN-ELM 模型分別降低了1.37%、3.24%。同時,CEEMDAN-CPELM 模型的溶解氧預測RMSE 和MAE 值相較于PLS-ELM 模型分別降低了2.36%和1.80%。由此表明本文提出的預測模型使用的CEEMDAN 分解和模糊熵聚類重構操作有效地捕捉了溶解氧的數據特征,提高了預測精度,偏最小二乘預測算法能避免本文中數據的強共線性問題,提高預測精度。CEEMDAN-CPELM 模型的預測RMSE 和MAE 值相較于ELM 分別降低了27.35%和29.59%,充分體現了兩項優化操作結合的優越性,能有效提高算法的性能。CEEMDANCPELM 模型的ENAS系數值為0.0348,明顯高于其他三個模型的ENAS值,也驗證了模型性能的優越性。

3.4 不同預測模型實驗對比與分析

為了驗證提出的CEEMDAN-CPELM 模型的適用性,本文選擇GA-SELM[19]、LSSVM 和傳統BP 神經網絡模型作為對比模型。各模型的試驗數據集相同,水體溶解氧預測結果如圖8 所示。

圖8 不同類型預測模型的溶解氧預測結果圖

由圖8 可以發現,上述四種不同類型的預測模型雖然均實現了溶解氧濃度的預測,但預測效果差別較大。CEEMDAN-CPELM 模型的預測結果曲線最接近溶解氧濃度的真實測量值變化曲線。GASELM 模型的預測結果曲線與CEEMDAN-CPELM的預測效果相近,也能較好地將溶解氧真實變化趨勢預測出來。LSSVM 和BP 網絡模型的預測效果明顯比CEEMDAN-CPELM 和GA-SELM 模型差,在很多樣本點上偏離真實值較遠。為了說明CEEMDAN-CPELM 模型的性能優勢,表4 詳細列出了不同類型模型的預測性能結果。

表4 不同類型預測模型的預測性能結果表

從表4 中可以清楚地看出,CEEMDAN-CPELM模型的RMSE 較GA-SELM、LSSVM 和BP 模型分別降低了13.36%、32.21%和44.81%。CEEMDANCPELM 模型的MAE 較GA-SELM、LSSVM 和BP 模型分別降低了17.57%、26.41%和48.68%。同時,CEEMDAN-CPELM 模型的ENAS系數值遠高于其他模型的ENAS系數值。故,CEEMDAN-CPELM 模型的預測性能較其他模型的預測性能有明顯的提高。

結果表明,基于CEEMDAN 分解、模糊熵值聚類重構、改進ELM 等優化操作構建的CEEMDANCPELM 模型可以實現水體溶解氧濃度的有效預測。該模型具有較高的預測性能,在不同類型的預測模型中也具有明顯的預測性能優勢。

4 結論

本文提出的基于CEEMDAN-CPELM 的水體溶解氧濃度預測模型,能夠針對真實養殖環境中非線性變化的溶解氧濃度進行預測。該模型基于多元時間序列的強關聯性和非平穩性,構建能應用于實際養殖環境的預測模型。其主要結論如下:

①通過CEEMDAN 將溶解氧非線性數據分解為多尺度IMF 模態分量及余量,再通過“分解-重構-預測”的結構提高溶解氧預測的精度。

②采用PLS 方法對ELM 進行改進,避免多元預測模型中輸入信息冗余帶來的強共線性問題,從而提高預測模型的性能。

③以實際養殖生產環境數據為試驗對象,將CEEMDAN-CPELM 模型的溶解氧預測性能值與多種改進ELM 模型以及不同類型預測模型進行對比分析,本文提出的預測模型獲得了較明顯的優勢。驗證了CEEMDAN-CPELM 模型對養殖水體溶解氧預測的有效性和可行性。

猜你喜歡
溶解氧分量重構
長城敘事的重構
帽子的分量
淺析水中溶解氧的測定
北方大陸 重構未來
論《哈姆雷特》中良心的分量
北京的重構與再造
分量
污水活性污泥處理過程的溶解氧增益調度控制
城市河道洲灘對水流溶解氧分布的影響
論中止行為及其對中止犯的重構
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合