?

基于MRMR-SSA-BP的PM2.5濃度預測模型

2023-09-20 11:25張一準顏七笙
計算機仿真 2023年8期
關鍵詞:互信息權值麻雀

張一準,顏七笙

(1. 東華理工大學地球科學學院,江西 南昌 330199;2. 東華理工大學理學院,江西 南昌 330199)

1 引言

隨著世界范圍內的經濟和工業化的快速發展,空氣污染的問題日益加劇,城市空氣質量問題已經嚴重影響到居民的正常生活和幸福指數。2021年“十四五”開局之年,各省和地區相繼推出生態環境保護規劃,堅持以改善生態環境為核心,加快推動綠色發展,而空氣質量問題是其中重點要解決的問題。PM2.5濃度是衡量空氣質量的一項重要指標,我國早已于2012年在《環境空氣質量標準》新增PM2.5檢測指標[1],因此尋求精確預測PM2.5濃度的方法對“十四五”空氣質量改善行動計劃具有重大的意義。

目前PM2.5的預測方法主要有統計、數值以及機器學習等方法[2]。在統計模型中,如徐東等[3]基于多元線性回歸模型對成都市PM2.5的趨勢進行了預測研究,彭斯俊等[4]基于ARIMA模型對PM2.5的濃度進行預測,但預測精度有待提高,因為統計模型通常要求數據具有正態分布或平穩等特性,不適宜直接用于污染物濃度的預測[5]。數值模型是以大氣動力學理論為基礎,基于對大氣物理和化學過程的理解,建立的大氣污染度在空氣中的輸送擴散模型[6],如周廣強[7]等基于WRF-Chem模式降水對上海PM2.5預報的影響預測,但是數值模型的準確性嚴重依賴于需要不斷更新的排放源清單,預測地點的地理特點的復雜性以及污染物大氣過程的復雜性都使得預測模型的實現復雜化[8]。而新興的機器學習模型則在PM2.5濃度的預測上展現出更好的效果,如李志生[9]等根據多種樹模型進行對比,確定LightGBM預測模型在其它樹模型中訓練更快,占用內存更少,準確率更好的優點,但LightGBM模型是基于偏差的算法,對噪點數據敏感,也可能會產生較深的決策樹,從而導致模型過擬合,為了彌補單一模型的不足[10],許多學者開始嘗試組合多個模型來對PM2.5濃度進行預測,例如李建新[11]等利用混合核函數(HK)對傳統的支持向量機(SVM)模型進行改進構造的MRMR-HK-SVM模型預測PM2.5濃度,相較于原始的SVM模型,擬合程度較高,具有較好的泛化能力。

但在現有的PM2.5濃度預測模型中仍存在以下問題:

1)現有的預測PM2.5濃度的組合模型中,大多數模型都只是模型簡單的疊加,第一個模型的輸出作為第二個模型的輸入進行預測,或者模型多線性排列,最后的預測結果累加求均值,并沒有真正的提升和改善模型。

2)預測PM2.5濃度特征值的選取較為單一,例如黃婕[12]在對PM2.5濃度預測研究中僅以時空特征作為輸入,沒有考慮氣象因子和其它污染物對PM2.5濃度變化的影響。在空氣質量的預測研究領域中,LEE et al[13]選擇了歷史污染物和氣象數據來預測空氣質量,準確率得到明顯的提升。方曉婷[14]等人研究結果表明氣溫,濕度,風速及風向對PM2.5濃度有較大影響。所以在現有的PM2.5濃度預測研究中,PM2.5濃度的影響因子考慮的不夠全面。

3)PM2.5的影響因素眾多,每個影響因素對PM2.5濃度的影響都不相同,有的因素對PM2.5濃度變化的關系密切,有的因素對PM2.5濃度變化無明顯交集,現有研究總是把所有的影響因素作為模型的輸入來進行仿真預測,難免會對最后的結果造成較大的誤差。

綜上,本文選擇了適合求解內部機制復雜問題的BP神經網絡作為基礎模型,用麻雀搜索算法優化BP神經網絡的初始權值和閾值,提高BP神經網絡訓練的速度和精度,用最大相關最小冗余算法從從歷史污染物和氣象數據PM2.5、PM10、SO2、NO2、CO、O3、風向、平均氣壓、風速、平均氣溫、相對濕度等11個影響因子提取出最優影響特征值作為模型的輸入,構建成MRMR-SSA-BP模型,該模型能有效的彌補現有研究的不足和缺點,為PM2.5濃度預測提供了一種新方向。

2 研究區域和數據

2.1 研究區域

濟南市位于山東省的中西部,南依泰山,北跨黃河,地處魯中南低山丘陵與魯西北沖積平原的交接帶上,地勢南高北低,導致熱島效應嚴重,風速小,污染物不易于吹散。因為城市經濟發展,燃煤煙塵,工業粉塵和垃圾、風沙及車輛行駛的揚塵日益增多,導致濟南市的空氣質量在發布質量周報的城市中長時間居于倒數十名內。在2019年更被生態環境部評為環境質量較差城市之一。

2.2 數據來源

本文的歷史空氣污染數據來源于中國空氣質量在線監測分析平臺(https:∥www.aqistudy.cn/historydata/about.php),氣象天氣數據來源于中國氣象數據網(http:∥data.cma.cn)。分別采集了2019年1月1日至2019年12月31日的PM2.5、PM10、SO2、NO2、CO、O3、風向、平均氣壓、風速、平均氣溫、相對濕度的數據??偣?65組數據,所有數據均為日平均值。其中2019年1月1日至2019年11月30日為訓練數據,2019年12月1日至12月31日為測試數據。

3 預測模型

3.1 最大相關最小冗余算法

最大相關最小冗余算法(Max-Relevance and Min-Re-dundancy,MRMR)最早由彭漢川[15]等提出用來提取最優特征值??梢允褂没バ畔⒃谔卣骷现姓页雠c結果相關性最大,并且特征之間相關性最小的特征[16]。因為PM2.5的濃度影響因素關系復雜,不排除本文選擇的特征值(PM10、PM2.5、SO2、NO2、CO、O3、風向、平均氣壓、風速、平均氣溫、相對濕度)中有相關性。所以用最大相關最小冗余算法來去除可能存在的數據冗余?;バ畔⒖梢岳斫鉃橐粋€變量中包含的關于另一個變量的信息量。假設兩個變量為X,Y則互信息為

(1)

式中:P(X)和P(Y)是變量X,Y的概率密度函數,P(X,Y)是聯合概率函數。由式(1)可得互信息I(X;Y)和互信息I(Y;X)是相等的?;バ畔⒍攘苛藘蓚€隨機變量之間共有的信息量程度,這個值越大,兩個變量之間的相關性越大[17]。

以互信息為基礎,最大相關最小冗余算法可以根據最大統計依賴性準則來選擇特征[18]。

MRMR算法的最大相關定義為

(2)

MRMR算法的最小冗余定義為

(3)

式中:S表示特征集合,c表示類別。I(Xi;c)為特征與目標的互信息,本文研究中表示的是11個特征值(PM10、PM2.5、SO2、NO2、CO、O3、風向、平均氣壓、風速、平均氣溫、相對濕度)和下一日的PM2.5的互信息,I(Xi;Xj)為11個特征值之間的互信息。

MRMR的特征選擇標準為

信息差

(4)

信息熵

(5)

式(4)是常用的整合準則方式,故本文用式(4)整合優化[19]。

3.2 麻雀搜索優化BP網絡神經模型(SSA-BP)

3.2.1 麻雀搜索優化算法

麻雀搜索優化算法(Sparrow Search Algorithm, SSA)是由薛建凱[20]在2020年受麻雀覓食行為和反捕食行為提出的,該算法收斂速度快,尋優能力強。該算法的原理是在把麻雀分為發現者和追隨者,發現者本身適應度高,搜索區域廣,在整個種群中負責搜索有豐富資源的區域。追隨者為了獲得好的適應度,追隨者利用發現者來獲取資源。當整個種群面臨捕食威脅時,會立即進行反捕食行為,發現者和追隨者身份可以動態變化,但是所占種群數量的比重是不變的[21]。在SSA中發現者會優先獲取資源,因為發現者負責整個麻雀種群尋找資源并為追隨者提供方向。因此發現者的位置更新描述為

(6)

式中:t是當前迭代次數;T為最大的迭代次數;α為(0,1]的隨機數;Q為一個正態分布隨機數;R2和ST分別為預警值和安全值,預警值和安全值分別屬于[0,1]和[0.5,1]。當R2

剩下的麻雀為追隨者,為了獲取好的適應能力,其位置公式為

(7)

式中:A是一個1*j的矩陣,A+=AT(AAT)-1;XP是發現者在t+1這次迭代時的最優位置,XW是當前最差的位置。當i>n/2時,種群收斂時符合標準正態分布隨機數,值會收斂于0,表明適應度值較低的第i個追隨者沒有獲得食物,處于饑餓狀態,需要轉移地點[22]。i<=n/2時,為當前迭代時的最優位置加上該麻雀與最優位置的每一維距離加減,將總值均分。即為在最優位置附近隨機找一個位置,每一維距離最優位置的方差將會變小。

當面臨危險時,麻雀會進行反捕食或者撤回,位置更新公式為:

(8)

3.2.2 BP神經網絡

BP神經網絡(Back Propagation Neural Network,BP)是反向傳播神經算法。原理是一種基于誤差反向傳播的多層網絡。憑借其復雜模式分類能力和多維函數映射能力取得廣泛的應用,BP神經網絡分為輸入層、隱含層和輸出層,采用經驗風險最小和梯度下降法來調整權值和閾值計算最優值[23]。

圖1 BP神經網絡結構

3.2.3 SSA-BP算法

為提高準確度,采用SSA算法對BP神經網絡的初始權值和閾值優化來改善BP神經網絡的性能。在本文的研究中為了提高BP神經網絡的運算精度,隱藏層選擇了三層。

3.3 MRMR-SSA-BP模型

基于MRMR-SAA-BP模型算法流程圖如圖2所示。

圖2 MRMR-SAA-BP模型流程圖

1)收集濟南市的氣象數據和歷史污染物數據,預處理數據,把因為機器故障缺少的數據,用相鄰兩日的平均值填充。因為特征值中不同特征取值范圍相差較大,對數據進行歸一化處理,提升訓練速度。

2)通過最大相關最小冗余算法特征選擇選出最優的特征子集。根據式(1)算出各項特征值之間的互信息和各項特征值與目標值的互信息。根據式(2)算出特征值與目標值得最大相關性,式(3)算出特征值之間相互的冗余。最后根據式(4)作為整合準則,選出最優的特征子集。

3)確定BP神經網絡的拓撲結構。為了提高BP神經網絡的運算精度和運算速度,選擇合適的隱藏層節點數和層數。

4)根據麻雀搜索優化算法算出適合初始權值和閾值。首先初始化種群和迭代次數,根據式(6)更新發現者的位置描述,為追隨者提供覓食方向。追隨者為了獲得更好的適應度,根據式(7)更新位置,同發現者爭奪食物,或圍繞在發現者周圍覓食。當麻雀的適應度較低,處于種群邊緣,容易受到攻擊,所以根據式(8)fi≠fg一行,調整位置來躲避攻擊,而處在種群中央的麻雀會根據式(8)fi=fg一行,去接近它們相鄰的同伴,來盡量減少它們的危險區域。因為適應度越大,得到的優化參數解最優,把相鄰GAP代種群的距離小于可接受的最小距離作為判斷是否終止的準則,不再依賴最大進化代數,能自動識別[24]。

5)BP神經網絡獲取參數,在歸一化的訓練集上訓練得到預測模型。

6)把歸一化的測試數據輸入到預測模型中,得到預測結果,計算出結果的平均絕對誤差,當平均絕對誤差值小于預設值時為符合要求,輸出結果;當平均絕對誤差值大于預設值時,重新執行4) 5)計算出BP的權值和閾值進行預測,極大的預防了模型陷入局部最優解的情形。

7)最后根據式(9)(10)(11)算出均方根誤差,平均絕對誤差,R-square來進行模型評價。

3.4 評價模型

本文用3個評價指標來評估模型,分別為均方根誤差RMSE,平均絕對誤差MAE,R-square。數學公式為

(9)

(10)

(11)

RMSE,MAE,當預測值與真實值完全吻合時等于0,及誤差越大,該值越大。R-square是擬合優度的一個統計量。表示1減去y對回歸方程的方差與y的總方差的比值,值越大代表數據擬合度越好。

4 結果與分析

4.1 濟南市污染情況分析

濟南的PM2.5時序圖如圖3所示,濟南市的PM2.5呈現出兩頭高中間低的U型圖像,在1月到3月和11月到12月PM2.5急劇升高。在夏季天氣比較熱時PM2.5濃度偏低,在冬季時PM2.5曾一度逼近300大關。圖中可以看出PM2.5具有季節性分布的特點。賀博文[25]等研究表明,承德市的PM2.5濃度夏季減少的原因可能是因為夏季偏南方較強,加上較大的降水量很大程度上緩解PM2.5的污染,加上冬季的氣候條件,導致排放增加,造成PM2.5濃度增加。所以風向是研究預測第二天PM2.5濃度的一個重要指標,所以本文研究中把風向放進了初始的11個研究指標當中。

圖3 濟南市PM2.5濃度時序圖

由表1可知,濟南市PM2.5濃度最低時達到了4 μg/m3,遠遠高出國家環境標準,可以從夏季和冬季的各項指標對比入手,找出夏季冬季PM2.5濃度差距巨大的原因,對PM2.5的管控治理具有現實意義。表1數據中除了風速的標準差較小,表示除了風速以外,其它的指標因子波動性較大,代表指標數值有高度復雜性。

表1 濟南市2019年氣象和大氣污染物數據統計結果

4.2 基于MRMR算法的特征選擇

本文對于PM2.5的預測確立了11個特征數據,但是各項特征不僅對PM2.5濃度有相關性,它們互相之間可能也存在緊密的關系。如果直接默認各項特征值之間相互獨立而去預測PM2.5的濃度,可能會導致模型預測精確度的下降?;バ畔⑹莾蓚€變量之間統計相關性的測度,用于表示信息之間的關系。它們相關性越高則它們的互信息值越大。特征值之間的互信息如圖4所示,根據圖中的互信息,選出與PM2.5(后一天數據)相關性最大的五個特征值是風向,氣溫,平均氣壓,相對濕度,O3。但是不能只考慮相關性也得考慮特征之間的冗余度。根據MRMR算法得出最優特征值為:PM10,PM2.5,SO2,風向,氣壓??梢钥闯鰵鉁睾蚈3相關性特別高,但是它沒有被選入最優特征集,因為氣溫和O3對PM10也有極強的相關性,所以不能入選。證明MRMR算法有一定的合理性,考慮了數據的冗余度。

圖4 特征指標之間的互信息

4.3 MRMR-SSA-BP預測分析

MRMR-SSA-BP模型預測PM2.5時,首先選用了MRMR選擇的最優特征集(PM10,PM2.5,SO2,風向,平均氣壓)作為模型的輸入,再根據麻雀搜索優化算法,算出BP神經網絡的最優權值和閾值。根據2019.1.1到2019.11.30作為訓練集,12.1號到12.31號為測試集,MRMR-SSA-BP模型的預測結果如圖5所示。SSA-BP結果誤差圖如圖6所示,根據SSA-BP模型的誤差分析,在夏季時預測PM2.5準確度較高誤差較小,但是到春,冬兩季時誤差增多,誤差數值也變大??紤]到可能夏季和冬季對PM2.5濃度影響的因子權重在變化,在一整年中,所有的影響因子可能對PM2.5濃度的影響是處于一個動態變化的過程中,再者因為春冬兩季北方天氣轉冷,北方城市會采取集體供暖,導致煤炭排放增加,PM2.5濃度預測的影響因子變得更加復雜,使得春冬兩季對PM2.5濃度的預測精度降低。

圖5 MRMR-SSA-BP模型預測結果

圖6 SSA-BP模型預測結果

4.4 模型評價

為了驗證MRMR-SSA-BP模型的優越性,本文采用模型BP、MRMR-BP、SSA-BP來進行比較。采用相同的訓練集和測試集,結果如圖7-圖9所示,模型評價指標如表2所示。從預測結果圖來看MRMR-SSA-BP模型的預測效果最好,與真實值擬合度最高。其次是SSA-BP模型,可以看出MRMR算法選出的最優特征值是可以幫助模型提高預測精度。SSA-BP模型較普通的BP模型有了顯著的提升,證明麻雀搜索優化算法找出最優的權值和閾值能使BP神經網絡的預測提高精確度和擬合度。從預測結果圖和三個評價指標中從表2所示各模型的評價指標與模型預測結果圖所展示的結果一樣,最優的模型為MRMR-SSA-BP模型它較基礎的BP模型2種誤差分別降低了13.254和19.441。R2也從0.743上升到了0.916。表明本模型具有很大的優勢去預測PM2.5濃度。李建新[11]等人根據SVM為基礎模型建立得MRMR-HK-SVM模型對贛州市的PM2.5濃度進行預測,MRMR-HK-SVM模型的RMSE為14.891,因此,總體來說本文提出的MRMR-SAA-BP模型對PM2.5有著更高的預測精度。

表2 模型評價結果

圖7 MRMR-BP模型預測結果

圖8 BP模型預測結果

圖9 SSA-BP誤差分析圖

5 結論

針對PM2.5濃度預測本文以BP神經網絡為基礎模型,根據麻雀搜索優化算法確立BP神經網絡的最優初始權值和閾值,根據MRMR算法選擇輸入數據的最優特征值來對濟南市PM2.5濃度進行預測,建立了MRMR-SSA-BP模型,該組合模型不是多個模型的預測結果求平均值,它優化了傳統BP模型性能上的不足和缺點,根據預測結果和模型評價充分說明了MRMR-SSA-BP模型是一種高效精確的模型。

1)根據已有的研究成果,選擇了PM10、PM2.5、SO2、NO2、CO、O3、風向、平均氣壓、風速、平均氣溫、相對濕度等11項特征值作為預測PM2.5的影響因子,雖然每個因子都對PM2.5有很強的相關性,但是特征值之間也會有影響。這樣會影響模型的預測準確度。用MRMR算法不止考慮特征值之間的相關性,也考慮特征值之間的冗余,來提高模型的運算速度和預測精確度。

2)BP神經網絡預測中,初始的權值和閾值都是隨機確定的,這個初始的權值和閾值對神經網絡訓練有很大的影響,但是又沒有辦法準確的獲得,所以運用麻雀搜索優化算法找到最優適應度值得個體,來確立最優的初始權值和閾值,來提高模型預測PM2.5的穩定性和準確性。

3)根據PM2.5的濃度時序圖可以看出,PM2.5有著強烈的季節性規律,濟南冬季時PM2.5濃度達到278μg/m3,夏季時有時只有4μg/m3,所以對于PM2.5的治理可以根據季節性規律來進行治理調整。根據MRMR-SSA-BP模型進行PM2.5濃度的預測,有很高的的擬合能力,和較為準確的預測度,為空氣污染預測,和治理空氣污染提供了新的思路和方法。

根據模型運行結果來看,雖然模型具有很好的預測能力,但是夏季和冬季的預測能力偏差較大,如圖9所示,根據SSA-BP模型的誤差分析,在夏季時預測PM2.5準確度較高誤差較小,但是到春,冬兩季時誤差增多,誤差數值也變大??紤]到可能夏季和冬季對PM2.5濃度影響的因子權重在變化,因為冬季北方城市開始集體供暖,煤炭燃燒增加,使得PM2.5的影響因子與PM2.5濃度變化的關系更為復雜。因此未來的研究中,可以把PM2.5濃度的預測進行分季節預測,把每個季節的影響因子進行處理,選出適合每個季節的最優特征值來進行預測,提高模型預測的精確度。

猜你喜歡
互信息權值麻雀
一種融合時間權值和用戶行為序列的電影推薦模型
CONTENTS
拯救受傷的小麻雀
1958年的麻雀
麻雀
基于權值動量的RBM加速學習算法研究
基于多維度特征權值動態更新的用戶推薦模型研究
緊盯著窗外的麻雀
基于互信息的貝葉斯網絡結構學習
聯合互信息水下目標特征選擇算法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合