?

基于非等權聚類混合PSO-SVR的短期空氣質量預測模型研究

2023-02-22 03:06鄧國取
運籌與管理 2023年12期
關鍵詞:空氣質量粒子混合

鄧國取, 陳 虎

(河南科技大學 管理學院,河南 洛陽 471023)

0 引言

空氣質量與人類日常健康生活息息相關。作為生命的四大要素之一,空氣在維持生態系統方面起著重要作用。近年來,人類活動嚴重加劇了空氣污染程度,空氣質量已成為全社會廣泛關注的焦點問題。因此研究影響空氣質量的因素,合理預測空氣質量(Air Quality Forecasting,AQF)對大氣污染監管和治理有著重要的現實意義[1]。目前的研究將AQF分為短期AQF(Short Air Quality Forecasting,SAQF)、中期AQF和長期AQF。中長期AQF通常用作較長時間內的空氣質量預測,主要用于規劃工業用地或居住區的分布以及實現中長期精細化預報,為污染防控和達標規劃提供更多的提前量。SAQF常用于輔助調控短期內的交通網絡,還可輔助個人出行,預防本人過度暴露于外部污染環境中。因此,SAQF對社會發展和人們的日常生活都具有重要意義。

SAQF常用的是混合預測模型,為克服支持向量回歸(Support Vector Regression,SVR)在處理海量數據方面的不足, GHAEMI等[2]首次建立了基于Hadoop平臺的分布式計算模型。SHAH等[3]引入人工蜂群誤差最小化的參數優化算法思想和SVR結合用于空氣質量預測,所提出的混合模型具有更高的預測性能。但廣泛使用的算法包括蟻群優化(Ant Colony Optimization,ACO),遺傳算法(Genetic Algorithm,GA)等算法不能很好地存儲粒子信息。同時,上述算法參數優化時間較長,不能最大程度發揮SVR算法的優勢[4,5]。隨著計算機性能的不斷提高,研究人員在早期神經網絡的基礎上引入長短期記憶網絡(Long Short-Term Memory Recurrent Neural Network,LSTM)對空氣質量進行預測,但忽略了多因素對單一空氣污染物的影響[6-8]。

目前,國內外學者對空氣質量的研究主要集中對空氣質量指數(Air Quality Index,AQI)的研究。國內學者大多是基于2012年3月國家發布的空氣質量評價標準《環境空氣質量標準》(GB 3095-2012),將PM2.5,PM10,SO2,CO,NO2和O3這6種污染物用統一的AQI作為評價標準。羅宏遠等[9]提出AQI不僅可以直觀地呈現出空氣質量的變化趨勢,還可直接服務于政府工作者和相關群體。部分研究表明,除6大污染物以外,氣象因素如氣溫、天氣、風速、風向等也是影響AQI預測的重要因素[10,11]。許文軒等[12]在華北地區AQI的時空分布規律研究中引入空間異質性和空間相關性的思想,分析了經濟和自然因素對空氣質量產生的影響。但現有大多數研究在測量AQI時多采用污染物濃度或氣象等直接因素,忽略了社會發展過程中工業化和城市化等直接或間接因素對AQI的影響。龔光彩等[13]以北京市為例,建立了沒有考慮社會經濟因素的區域環境關聯模型。事實上,AQI是直接因素和間接因素的綜合表現結果,用單一的直接因素測量AQI不夠充分,可能存在測量誤差,從而會降低模型的預測精度。李靜萍和周景博[14]首次采用結構方程模型(Structural Equation Model,SEM)分析工業化和城市化對城市空氣質量的影響,不僅可以用觀測變量代替不可測的潛變量,還可以容許測量指標存在的誤差,從而能更精確地估計各因素對空氣質量的影響。

綜上所述,本研究基于歷史氣象數據,首先使用相關方法篩選影響空氣質量預測的重要氣象因素,并構建結構方程模型探究經濟社會發展中工業化和城市化兩大指標對空氣質量的影響,篩選出對空氣質量影響較大的非氣象影響因素;其次為提高實驗數據的規律性,依托SVR處理小樣本的優勢,運用K-means聚類算法把數據拆分成若干類別的小規模數據;最后將粒子群優化算法(Particle Swarm Optimization,PSO)與SVR結合,建立混合PSO-SVR模型提高空氣質量的預測精度,以期為社會生產發展和人民生活提供服務。

1 混合PSO-SVR模型原理

1.1 SVR原理

支持向量機是一種常用的判別方法,它遵循SRM原理,在處理小樣本和高維特征空間問題上具有獨特的優勢。支持向量機最初用于解決模式識別問題,但近年來通過引入不敏感損失函數ε來處理非線性回歸估計問題。支持向量機用于解決回歸問題時被稱為支持向量回歸(Support Vector Regression,SVR),其主要思想是通過使用非線性函數將數據集xi(i=1,…,n)映射到一個高維特征空間。具體關系表示為:

f(x)=ωTφ(x)+b

(1)

其中,f(x)為輸出值,ω和b為系數,φ(x)為非線性映射函數,可以將輸入值轉換為高維特征空間。ω和b的調控值如下:

(2)

其中,Rε()是經驗風險,C是正則化參數,也即懲罰因子。

(3)

(4)

K(xi,xj)=φ(xi)φ(xj)

(5)

目前研究中常用的有3類核函數,包括多項式核函數、Sigmoid核函數和高斯核函數。多項式核函數是維數最高的且該類函數的計算靈也較大,從而導致該類函數的誤差值較高。對于Sigmoid函數而言,只有部分數值符合Mercer定理條件,其適用局限性導致部分數值無法保證函數的正定性。而高斯核函數在SVR研究中是最常用的一種,也被稱為徑向基核函數(Radial Basis Function,RBF)。該函數可以將數據映射到無限維,且計算復雜度相對更低。因此本研究采用RBF作為支持向量回歸的核函數,函數的定義為:

(6)

1.2 PSO原理

在SVR模型中,預測精度主要受不敏感損失變量ε、徑向基核系數變量γ以及懲罰因子c等變量的影響。構建PSO-SVR混合模型的目的就是進行參數尋優,找到SVR中最佳參數組合以此來提高預測精度。在進行SVR回歸預測前,需要確定懲罰因子c、徑向基核系數變量γ和不敏感損失變量ε。懲罰因子c過小會導致預測精度大幅降低,從而導致泛化能力變差,但c過大將會導致容忍度較低,從而預測精度降低。在進行參數尋優過程中,本研究將以懲罰因子c較小的原則進行選擇。徑向基核系數變量γ控制SVR對輸入變量的敏感程度。不敏感損失變量ε表示容忍模型誤差的能力,代表擬合邊界的寬度,在實驗過程中應盡可能多的使樣本位于擬合邊界上。因此,為達到參數組合的最優,采用粒子群優化算法對參數進行選擇。

粒子群優化是在迭代優化的基礎上發展起來的種群計算技術。首先,初始化一組粒子,然后通過跟蹤單個極值pibest和全局極值pgbest來更新這些粒子在下一次迭代中的速度和位置;當發現這兩個端點后,PSO算法將對每個粒子的速度和距離進行識別。

假設在i維搜索空間中存在m個粒子。第i個粒子表示為xi=(xi1,…,xid),其中i=1,…,m。也就是說,第i個粒子的位置為xi。第i個粒子的速度也是一個矢量,用vi=(vi1,…,vid)表示。該粒子的最優位置為pi=(pi1,…,pid),而整個種群的最優位置為pg=(pg1,…,pgd)。標準的粒子群算法更新了現有的粒子群算法,具體的定義如下:

(7)

(8)

(9)

1.3 混合模型構建

混合PSO-SVR算法的整體流程如圖1所示。

圖1 聚類混合PSO-SVR建模流程圖

首先采用逐步回歸的方法將污染物數據、氣象數據和時間特征數據進行降維處理;其次為更好體現SVR對小樣本數據處理的優勢,采用K-means對降維處理后的數據進行聚類劃分;最后將聚類劃分后的小樣本數據輸入到PSO-SVR模型中進行數值預測。具體步驟如下:

步驟1在進行逐步回歸降維處理前,假設實驗數據中存在c條樣本數據,n個自變量(特征處理后的變量數據),則該集合可表示為X=(X1,…,Xn),本研究中的因變量AQI用Y表示,如下所示:

Y=β0+βiXi+ε,i=1,…,n

(10)

步驟2建立因變量Y與自變量子集{Xτ1,X1},…,{Xτ1,Xn}的二元回歸模型,共有n-1個,再次計算回歸系數以及對應的F檢驗統計量的值為Fk″(k?S1) ,令Fτ2″為其中的最大值;在給定顯著性水平α=0.05下,對應的臨界值為F(2),當Fτ2″≥F(2),則將Xτ2加入到回歸模型中,否則結束變量引入過程。

步驟3重復步驟2的操作,得到本研究最終的所需要的方程模型如下:

(11)

步驟4選擇l個質心,將經過特征編碼后的原始數據乘上對應的系數βi后,將新的數據集Yτ輸入到K-means聚類算法中得到l個數據集合,分別為u1,…,ul∈Rn,Yτi∈Rn,i=1,…,c,計算數據集Yτ中每一個樣本到質心uj的歐氏距離,不斷更新集合的質心,將其歸為l個集合,具體計算公式如下:

(12)

步驟5將每個集合Si中的30%作為測試集,最后輸入到PSO-SVR模型中得到S(Si,P(c,γ,ε))即為AQI的預測結果。

2 數據實驗與分析

2.1 數據來源

本研究借助Python相關工具PyCharm收集中國氣象總局發布的2017年1月1日至2019年12月31日全國34個省份的歷史空氣質量指數(AQI)以及氣象因素(溫度、風向、風力、降雨、壓強以及濕度等,通過計算近三年各地區年均AQI顯示,北京市,天津市,山東省,河北省,山西省,陜西省,河南省,安徽省,新疆等9個地區的空氣污染在近三年中表現較為嚴重,為驗證混合模型的優越性,將以北京市,天津市以及其他7個地區省會城市的氣象數據為基礎,同時使用數據采集器收集中國空氣質量在線監測分析平臺發布的2017年1月至2019年12月這9個城市的每日六大污染物濃度。然后將AQI,氣象因素、污染物及工業化和城市化因素作樣本數據展開研究。

2.2 評價指標

研究選擇均方誤差(Root Mean Square Error,RMSE)和平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)來檢驗所提出的混合模型的預測性能。其計算公式為:

(13)

(14)

(15)

(16)

2.3 結果比較

本研究選擇GA-SVR,BPNN,XGBoost和LSTM四個模型分別對加入工業化和城市化因素的實驗數據進行測試。選擇GA-SVR模型的原因是,為了對比突出PSO優化參數效果比GA算法更適用于該模型。選擇人工神經網絡ANN中的BPNN模型,主要原因是該模型在實驗數據較少時,通過徑向基神經元和線性神經元建立廣義回歸神經網絡較穩定,從而保證較好的預測效果。選擇XGBoost模型的原因是可以提供并行樹提升,進而能快速準確地解決大樣本數據,但由于短期空氣質量預測的樣本數據規模有限,采用該模型可能會由于樣本數量導致模型訓練效果不夠優良,從而降低預測精度。選擇LSTM的原因是隨著計算機性能的不斷提高,在早期神經網絡的基礎上開發的卷積神經網絡、循環神經網絡和LSTM等得到應用,其中,LSTM在六大污染物濃度預測上的效果優于其它模型。本研究選擇Tensorflow框架下Keras中的LSTM方法和混合模型PSO-SVR進行比較,探究二者在高峰值的擬合效果,以此進一步驗證混合模型的優良性。如表1所示,展示了9個城市在5種模型下測驗后的平均結果。

表1 模型的評價指標

BPNN,XGBoost和LSTM模型在本研究中采用實驗前設置的默認參數。通過實驗可知,混合PSO-SVR的評價指標優于其他模型、模型的預測時間也是最短,進一步驗證了本研究提出的混合PSO-SVR模型的優良性。

3 總結與展望

本研究將粒子群算法和支持向量回歸、結構方程模型和K-means聚類相結合,構建了非等權聚類混合PSO-SVR模型,并以中國地區的9大城市為例進行了性能測試。首先對數據進行初步預處理,分析時間影響因素以及氣象影響因素,然后結合經濟社會發展中工業化和城市化影響因素構建結構方程模型,最終將最優變量組合輸入基于K-means聚類的混合PSO-SVR模型,同時進行比較分析驗證所提出的混合模型的性能。結果顯示混合模型在預測精度和運行時間方面都占據一定的優勢。本研究的主要貢獻可歸納如下:(1)不僅計算了影響AQI的最優的氣象變量組合,而且還引入結構方程模型探究了經濟社會中工業化和城市化因素對空氣質量的非直接影響,以此提高了AQI預測精度;(2)引入無監督聚類算法K-means,增強了建模數據的規律性,減少了單次數據預測量,提高了預測精度的同時縮短了運行時間。此外,借助 PSO優化算法實現參數的自動選擇,克服了SVR收斂過早問題;(3)通過選取中國地區具有代表性的2個直轄市和7個省會城市進行模型的檢驗,驗證了該模型的可實用性;同時選擇GA-SVR,BPNN,XGBoost和LSTM四個模型做對比,進一步驗證了加入工業化和城市化因素后,本研究提出的混合PSO-SVR模型優于其他四個模型,在高峰值的擬合中表現較為穩定??諝赓|量的變化對自然生態系統和經濟社會的影響正在加速,重視并提高我國對空氣質量狀況的預測,加強氣候變化研究至關重要。因此為增強本研究所提出的模型的適應度和準確度,下一步工作將重點研究工業化和城市化進程對大氣污染物濃度的影響,盡可能為綠色經濟社會發展提出針對性的政策和建議。

猜你喜歡
空氣質量粒子混合
混合宅
一起來學習“混合運算”
基于粒子群優化的橋式起重機模糊PID控制
基于粒子群優化極點配置的空燃比輸出反饋控制
油水混合
“空氣質量發布”APP上線
車內空氣質量標準進展
重視車內空氣質量工作 制造更環保、更清潔、更健康的汽車
開展“大氣污染執法年”行動 加快推動空氣質量改善
混合所有制
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合