?

空氣質量指數預測方法綜述

2024-01-15 01:28俞婧婧唐立力王志舜鐘長華
關鍵詞:空氣質量預測影響

俞婧婧 唐立力 吳 浩 王志舜 鐘長華

(1.四川輕化工大學自動化與信息工程學院,四川 宜賓 644000;2.人工智能四川省重點實驗室,四川 宜賓 644000)

空氣質量指數(AQI)是描述空氣質量的一個綜合指數,是衡量空氣質量的重要指標。該指標的計算通常根據PM2.5、PM10、臭氧等多種污染物濃度進行計算。AQI的取值范圍在0~500,數值越高,空氣質量越差,對人體的危害也越大[1]。AQI是為了讓公眾易于評估空氣質量的好壞,并以數據的形式協助環境管理做出一些重要的決策。1997年6月,我國頒布了國標文件《環境空氣質量標準》(GB3095-1996)采用空氣污染指數(Air Pollution Index,API)來評價空氣質量,API評價體系中僅包含SO2、NO2、PM10這三大污染物。但在實際運用中,我國人民在日常生活中感受到的空氣狀況與API顯示出的空氣狀況存在非常大的反差,為了解決這一問題,我國于2012年頒布了新的國標文件《環境空氣質量標準》(GB3095-2012),用AQI替代API。AQI評價體系在API評價體系的基礎上增加了PM2.5、O3、CO這三種污染物。

隨著全球工業化與城市化的不斷發展,空氣污染已成為全球范圍內人們廣泛關注的問題。近年來,在政府的積極推動下,人們的環保意識有所提高,對降低空氣污染付諸行動,但效果甚微。根據相關研究,空氣質量的好壞會影響公眾的身體健康,暴露在劣質空氣中可能引起過敏反應,增加公眾患呼吸系統疾病、心血管疾病、神經系統等疾病的概率[2-3]。因此,AQI的預測可以為公眾了解當前的空氣質量情況,避免長時間暴露在有害氣體中,保護公眾健康。對于保障人類健康和城市空氣污染防治起著至關重要的作用。

Xu 等[4]選擇了58個氣象因子與多個社會經濟因素研究發現氣象和社會經濟因素都與空氣質量密切相關,Ye等[5]針對傳統空氣污染研究只關注單一污染物問題,研究發現AQI還受GDP、能源消耗以及人口聚集等因素影響。以上研究說明了影響AQI的因素眾多。倘若單從氣象環境復雜多變這一特點來說,AQI預測的準確度難以保證。并且對于隨機序列來說,找出自變量與因變量之間的關系關山難越。因此近些年AQI預測成為了許多學科較受關注的研究課題。目前,針對AQI預測的方法主要有統計預測方法[6]、機器學習的預測方法[7]以及組合模型的預測方法[8]。

1 統計預測方法

統計預測方法在AQI預測中的應用可以追溯到20世紀60年代,當時美國政府開始研究如何減少城市空氣污染。為了更好地監測和預測空氣污染情況,政府開始建立空氣質量監測站,收集氣象數據和AQI等信息。隨著數據收集的不斷增加,政府開始嘗試使用統計預測方法來預測AQI。

統計預測方法需在建模前對歷史數據進行預處理,然后在處理好的數據中選擇部分訓練數據構建數學模型,最后使用構建好的數學模型預測未來值。在預測的過程中,需要對模型不斷地迭代更新,使其能夠適應數據與環境的變換。統計預測方法是一種常用的AQI預測方法。目前,常見的統計預測方法包括多元線性回歸模型(MLR)、時間序列模型、灰色模型(GM)等。

MLR是根據實際問題確定自變量與因變量,并利用樣本建立多元線性回歸模型。其因可以處理多個輸入變量的優點而被廣泛使用,但該模型的穩定性受輸入變量之間相關性影響,并且過多或過少的自變量都會導致模型預測能力下降。因此該模型通常用于模型比對,如Lei等[9]通過實驗將MLR與機器學習的預測方法進行比較后發現,MLR的預測性能不及機器學習預測方法;石曉文等[10]為了證實長短期記憶網絡(LSTM)的預測精度,將LSTM與支持向量機(SVM)、MLR、反向傳播神經網絡(BP)進行實驗比對,得出LSTM在AQI≤200時預測精度高。

時間序列模型包括自回歸模型(AR)、移動平均模型(MA)、自回歸移動平均模型(ARMA)以及差分自回歸移動模型(ARIMA)等預測模型,這些模型都是用于時間序列數據預測。ARIMA是基于ARMA模型衍生出來的,ARMA由AR與MA模型組成。其中AR描述了當前值與前幾個值之間的關系,MA描述了當前值與前幾個隨機誤差之間的關系。ARMA通常包含兩個參數:自回歸項的數量p與移動平均項的數量q,在建模過程中這兩個參數需要根據歷史數據進行選擇。因ARMA對非平穩時間序列的擬合效果較差,故ARIMA在ARMA模型的基礎上引入了差分的概念,使其可以處理非平穩序列?;舅枷胧窍葘υ紩r間序列進行階數為d的差分將信號與噪聲分離,此時非平穩序列變為了平穩序列,然后再把無噪聲的信號作為數據源應用ARMA模型來獲得預測值。Slini等[11]使用ARIMA模型預測AQI,但該模型的缺點是對于高階差分的計算較為復雜、僅挖掘時間序列自身的數據特征,在實際應用中較為簡單。孫朝云等[12]通過對比多個模型(含MLR與ARIMA)的決定系數(R)值得出LSTM、門控循環單元(GRU)和雙向長短期記憶網絡(Bi-LSTM) 性能較好。

灰色模型主要包括GM(1,1)模型和GM(2,1)模型。GM(1,1)模型是通過對原始數據進行累加后得到累加數列,然后通過建立一階線性微分方程對累加數列進行預測。GM(2,1)模型在GM(1,1)模型的基礎上增加了一階差分序列,以便獲得更為準確的預測結果?;疑P蛯π颖緮祿哂休^好的預測效果,計算速度快、精度高且不受噪聲影響。但是,當數據呈周期性、季節性時,該模型可能出現較大誤差,需要進行適當的預處理。并且,灰色模型的預測精度受參數影響較大,即若參數選擇不當,模型的預測能力將會受到影響。因此有學者在灰色模型的基礎上進行了優化研究,如Xiong 等[13]在灰色模型的基礎上進行了擴展,改進了參數估計法,獲得了令人滿意的預測結果。此外,經研究發現數據質量也會直接影響該模型的預測結果,且因其依賴歷史數據,導致其在中長期預測中的效果不佳[14]。

總的來說,統計預測方法是基于統計數據和歷史數據來構建數學模型,利用構建好的模型預測未來的AQI值。統計預測模型雖然可以高效地分析并處理歷史數據,以便精確地預測未來值,但該方法的局限性在于它不能很好地處理非線性關系和復雜的影響因素。并且,統計預測方法一般不考慮空氣污染物濃度,而是只通過分析空氣質量的歷史數據來預測AQI,僅根據局部數據規律建立模型,并不適用于中長期預測。

2 機器學習預測方法

機器學習預測方法一般需要較大的數據量,因其擁有著強大的計算能力,且在不同領域應用廣泛。目前,BP、SVM、隨機森林(RF)、極限學習機(ELM)、LSTM等機器學習預測模型在AQI預測研究中備受學者青睞。

BP神經網絡通過反向傳播算法來訓練模型,不斷調整網絡中的權重和偏置,以適應新的數據從而使預測結果更加準確[15]。該網絡可以模擬非線性數據,適合用于復雜的預測問題。閆妍等[16]使用BP神經網絡預測AQI,得出該模型雖然速度慢,但適應性較好,得到的結果比對還算成功。此外,單一的BP神經網絡在搜索較大解空間時,容易陷入局部最優,影響預測結果。

SVM是一種常用的分類回歸算法,對于小樣本的數據集具有較好的泛化能力。此外,SVM具有較好的非線性建模能力。其核心思想是通過計算找到一個最佳分離超平面對新數據進行分類[17],當數據不是線性可分時,通過核函數將數據映射到高維的空間中進行處理。在實際應用中,SVM需根據具體情況選擇合適的核函數與調節參數來優化分類效果。王春梅等[18]將BP與SVM用于預測西安的AQI,通過實驗對比得到BP與SVM在預測上雖有較大誤差,但預測結果與實際值的總體走勢相差不多,并且BP的均方誤差值略大于SVM的均方誤差值。但當數據集規模較大時SVM訓練速度慢,且其對噪聲及異常值比較敏感,在訓練前需進行預處理。

RF是決策樹(DTs)與裝袋(bagging)算法的結合,由多個相互獨立的RF組成,各個RF之間隨機抽取特征進行訓練,最終綜合各個RF的輸出結果進行預測。楊思琪等[19]研究運用了RF及回歸算法構建了AQI預測模型,并進行了分類模型的對比。該研究表明RF泛化性與穩健性較好,且在預測AQI時有較高的預測精度。但當數據集中噪聲較大時,使用RF會導致模型產生過擬合現象。

ELM輸入層接收數據特征,隱藏層中每個神經元隨機生成權重,采用sigmoid等激活函數將輸入特征映射到到非線性空間,最后將結果傳輸至輸出層進行線性回歸得到預測結果[20]。該模型訓練速度快并且可避免局部最優問題[21]。李澤婧等[22]所做實驗中ELM預測AQI的MSE達到了6.923。但由于ELM的隱藏層節點數、權值和閾值是隨機生成的,從而出現ELM學習能力下降的問題[23]。

LSTM是一種循環神經網絡(RNN),該模型通過一系列LSTM單元處理輸入數據,每個LSTM單元包括輸入門、遺忘門以及輸出門。其中,輸入門決定當前時間步輸入的數據對當前狀態的影響,遺忘門決定了上一個時間步的狀態對當前狀態的影響,輸出門控制當前狀態的輸出。LSTM從時間序列數據中學習長期依賴關系,有效地捕獲長序列之間的時間相關性。張春露等[24]利用LSTM模型預測空氣質量指數,雖然其預測的精準度不錯。但將LSTM應用到AQI預測中存在訓練時間長、容易過擬合、受限于數據質量以及需要大量數據等缺點。

綜上可知,雖然機器學習在AQI預測研究中廣泛應用,但目前對于機器學習算法與空氣質量問題結合所需關注和解決的問題主要有:(1)如何在保證模型精度的同時減少計算復雜度;(2)如何避免過擬合;(3)如何避免局部最優;(4)如何選擇合理算法以提高預測準確性和預測精度保持較高水平;(5)如何提高數據質量等。

3 組合預測方法

組合預測方法是指將兩個及兩個以上的模型通過取長補短組合在一起后使預測效果提高。組合預測模型不僅具有適應未來預測環境變化的能力,還彌補了單一模型的預測精度與穩定性差的問題[25]。目前,組合預測方法主要包含基于模型融合的組合預測方法、基于數據融合的組合預測方法以及基于參數優化的組合預測方法。

基于模型融合的組合預測方法是指將多個不同的預測模型組合進行預測,基本思想是綜合多個模型的預測結果,以不同權重進行組合來提高預測準確性和魯棒性,例如, Song等[26]為了提高AQI預測的準確性,將徑向基函數神經網絡(RBFNN)、集合經驗模態分解(EEMD)以及ARIMA三種模型通過權重分配進行組合來預測AQI,結果表明組合模型可以提高AQI預測的精度,有效減少了預測誤差。

基于數據融合的組合預測方法是通過將多源數據進行融合預測,正如前面所說,影響AQI的因素有很多,因此需要輸入數據中納入對其影響大的影響因子。例如,楊豐玉等[27]在預測AQI時將風力這一影響因子融合進來,實驗表明,融合風力影響因子與傳統K鄰近(KNN)相比AQI的預測準確率顯著提升。

基于參數優化的組合預測方法是通過優化算法來選取模型中的最優超參數,例如,為了解決BP收斂速度慢,容易陷入局部極小值的問題,Xu等[28]通過對慣性權重的優化來改善粒子群優化算法(PSO)的探索能力,再將優化后PSO與BP組合,以優化BP的權值和閾值,最終通過對比實驗表明作者提出的改進PSO-BP算法具有較高的預測精度。

綜上可知,不同的AQI預測方法都有各自的獨特之處。組合預測方法的優勢在于其靈活性,它通過將多個不同的預測模型、數據源和特征選擇算法結合起來,提高AQI預測的準確性和魯棒性。為了更好地比較不同方法的特點,本文提供以下表格,總結了統計預測方法、機器學習預測方法和組合預測方法之間的比較,如表1所示。

表1 不同方法比較

4 展望與總結

近些年,隨著環境科學領域對空氣質量問題的日益關注,AQI預測成為了該領域的一個重要研究焦點。本文采用綜述的方式,系統闡述并分析了AQI預測方法的演進歷程以及不同預測方法的特點和適用場景。盡管目前AQI預測研究已經取得了一定的研究成果,但依然存在以下挑戰和問題:

(1)復雜的影響因素??諝赓|量波動往往受到多種復雜因素的共同影響,包括氣象條件、人類活動、地理位置等因素。舉例來說,氣象因素如溫度、濕度、風速等會對顆粒物的濃度和擴散產生影響,溫度和濕度的變化可能會導致顆粒物的濃度波動,風速則會影響顆粒物的擴散和輸送[29],這些效應常常呈現為非線性關系,使得建立精準的AQI預測模型變得更具挑戰。因此在進行AQI預測時必須考慮這些因素對AQI的直接和間接影響,研究人員須深入挖掘這些復雜的空間關聯,特別是考慮到城市內不同區域之間的空氣質量差異。

(2)數據質量問題。在一些發展中國家和地區,AQI監測系統不完善,監測站點不足,會導致數據缺失、噪聲干擾嚴重等問題,這會影響預測模型的準確性和魯棒性。因此,除了需要加強監測設備的更新和維護、提高數據質量之外??梢钥紤]采用合適的數據處理方法和技術,以減少數據缺失和噪聲干擾的影響。舉例來說,采用數據插補的方法填充數據缺失的部分,以維持數據的完整性,例如,線性插值、均值替換、回歸替換等方法根據歷史數據來估算缺失的數值以確保檢測數據的連續性;采用噪聲濾波技術減少噪聲對數據的干擾,例如,使用平均濾波、中值濾波、小波變換等技術平滑數據,去除異常值,以提高數據質量。

(3)時空特性建模挑戰??諝赓|量受季節、時間和地理位置等因素的影響,在時空維度上存在明顯的變化??紤]到時間因素,過去的AQI數據對未來的空氣質量具有直接影響,因此,需要建立模型來捕捉歷史數據對AQI預測的影響。這可能需要動態更新權重以反映不同時間點的重要性,以確保模型能夠充分考慮歷史數據的影響。此外,空間依賴性在AQI預測中也至關重要,因為不同地理位置之間的氣象條件和人類活動水平差異較大,直接影響空氣質量。因此,建立空間關聯模型來考慮不同區域之間的空氣質量差異是一項重要挑戰??臻g插值、地理信息系統(GIS)等方法可以用于建立這種空間依賴性的模型,從而更準確地預測不同地區的AQI。

總的來說,解決這些挑戰需要繼續深入研究和發展AQI預測模型,結合先進的數據處理技術、時空建模方法以及監測設備的改進,以提高AQI預測的準確性和可靠性。這將有助于更有效地管理和改善空氣質量,保護環境和人類健康。

猜你喜歡
空氣質量預測影響
無可預測
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
是什么影響了滑動摩擦力的大小
不必預測未來,只需把握現在
“空氣質量發布”APP上線
沒錯,痛經有時也會影響懷孕
車內空氣質量標準進展
重視車內空氣質量工作 制造更環保、更清潔、更健康的汽車
開展“大氣污染執法年”行動 加快推動空氣質量改善
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合