?

基于機器學習的長沙市空氣污染物濃度預報研究

2022-09-02 09:20陳金車迪里努爾牙生王田宇王金艷孫彩霞謝祥珊
環境保護科學 2022年4期
關鍵詞:向量空氣質量污染物

陳金車,迪里努爾·牙生,王田宇,王金艷,孫彩霞,謝祥珊,馮 薇

(1. 蘭州市氣象局,甘肅 蘭州 730101;2. 蘭州大學大氣科學學院,甘肅 蘭州 730000)

近年來,隨著科技的不斷進步和經濟的快速發展,居民的生活水平越來越高,城市人口也在不斷擴增,環境污染問題已經成為人們所關注的一個焦點。嚴重的大氣污染不僅會對氣候、植物和生態系統產生影響,還會對人們的日常出行和身體健康帶來威脅[1?4]。細顆粒物是加重霧霾天氣的罪魁禍首,其與霧氣結合到一起使得大氣能見度降低,交通事故發生的頻次也隨之增加[5];高濃度的大氣污染物也會通過呼吸作用進入人體組織,從而引發一系列的呼吸系統疾病和心腦血管疾病[6?9]。因此,準確預測空氣污染物濃度就顯得十分重要,不僅有助于提高人們的生活質量并降低損失,還可以為政府部門制定相關對策提供理論依據。

目前,國內外對于空氣污染的預報方法主要分為2 種:數值預報和統計預報。數值預報模式往往要考慮污染物在大氣中所經歷的復雜的化學與物理過程,需要建立相對完備的氣象以及排放源等相關模型,運算也比較復雜;統計預報是通過已經發生的大量歷史數據進行歸納分析,尋找歷史數據的特征并總結規律,從而預報出未來的大氣污染物濃度,模型的構建比較簡單。長沙市作為湖南省內唯一一個新一線城市 ,是湖南省經濟發展的主心骨,長沙市的空氣污染帶來的經濟損失,對整個湖南省的經濟發展都會造成極大影響。因此,長沙市大氣污染的預報與防治更是重中之重。

隨著機器學習算法走進大氣科學領域,統計預報方法更是被推上了一個新高度,最具代表性的機器學習算法包括神經網絡算法、隨機森林算法和支持向量機算法等。作為一個新興領域,近些年機器學習在氣象與環境污染預測等方面被廣泛應用[10?12]。謝申汝等[13]通過建立支持向量機模型對大氣細顆粒物進行了預測,發現輸入參數的不同會對預測結果會產生較大影響;單大可[14]研究發現長短期記憶神經網絡結構憑借其對時序數據較強的處理能力,可以應用于溫度的精細化預報;李萍等[15]通過建立基于高斯核的支持向量機模型對北京、上海和廣州3 個一線城市的空氣污染指數(AQI)進行了預測,結果發現比傳統預測模型的預測效果更好;陶曄[16]使用隨機森林與長短期記憶神經網絡相結合的方法對氣溫和降水進行了預測,得到了比其他方法誤差更小的預測結果;孫全德等[17]通過建立機器學習模型對數值天氣預報模式ECMWF 對華北地區近地面10 m 風速的預報結果進行了訂正,結果發現機器學習算法在改善局地精準氣象預報方面有著巨大的潛力。

本文利用空氣質量監測數據和氣象數據,基于支持向量機算法和隨機森林算法建立SO2、NO2、O3、CO、PM10和PM2.5這6 種污染物日均濃度的預報模型,尋找出最適合于長沙地區的空氣質量預報模型。

1 資料與方法

1.1 數據來源

大氣污染物濃度監測數據和氣象數據分別來源于環境監測站和天氣后報網站(http://www.tianqihoubao.com/),選取長沙市的逐日數據,時間段 為 北 京 時 間2014 年1 月1 日 至2019 年12 月31 日,大氣污染物濃度監測數據包括的要素為SO2、NO2、O3、CO、PM10和PM2.5這6 種污染物的日均濃度值;氣象數據包括的要素為天氣狀況、最高氣溫、最低氣溫、風向和風速。首先對環境監測數據和氣象數據進行質量控制,將序列中的亂碼數據和缺失數據進行識別與剔除,采用相鄰非缺失值線性插值的方法進行訂正。

1.2 研究方法

1.2.1 歸一化 由于空氣污染物濃度數據以及氣象數據的量綱和量綱單位存在差異,這種差異不僅會影響模型的訓練速度,也會對最終的分析結果產生不利影響,因此在建立預報模型之前需要對數據進行歸一化處理,使得數據被限定在一定的區間內,從而消除由奇異樣本數據所帶來的不利影響,提高預測精度。本研究使用公式(1)將所選數據歸一化到指定區間(0,1)內,其中y代表經歸一化處理之后的數據,x代表經歸一化處理之前的數據,Xmax代表樣本數據中的最大值,Xmin代表樣本數據中的最小值,見式(1):

1.2.2 隨機森林篩選變量 通常情況下,一個數據集具有數百甚至數千種不同的特征, 在構建模型時選擇對結果影響最大的屬性以減少特征數量的方法已成為我們越來越關注的問題。目前在基于機器學習的大氣污染物濃度預報研究中,人們常用一些方法對影響污染物濃度的因素進行重要性評估,挑選出對污染物濃度影響較大的因素作為預報因子,以此來提高預報準確率[18?23]。隨機森林算法[24]可以對特征變量的重要性進行度量,尤其對于非線性問題更加適用,付旭東[25]于2020 年使用該方法對影響風場的預報因子進行了篩選,有效地提高了風場預報的準確率,該方法在污染物濃度的預測中使用較少。使用隨機森林算法篩選出重要屬性的思想是看每個特征對隨機森林中每棵決策樹的貢獻程度,然后取該特征貢獻的平均值,最后依據貢獻值大小對每個特征進行排序。通常情況下,這種貢獻大小可以通過基尼系數(Gini 系數)或者袋外數據錯誤率(OOB)來進行度量。

1.2.3 隨機森林回歸 隨機森林算法是由美國加州大學的Leo Breiman 教授于2001 年提出的,單一的決策樹算法在應用過程中經常會出現過擬合現象,而隨機森林算法的提出可以解決此類問題。隨機森林可以理解為不同的決策樹應用隨機處理方法所建立的算法,對于森林中的各棵決策樹而言,它們彼此之間互不相關,是相互獨立的個體。對于回歸問題,它采用的是最小方均差原則。對于任意劃分特征A 的任意劃分點S,將數據集劃分為S1和S2,要計算出使得S1和S2各自的均方差最小并且兩者均方差和最小的特征和特征值劃分點,其中,c1和c2分別為S1和S2的樣本輸出均值,yi為輸入樣本,見式(2):

1.2.4 支持向量機回歸 LIBSVM 是由臺灣大學的中國學者林智仁設計發明的,并被廣泛應用于分類問題和回歸預測問題。傳統支持向量機回歸預測模型的缺陷就是只能依據經驗以及對比試驗來進行選取核函數與其他參數,而LIBSVM 的出現則克服了這一缺陷。與SVM 相比,LIBSVM 涉及到的參數調節更少,很多參數都是默認的,合理利用這些設置好的默認參數可用來解決許多問題,LIBSVM 還在SVM 的基礎上提供了一種用于交互檢驗的新功能。

2 因子庫的建立

2.1 基于隨機森林的24 h 預報因子篩選

本文在構建污染物濃度的預報模型時,除了考慮過去5 d 的6 種污染物濃度值對次日待預測污染物濃度的影響外,還將星期效應、預測日的最高與最低氣溫、天氣狀況、風向和風速一并納入因子庫。為了降低濃度的突然波動對預測結果的影響,使得網絡模型在測試數據上更加穩定,這里采用滑動平均法對污染物濃度進行3 d 滑動平均處理。在考慮星期效應時,將星期一至星期日分別用數字1~7 表示。將預測日的天氣狀況進行分類,分別為晴天、陰天、多云天、霧天、雨天、雪天和雨夾雪天氣7 種天氣類型,為了避免與星期效應產生重復對預測結果帶來干擾,這里將以上天氣狀況分別用數字11~17 表示。將風向轉化為角度值,東北風、東風、東南風、南風、西南風、西風、西北風和北風分別 用 數 字45、90、135、180、225、270、315 和360 表示,無持續風向的情況則用數字0 表示。各空氣污染物濃度24 h 預報中預報因子的變量序號及其物理意義見表1。其中,X為輸入變量,Y為輸出變量,X1~X30 為大氣污染因子,X31 為星期效應,X32~X36 為氣象因子,Y1~Y6 為預測日6 種污染物的濃度值,見表1。

表1 大氣污染物濃度24 h 預報中預報因子的變量序號及其物理意義

計算出長沙市24 h 預報中影響SO2、NO2、O3、CO、PM10和PM2.5濃度的因子重要性系數,以SO2和NO2為例,見圖1。

圖1 長沙市24 h 預報中影響SO2、NO2 濃度的因子重要性系數

用隨機森林重要性評估的方法挑選出對SO2質量濃度影響較大的因子共計23 個(相對重要性系數累計值≥80%),排名在前3 位的預報因子依次為前1 d 的SO2濃度、預測日的天氣狀況和前2 d的SO2濃度;挑選出對NO2質量濃度影響較大的因子共計23 個,排名在前3 位的預報因子依次為前1 d 的NO2濃度、預測日的天氣狀況和預測日的最低氣溫。同理,可以挑選出對O3質量濃度影響較大的因子共計24 個,排名在前3 位的預報因子依次為前1 d的O3濃度、預測日的天氣狀況和前2 d的O3濃度;挑選出對CO 質量濃度影響較大的因子共計24 個,排名在前3 位的預報因子依次為前1 d的CO 濃度、前1 d 的PM2.5濃度和前2 d 的CO 濃度;挑選出對PM10質量濃度影響較大的因子共計22 個,排名在前3 位的預報因子依次為前1 d 的PM10濃度、預測日的天氣狀況和前1 d的PM2.5濃度;挑選出對PM2.5質量濃度影響較大的因子共計20 個,排名在前3 位的預報因子為前1 d 的PM2.5濃度、前1 d 的PM10濃度和前1 d 的NO2濃度。

2.2 基于隨機森林的48 h 預報因子篩選

與24 h 預報類似,將預報日向后推遲1 d,48 h預報中預報因子的變量序號保持不變,輸入變量中大氣污染因子(X1~X30)的物理意義由原來的前1~5 d 各污染物濃度值變為前2~6 d 各污染物濃度值,X31~X36 的物理意義不變,仍代表星期效應、預測日的最高與最低氣溫、天氣狀況、風向以及風速。預報因子的篩選過程同2.1 節,利用隨機森林重要性評估的方法挑選出對SO2質量濃度影響較大的因子共計23 個(相對重要性系數累計值≥80%),排名在前3 位的預報因子依次為前2 d 的SO2濃度、預測日的天氣狀況和預測日的風速;挑選出對NO2質量濃度影響較大的因子共計21個,排名在前3 位的預報因子依次為前2 日的NO2濃度、預測日的天氣狀況和預測日的最低氣溫;挑選出對O3質量濃度影響較大的因子共計23 個,排名在前3 位的預報因子依次為前2 d 的O3濃度、預測日的天氣狀況和預測日的最高氣溫;挑選出對CO 質量濃度影響較大的因子共計25 個,排名在前3 位的預報因子依次為前2 d 的CO 濃度、前2 d的PM2.5濃度和前2 d 的NO2濃度;挑選出對PM10質量濃度影響較大的因子共計24 個,排名在前3 位的預報因子依次為預測日的天氣狀況、前2 d的PM10濃度和前2 d 的SO2濃度;挑選出對PM2.5質量濃度影響較大的因子共計24 個,排名在前3 位的預報因子依次為前2 d 的PM2.5濃度、前2 d的NO2濃度和預測日的天氣狀況。

總的來說,當以某種污染物濃度作為輸出變量時,前1 d 的該污染物濃度(24 h 預報)和前2 d 的該污染物濃度(48 h 預報)對預報結果的貢獻最大;不論是24 h 還是48 h 預報,預測日的天氣狀況都是一個不容忽視的預報因子,其重要程度在大部分預報模型中排名第2,但其對CO 預報的貢獻較小,這可能與諸多的人為排放源有關;星期效應在長沙市空氣污染預報中的重要程度較低,因此在選取預報因子時可不予考慮。

3 結果與分析

利用隨機森林算法和支持向量機算法的回歸原理建立空氣污染物濃度預報模型。將數據集劃分為2 個部分:訓練數據和測試數據,其中訓練數據和測試數據又各自包含輸入數據和輸出數據。選取2014 年1 月1 日至2018 年12 月31 日合適時間段的數據作為訓練數據,2019 年1 月1 日至2019 年12 月31 日的數據作為測試數據,以此來構建基于機器學習的空氣污染物濃度預報模型。

(1)調入數據,對數據進行歸一化處理。

(2)從訓練數據中選取合適時間段的特征變量采用隨機森林算法和支持向量機算法分別訓練模型,形成不同預報時效空氣污染物濃度預報模型。

(3)將測試數據中的輸入數據輸入到已經訓練好的預報模型中,輸出經模型預報的空氣污染物濃度數據。

(4)反歸一化,得到空氣污染物濃度預報值的最終結果。

(5)對模型輸出的空氣污染物濃度預報結果進行誤差檢驗,評價不同污染過程、不同模型和不同方案下的預報效果。

3.1 典型個例分析

根據污染類型的不同,可將2019 年24 h 預報中的測試數據劃分為優、良、輕度污染、中度及以上污染4 個部分進行討論,研究在不同的污染類型下基于2 種機器學習算法的回歸模型對各種污染物濃度的預報效果。

3.1.1 空氣質量為優 2019 年長沙市空氣質量為優的天數為117 d,當空氣質量為優時,各污染物濃度真實值與預報值隨時間的變化,見圖2。

圖2 空氣質量為優時真實值與預報值的對比

SVM 表示經支持向量機輸出的預報值;SVM+S 表示篩選變量優化之后經支持向量機輸出的預報值;RF 表示經隨機森林輸出的預報值;RF+S 表示篩選變量優化之后經隨機森林輸出的預報值。圖2可知,對于SO2和PM10而言,支持向量機模型的預報值偏低,隨機森林模型的預報值偏高,而CO 則恰恰相反;對于NO2而言,優化后支持向量機模型的預報值偏低,隨機森林模型和優化前支持向量機模型的預報值偏高;對于O3和PM2.5而言,支持向量機模型和隨機森林模型的預報值都偏高。

空氣質量為優時各預報模型的均方根誤差分布,見表2。

表2 空氣質量為優時各預報模型的均方根誤差分布

表2 可知,變量篩選優化之后的支持向量機模型對SO2、NO2、O3、PM10和PM2.5濃度預報效果最好,預報結果的均方根誤差最??;變量篩選優化之后的隨機森林模型對CO 濃度預報效果最好,預報結果的均方根誤差僅為0.063 mg/m3,變量篩選優化之后的支持向量機模型對CO 濃度預報效果次之,預報結果的均方根誤差為0.065 mg/m3。

3.1.2 空氣質量為良 2019 年長沙市空氣質量為良的天數為200 d,當空氣質量為良時,各污染物濃度真實值與預報值隨時間的變化,見圖3。

圖3 可知,對于SO2而言,支持向量機模型的預報值偏低,隨機森林模型的預報值偏高,而CO則恰恰相反;對于NO2而言,優化后支持向量機和優化前隨機森林模型的預報值偏低,優化前支持向量機和優化后隨機森林模型的預報值偏高;對于O3和PM10而言,支持向量機和隨機森林模型的預報值都偏低;對于PM2.5而言,優化前的預報值都偏高,而優化后的預報值都偏低。

空氣質量為良時各預報模型的均方根誤差分布,見表3。

表3 空氣質量為良時各預報模型的均方根誤差分布

表3 可知,變量篩選優化之后的支持向量機模型對SO2、NO2、O3、PM10和PM2.5濃度預報結果的均方根誤差最??;變量篩選優化之后的隨機森林模型對CO 濃度預報結果的均方根誤差最小,其次為變量篩選優化之后的支持向量機模型。

3.1.3 空氣質量為輕度污染 2019 年長沙市空氣質量為輕度污染的天數為29 d,當空氣質量為輕度污染時,各污染物濃度真實值與預報值隨時間的變化,見圖4。對于SO2和而言,支持向量機模型的預報值偏低,隨機森林模型的預報值偏高,而CO 和PM2.5則恰恰相反;對于NO2而言,優化后支持向量機模型和優化前隨機森林模型的預報值偏低,優化前支持向量機模型和優化后隨機森林模型的預報值偏高;對于O3而言,優化前的預報值都偏低,而優化后的預報值都偏高;對于PM10而言,除優化前隨機森林模型的預報值偏高外,其余模型的預報值都偏低??諝赓|量為輕度污染時各預報模型的均方根誤差分布,見表4。

表4 空氣質量為輕度污染時各預報模型的均方根誤差分布

圖4 空氣質量為輕度污染時真實值與預報值的對比

表4 可知,變量篩選優化之后的支持向量機模型對NO2、O3、PM10和PM2.5濃度的預報效果最好;變量篩選優化之后的隨機森林模型對CO 濃度的預報效果最好;變量篩選優化之前的支持向量機模型對SO2濃度的預報效果最好。

3.1.4 空氣質量為中度及以上污染 2019 年長沙市空氣質量為中度及以上污染的天數為19 d,當空氣質量為中度及以上污染時,各污染物濃度真實值與預報值隨時間的變化,見圖5。對于SO2和PM10而言,支持向量機模型的預報值偏低,隨機森林模型的預報值偏高,CO 反之;對于NO2而言,各模型的預報值都偏高;對于O3而言,除了優化前支持向量機模型的預報值偏高外,其余模型的預報值都偏低;對于PM2.5而言,各模型的預報值都偏低??諝赓|量為中度及以上污染時各預報模型的均方根誤差分布,見表5。

表5 空氣質量為中度污染及以上時各預報模型的均方根誤差分布

圖5 空氣質量為中度污染及以上時真實值與預報值的對比

變量篩選優化之后的支持向量機模型對SO2、NO2、PM10和PM2.5濃度的預報效果最好;變量篩選優化之后的隨機森林模型對O3和CO 濃度的預報效果最好。

不同污染等級下4 種方法預報結果均方根誤差的均值分布,見表6。

表6 不同污染等級下4 種方法預報結果均方根誤差的均值分布

空氣質量在優、良、輕度污染時,SO2、NO2、CO、PM10和PM2.5濃度預報結果的均方根誤差隨著AQI 指數的增大而增大,然而到了中度污染及以上時,SO2、NO2和PM10濃度預報結果的均方根誤差反而減小,這可能與數據樣本量過小有關,由于測試數據中長沙市空氣質量為中度及以上污染的天數僅僅只有19 d,遠小于其他污染類型的天數,因此帶來了偶然性。

3.2 長時間預報效果檢驗

基于隨機森林和支持向量機2 種機器學習算法,分別將隨機森林重要性評估法挑選出的預報因子和未經挑選的預報因子作為預報模型的輸入變量,對2019 年一整年這6 種空氣污染物的濃度分別進行預報,得到預報結果。2 種方案24 h和48 h 預報結果的誤差評價指標對比,見表7 和表8,為了便于敘述,將未經預報因子篩選的方案定義為方案A,經過預報因子篩選的方案定義為方案B。

表7 2 種方案24 h 預報結果的評價指標對比

表8 2 種方案48h 預報結果的評價指標對比

表7 和表8 可知,在24 h 預報中,對于隨機森林預報模型而言,除了PM10預報結果的平均絕對誤差和均方根誤差方案B 大于方案A,判定系數和準確率方案B 小于方案A 以外,其余指標的預報結果均表明方案B 優于方案A;對于支持向量機預報模型而言,所有指標的預報結果均表明方案B 優于方案A。在48 h 預報中,對于隨機森林預報模型而言,除了NO2預報結果的均方根誤差方案B 稍大于方案A,判定系數方案B 稍小于方案A 以外,其余指標的預報結果均表明方案B 優于方案A;對于支持向量機預報模型而言,所有指標的預報結果均表明方案B 優于方案A,這與24 h 預報中所得到的結論一致。整體而言,經隨機森林篩選變量對模型進行優化之后,可有效提高模型的預報性能,提高準確率。

4 結論

文章基于長沙市2014~2019 年的空氣污染資料與氣象資料,利用隨機森林重要性評估的方法對預報因子進行了篩選,結合支持向量機回歸模型和隨機森林回歸模型對6 種污染物濃度分別進行了預報。

(1)在諸多預報因子中,前日的污染物濃度對該污染物預報的貢獻最大,其次是預測日的天氣狀況,長沙市空氣質量預報受星期效應的影響較小,在建立預報因子庫時可將其忽略。

(2)AQI 指數越高,預報結果的均方根誤差越大,且各模型的預報準確率隨著預報時效的增加而減小。

(3)LIBSVM 模型在長沙市空氣質量預報中較RF 模型有更強的泛化能力,預報結果的誤差更小,準確率更高,且經隨機森林篩選變量對預報模型進行優化可有效提高預報準確率,因此可將隨機森林篩選預報因子的支持向量機回歸模型推廣至長沙市空氣質量預報的業務中,可為長沙市空氣質量業務化預報提供技術支撐和防控依據。

猜你喜歡
向量空氣質量污染物
烏海市霧對空氣質量的影響
向量的分解
室內污染物苯系物危害現狀及防治措施
你能找出污染物嗎?
Task 1
向量垂直在解析幾何中的應用
空氣污染物可通過皮膚進入人體
向量五種“變身” 玩轉圓錐曲線
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合